[머신러닝] 데이터 샘플링(Data Sampling) 관련
2021. 11. 18. 11:25ㆍ나혼머(나혼자머신러닝)/혼머공
핸즈온 머신러닝 2판에서 데이터 샘플링 관련해서 공부하던 중에
지금까지 내가 했던 샘플링 방식들이 잘못됐다는 것을 알게됐다..
현재 내가 보고 있는 회원 데이터 97만개 중에서
무작위로 1000명을 뽑아내고 싶다고 했을때,
나는 그냥 여자 500, 남자 500을 무작위로 비복원 샘플링을 했었는데,
현재 97만개의 데이터 중에 여성이 38.9%, 남성이 62.1%를 차지하고 있었기 때문에,
샘플에서도 이 비율을 유지해야 했다.
즉, 1000명을 뽑는다면 389명의 여성, 621명의 남성을 추출하는 계층적 샘플링(stratified sampling)을 해야 함..
I GOT IT
아이 갓잇
'나혼머(나혼자머신러닝) > 혼머공' 카테고리의 다른 글
[연관규칙(Association Rules)] 연관규칙 정리 (0) | 2021.11.23 |
---|