상세 컨텐츠

본문 제목

[2022-1 KUBIG 정규세션] Sampling Distribution of a Statistic 추가설명

KUBIG

by 최끝장1234 2022. 3. 24. 00:33

본문

이번 포스팅은 앞서 작성한 "Sampling Distribution" 에 대한 글을 읽고서 학회원분들이 질문한 내용을 토대로 추가적으로 설명을 하고자 작성됐다.

총 4가지 정도로 질문을 압축할 수 있었고, 다음과 같다. 

 

1. 부트스트랩을 통해 만들어진 sampling distribution의 가치

2. 부트스트랩의 original sample이 가져야 할 가정이나 조건

3. 표본오차의 개념과 활용

4. Resampling의 개념과 예시

 

 

1. 부트스트랩을 통해 만들어진 sampling distribution의 가치

 

- 기존의 sampling distribution과 같이 모집단의 분포를 추론가능 함. 특히 부트스트랩을 활용하면, 초기 하나의 샘플(original sample)만 가지고, resampling하여 sampling distribution을 뽑아내기 때문에, 비교적 적은 수의 샘플 하나만 가지고 있으면, 모집단의 분포에 대한 효과적인 근사가 가능함.

 

 

2. 부트스트랩의 original sample이 가져야 할 가정이나 조건

 

- original sample부트스트랩의 결과를 좌우할 수 있기 때문에 아주아주 중요하다. 결국 부트스트랩을 모집단을 근사하기 위한 sampling distibution으로써 활용을 하려면, 모집단을 대표할만한 sample일 필요가 있다. 고로 우리가 책에서 배운 random sampling 방법(bias를 줄이는 등..)을 시도해서 신경을 써서 sampling을 진행해야 한다. 또한 sampling size가 적은 것보다는 클 수록 효과적이라고 알려져있다. (by 큰수의 법칙)

 

 

3. 표본오차의 개념과 활용

 

표본오차는 글에서 말했듯이, 정의는 sampling distribution에서의 표본평균들의 표준편차이다. 따라서 우리가 sampling distibution을 이용하는 task, 신뢰구간을 추정할 때 등등에서 직접적으로 활용된다. 아래 그림에서도 직접적으로 신뢰구간을 구하는데 사용된다는 것을 알 수 있다.

출처- http://www.ktword.co.kr/test/view/view.php?m_temp1=5661

추가로 표본오차에 대해서 설명을 하면, 위와 같이 sampling을 여러 번을 거쳐서 표본평균을 통해 직접적으로 표본오차를 구할 수 있지만, sampling을 한번했을 때 데이터의 표준편차를 s라 하고 "s/루트(sampling size)"를 표준오차로써 근사하여 활용하기도 한다. 이 경우에는 t-검정과 같은 주어진 표본집단 하나에 대한 검정을 수행함에 있어, 검정 통계량을 계산하는데 직접적으로 활용된다. 신뢰구간을 계산할때도 활용된다.

 

 

4. Resampling 추가 예시 및 설명

 

여러 개의 부트스트랩 샘플을 만드는 과정이 Resampling이라고 설명함과 동시에, Resampling이 부트스트랩에만 한정된 개념이 아니라고 설명했다. 이에 대해 추가적으로 설명하고자 한다.

Resampling의 정의는 "내가 가지고 있는 샘플(original sample)에서 subset을 뽑아서 통계량의 변동성 등을 확인하는 작업"이다. 책에서도 나와있듯이 따라서 부트스트랩처럼 굳이 복원추출을 할 필요도 없고, 비복원추출을 하더라도 Resampling이라고 할 수 있다.

가장 대표적인 Resampling의 예는 머신러닝에서 많이 쓰이는 ‘k-fold 교차검증’이다. 우리는 초기의 데이터셋(original sample)을 가지고 있을 때, 이를 k개의 subset으로 나누어 하나는 테스트데이터로 나머지 k-1개는 훈련 데이터로 사용한다. 그리고 k개의 테스트 결과를 평균을 통해 계산한 값을 모델의 성능을 판단하기 위해 사용한다. 이러한 교차검증 역시 original sample에서 subset을 뽑아서 통계적으로 모델을 검증하는 방식으로 볼 수 있기 때문에 이를 Resampling이라고 할 수 있는 것이다.  

 

참고자료- https://kejdev.github.io/posts/sampling-resampling/

 

 

관련글 더보기

댓글 영역