상세 컨텐츠

본문 제목

[2022-1 KUBIG 정규세션] Sampling Distribution of a Statistic 발표준비

KUBIG

by 최끝장1234 2022. 3. 17. 12:23

본문

오늘 포스팅은 KUBIG 정규세션 스터디의 일환으로 "Sampling Distribustion of a Statistic" 에 대해 발표를 목적으로 작성하게 됐다. 스터디는 "Practical Statistics for Data Scientists" 라는 도서를 공부하고 한 주간 특정 부분을 맡아서 발표를 하는 식으로 진행된다. 따라서 지금 작성하는 포스팅의 모든 내용은 모두 이 책에 기반으로 작성되었음을 알린다.

 

Data distribustion vs Sampling distribution 

 

우리가 모집단과 관련한 Distribution을 한번 만들어 봐라라고 요구를 받으면, 가장 쉬운 방법은 모집단에서 표본을 추출하고 이 표본들의 각각의 값에 대한 frequency를 기준으로 Distribution을 만들 수 있을 것이다. (히스토그램을 활용해서 말이다.)

이처럼 특정 data의 각각의 값에 대한 frequency를 기준으로 분포를 만들때, 이 분포를 Data distribution이라고 한다. 

하지만 표본의 빈도 값을 활용하는 것이 아니라 우리는 sample statistic이라 하는 표본의 통계량을 구해서 이에 대한 빈도를 기준으로 분포를 만들어 낼 수 있다. 여기서 sample statistic은 평균이 가장 대표적이라고 할 수 있다. 즉 모집단에 대해서 sampling을 여러번해서 할때마다, sample statistic을 구한후 최종적으로 이들의 빈도를 기록하여 분포를 만들때, 우리는  이 분포를 Sampling distribution이라고 한다. 둘의 가장 큰 차이점은 Data distribustion은 표본을 한번 sampling할 때, 그 표본에 속하는 각각의 값들이 곧바로 분포를 만드는 frequency로 반영 된다는 점이고, Sampling distribution은 표본을 한번 sampling하고, 이들을 대표하는 하나의 sample statistic을 계산하고 이 하나의 값이 분포를 만드는 frequency로 반영된다는 점이다. (상대적으로 많은 sampling이 필요하다.)

 

참고로 Sampling distribution에서 중요한 개념이 하나 나오는데, 그게 중심극한정리(Central Limit Theorem)이다. 중심극한정리는 Sampling distribution을 만들때, sampling하는 sample size가 커질수록 distribution은 정규분포를 따른다는 가정이다. 중심극한정리는 전통 통계학에서 특히 중요한데, 모집단이 정규분포가 아닌 다른 분포를 가져도 Sampling distribution은 정규분포로 근사시킬 수 있기 때문이다.

 

중심극한정리 참조 그림, 출처-https://bioinformaticsandme.tistory.com/277

 

 

Standard Deviation vs Standard Error


Standard Deviation은 우리가 흔히 말하는 표준편차의 개념이다. 이와 흔히 혼동되는 개념이 Standard Error인데, 표본오차라고 불리는 개념이다. 우리는 Data distribution과 Sampling Distribution에 대해서 앞서 이해를 했기 때문에, 이 둘의 차이를 보다 쉽게 이해할 수 있다. 한마디로 Standard DeviationData distribution에서 이 각각의 data point들이 얼마나 variable한지를 측정하는 값이다. 우리가 한국 20대 남자의 키에 대한 데이터가 있으면, 이 데이터들이 얼마나 퍼져있는지를 대표하는 개념인 것이다. Standard ErrorSampling distribution에서 Sampling statistic가 얼마나 variable한지를 측정하는 값이다. 구하는 방법은 다음과 같다.

 

1. 모집단에서 여러번의 sampling을 수행한다. (sample size = n가정)

2. 각각의 sample에 대해서 sample statistic을 계산한다. 

3. sample statistic을 이용해 Standard Deviation을 계산한다. 이 값이 Standard Error이다.

 

Bootstrap 

전통적 통계학의 가장 큰 단점은 어떤 통계적 추론이나, 작업을 수행할때 가정을 만족하는지 먼저 확인을 해야한다. 즉, 하나의 가정을 충족시켜야만 그 다음 단계로 넘어갈 수 있다는 것이다. 이에 반해 Bootstrap은 현재 CS, 머신러닝 분야에최근에도 엄청나게 활용되는 기법으로, Sampling distribution을 추정할때 어떠한 가정도 포함하지 않고 있다. 즉 사용자 친화적인 통계적 기법이라고 할 수 있는 것이다. 

 

부트스트랩 그림, 출처-https://m.blog.naver.com/pmw9440/221863270023

부트스트랩에 대해서 구체적으로 알아보자. 부트스트랩을 위해서는 Original Sample이라는 것이 필요하다. 특별한게 아니고 모집단에서 샘플링한 데이터라고 생각하면 된다. 이제 우리는 Original Sample을 이용해 Bootstrap Sample을 만들 것이다. Bootstrap SampleOriginal Sample에서 복원추출을 통해 n번 sampling한다. 이렇게 한번의 과정을 거치면 하나의 Bootstrap Sample이 만들어 진다. Bootstap에서는 이러한 과정을 여러번 반복하여 많은 양의 Bootstrap Sample을 생성한다. (이 과정을 Resampling이라고 한다. 물론 Resampling이 bootstrap에만 한정되는 개념은 아니다.)

 

이제 Sampling distribution을 만들 준비는 다 끝났다. 여러개의 Bootstrap Sample에서 각각 sample statistic을 계산하고, 이에 대한 빈도를 활용해 분포를 만들면 끝이다. Bootstrap 과정을 쭉 따라오면 알겠지만, 초기에 Original Sample 하나만 있으면, 이에 대해서 사용자 임의로 많은 양의 sample을 만들어 낼 수 있고, Sampling distribution을 만들어 내기 매우 쉽다. 특히 Bootstrap은 결정트리와 같은 모델들을 앙상블할때 많이 쓰이고, 실제로도 좋은 효과를 낸다고 알려져있다.

 

Confidence Intervals

 

Confidence Interval, 신뢰구간전통적인 통계학에 따르면, 모집단의 통계량(ex. 평균)이 과연 우리가 얼마만큼의 confidence을 가지고, 특정구간 내 있을지 말할 수 있는 방법이라고 할 수 있다. 가령 90% 신뢰구간이라는 말은 우리가 sampling을 100번해서 각각에 대해서 신뢰구간을 만들어내면, 이중 90개는 평균적으로 모평균의 통계량을 포함하고 있는 구간이라고 할 수 있다. 즉 모집단의 통계량을 추론하기 위한 하나의 툴인 것이다.

 

하지만 Bootstrap, 현재 CS에서 신뢰구간은 모집단의 통계량을 추론하는 것보다, Sampling data가 얼마나 variable 할 것인지를 추정하기 위해 사용된다. 이 관점에서 90% 신뢰구간을 예로 들면, 우리가 100번의 sampling을 통해, sample statistic을 만들면 이 100개 중 90개는 평균적으로 포함되는 구간이라고 할 수 있다.

Bootstrap에서 x% 신뢰구간은 앞서 설명한 Bootstrap 과정을 통해 먼저 sample distribution을 만든 후 이 분포의 양 끝단으로 부터 [(100-x)/2]%의 sample statistic을 제거한다. 그리고 제거된 후 양끝단의 값이 곧, 신뢰구간을 의미하는 것이다. 이런식으로 Bootstrap의 x% 신뢰구간을 만들어놓으면, 우리가 이후 100개의 Bootstrap sample을 만들어서 sample statistic을 각각 구하면, 이중 x개는 이 구간 내에 포함될 것이라고 말할 수 있다. 즉, sampling을 통해 구한 sample statistic이 존재하는 범위자체를 통계적으로 설명을 할 수 있는 것이다.  

관련글 더보기

댓글 영역