오늘 포스팅은 KUBIG 정규세션 스터디의 일환으로 "Statistical Significance and p-values + t-Test"에 대해 발표를 목적으로 작성하게 됐다. 스터디는 "Practical Statistics for Data Scientists" 라는 도서를 공부하고 한 주간 특정 부분을 맡아서 발표를 하는 식으로 진행된다. 따라서 지금 작성하는 포스팅의 모든 내용은 모두 이 책에 기반으로 작성되었음을 알린다.
Statistical Significance and p-values
우리는 실험을 통해 관찰된 데이터를 토대로 가설을 검정한다. 관찰된 데이터의 variation에 영향을 줄 수 있는 factor는 크게 두가지이다. 하나는 treatment의 effect이고 다른 것은 chance variation이라고 하는, 쉽게 말해서 우연을 통해 발생하는 variation이다. 관찰된 데이터의 결과가 후자의 effect로 설명될 가능성이 높다면, treatment의 effect가 통계적으로 유의하다고 말할 수 없다. 하지만 후자의 effect로 설명하기가 극히 드물경우, treatment의 effect는 통계적으로 유의하다고 할 수 있다.
여기서 의문이 드는 점이 있다. 그렇다면 후자(chance variation)의 effect로 설명될 가능성은 어떤식으로 계산할 수 있을 것인가?
이를 위해 필요한 것이 p-value이다.
p-value의 통계학적인 정의부터 살펴보자.
" 귀무가설이 지배하는 chance model에서, 관찰된 데이터만큼 unusaual하거나 extreme한 결과를 얻을 확률"
귀무가설(null hypthesis)은 우리가 기각하고자 하는 가설로써, 흥미로운 결과가 일어나지 않고(treatment effect x), 일반적으로 참이라고 판단되는 가설이다. (데이터내의 variation은 chance로써 설명된다.) 이러한 가설이 지배하는 모델에서p-value가 희박하다면, 이 말은 즉, 귀무가설로써는 관찰된 데이터를 설명하기는 어렵다고 해석할 수 있다. 나아가 귀무가설을 기각하고, treatment의 유효성을 인정하는 가설을 체택할 수 있는 것이다.
좀더 practical한 p-value의 정의는 다음과 같다.
"chance로 인해 결과가 발생할 확률"
이 정의는 즉, 포스팅의 초반에 언급한 후자(chance)의 effect로 설명될 가능성이라는 뜻과 의미가 동일하다. 결국 p-value를 통해 이러한 가능성을 수치적으로 계산하고, 이를 토대로 treatment의 유효성을 판단하는 것이다.
여기서 또 궁금한 점이 있을 수 있다. 그럼 p-value가 어떤값보다 작아야 treatment의 가능성이 유효하다고 판단할 수 있는가?
여기서 어떤값에 해당하는 것이 alpha라고 하는 값으로, 유의수준이라고 표현된다. 이 값은 정하기 나름이지만 일반적으로 많이 쓰는 값은 0.05, 0.01 이다.
Type 1 Error & Type 2 Error
우리가 가설검정을 하면서 범할 수 있는 오류는 두가지이다. 하나는 chance에 의해서 발생한 variation을 effect의 영향으로 판단하는 것(Type 1 Error)이고, 다른 하나는 effect에 의해서 발생한 variation을 chance에 의한 variation으로 판단하는 것(Type 2 Error)이다. 먼저 후자의 경우는 표본이 effect를 반영하지 못할만큼 작을때 주로 발생하고, 잘 발생하는 error는 아니다. 하지만 전자의 경우 흔히 발생되는 error이다. alpha값을 줄임으로써 어느정도는 해결할 수 있다.
t-Tests
우리가 가설검정을 할때 결국 필요한 것은 p-value이고, 이 p-value는 귀무가설이 지배하는 chance 모델에서 구해진다. 여기서 chance 모델을 어떠한 통계모델(reference model)을 쓰는지 결정하는 것도 매우 주요한 issue이다. t-test는 t-distribution을 이러한 통계모델로써 활용하는 가설검정방법이다. 구체적인 방법에 대해서 소개를 하면, 먼저 관찰된 데이터로 부터 도출된 표본평균을 표준화(standardize)함((표본평균-모평균)/표준오차)으로써 test-statistic을 계산한다. 여기서 모평균은 귀무가설에서 가정하는 평균이라고 생각하면 편하다. 마지막으로 도출된 test-statistic의 t-분포상 위치를 통해 p-value를 계산한다. p-value를 구했다면, 설정한 유의수준과의 비교를 통해 귀무가설의 기각여부를 결정한다.
Multiple testing
우리는 어떤 실험을 할때 가설검정을 한번만 하지는 않는다. 즉 여러번의 가설검정을 수행할 수 있다. 가령 어떤 회귀모델에서 독립변수 20개에 대해서 유의수준 0.05로 가설검정을 수행했다고 하자. 그리고 모두 통계적으로 유의하다는 결론이 나왔고, 우리는 20개의 독립변수가 모두 유의하다라고 결론을 내렸다.
여기서 이와같은 결론이 반드시 참일까에 대해서 우리는 생각할 필요가 있다. 위와 같은 경우에서 만약 20개의 독립변수 모두 실제로는 통계적으로 유의하지 않을 확률은 다음과 같이 계산할 수 있다. 0.95*0.95*0.95..... = 0.36. 이 값을 이용해 적어도 하나의 독립변수는 통계적으로 유의하다고 잘못 판단할 확률은 1-0.36 = 0.64이다. test의 횟수가 많아질 수록 자연스레 이 확률은 점점 증가할 것이다. 이와 같이 mulitple testing을 통해 발생하는 현상을 alpha inflation이라고 한다.
이러한 현상을 방지하기 위해서는 alpha값을 최대한 작게 설정할 수 있다.
데이터과학자 입장에서는 결국 모델을 test할때 이러한 multiplicity에 직면하게 되는데, holdout sample을 여러개로 나누어 검증하는 cross validation을 사용하면 이를 방지할 수 있다.
Degrees of Freedom
자유도, degree of freedom의 정의는 vary할 수 있는 value의 수를 의미한다. 가령 10개의 value값으로 이루어진 sample에 대한 평균을 알고 있다면, 이 경우 sample의 자유도는 얼마일까?
정답은 9이다. 왜냐하면 우리는 9개의 값만 알아도 평균을 이용해 나머지 값이 무엇인지 알 수 있기 때문이다.
이러한 자유도는 여러부분에서 많이 활용되는데, 첫번째로는 우리가 가설검정을 할때 사용하는 t-분포나 F-분포와 같은 분포는 자유도에 의해 그 모양이 달라진다. 따라서 자유도를 결정하는 것은 정확한 reference model을 설정하는데 매우 중요하다. 두번째로는 dummy variable의 수를 결정할 때 적용된다. 우리가 어떤 회귀모델에 남자와 여자에 대한 dummy variable을 넣는다고 할때, variable는 몇 개 필요할까? 정답은 2개가 아닌 1개이다. 왜냐하면 자유도가 1, 즉 남자가 정해지면 자연스레 이에 해당하지 않는 값은 여자로 정해지기 때문이다.
[2022-1 KUBIG 정규세션] Interpreting the Regression Equation (0) | 2022.05.12 |
---|---|
[2022-1 KUBIG 정규세션] Statistical Significance and p-Values, and t-test 추가설명 (0) | 2022.04.14 |
[2022-1 KUBIG 정규세션] Sampling Distribution of a Statistic 추가설명 (0) | 2022.03.24 |
[2022-1 KUBIG 정규세션] Sampling Distribution of a Statistic 발표준비 (0) | 2022.03.17 |
[2022-1 KUBIG 방학세션] CV분반 방학세션 및 contest 후기 (0) | 2022.03.13 |
댓글 영역