Fisher’s exact test

Written on July 26, 2018

독립변수와 종속변수가 모두 범주형 변수라면 어떤 통계분석을 적용시킬 수 있을까? 이 질문에 맞는 분석은 교차표 분석이다. 여기서 독립변수는 연구자가 의도적으로 변화시키는 변수이고, 종속변수는 독립변수의 변화에 의해서 변화하는 변수를 지칭한다. 교차표 분석을 통해 설정 방법에 따라 여러가지 분석을 적용시킬 수가 있는데 대표적인 방법으로 카이제곱 및 피셔 정확도 검정이 있다.

Chi-squared Test

chi-squared test, 또는 $\chi^2$ test 검정은 카이제곱 분포에 기초한 통계적 방법으로, 관찰된 빈도가 기대되는 빈도와 의미있게 다른지의 여부를 검증하기 위해 사용되는 검증방법이다. 자료가 빈도로 주어졌을 때, 특히 명목척도 자료의 분석에 이용된다.

chi-square value는 $\chi^2 = \frac{\sum (O - E)^2}{E}$ 으로 계산한다. 여기서 $X$, $Y$는 각각 관측값 및 기대값이다.

Chi-squared Test Application

동질성 검증과 독립성 검증 두 유형이 있다. 동질성 검증의 경우에는 ‘변인의 분포가 이항분포나 정규분포와 동일하다’라는 가설을 설정한다. 이는 어떤 모집단의 표본이 그 모집단을 대표하고 있는지를 검증하는 데 사용한다. 독립성 검증에서는 변인이 두 개 이상일 때 사용되며, 기대빈도는 ‘두 변인이 서로 상관이 없고 독립적’이라고 기대하는 것을 의미하며 관찰빈도와의 차이를 통해 기대빈도의 진위여부를 밝힌다.

Fisher’s Exact Test

이건 실제로 있었던 이야기인데. 밀크티를 만들때, 차를 먼저 넣고, 우유를 나중에 넣는 경우와 우유를 먼저 넣고 차를 나중에 넣는 경우. 어떤 사람이 이 두가지 경우들을 구별할 수 있다고 주장한다면, 우리는 이것을 어떻게 증명할 수 있는가? 일반적으로 우연히 일어나는 경우와, 해당 사건이 얼마나 특이적으로 일어나는가를 비교함으로써 증명한다.

  tea first milk first total
tea 5 0 5
milk 1 4 5
total 6 4 10

이때 맛감별사가 정말 어떤 것이 먼저 들어간 차인지를 알아낼수 있는 능력이 있다고 한다면 이를 어떻게 통계적으로 이야기 할수 있는가? 피셔는 이를 통계적으로 정확히 계산하는 방법, Fisher’s exact test를 제안하였다. 이 테스트에서 사용되는 용어는 expected value, 두 변수가 독립인 경우에 대해서 기대값, enrichment = obs / expected_value, 독립인 경우의 기대값에 비해서 관측치가 얼마나 많이 나오는지를 계량한 값, p-value, 두 변수가 독립이지 않다는 가설에 대한 값, odd ratio, p / (1-p), 관련이 있을 확률에 대한 비율이다.