통계 및 선형대수학

가설검정

robin0309 2020. 10. 4. 13:53

-1.  기존주장과 신규주장의 비교(가설검정)

 

필요성1: 대부분의 분석은 "누구나" 할수 있는 "비교(A/B Test)"를 기반으로 하며, 일상생활부터 연구논문까지 다양

 

필요성2: "설명력"과 "(모델)복잡도"는 반비례하는 경향이 있으며, 설명력이 수반되는 모델들은 가설검정 해석이 필수

 

-> 대부분의 통계 및 수학을 기반으로하는 방법론들은 분석의 구현이나 결과에 대해 해석을 포함하지만

최신의 딥러닝 기반 알고리즘은 성능이 좋지만 이론적 수학적 통계적으로는 엄밀하게 이야기 하는 것이 어려움.

  • 분석목적예시: 양치기들이 거짓말쟁이인가?
    • 나의주장(B): 양치기들은 거짓말쟁이다!
    • 대중주장(A): 양치기들은 거짓말쟁이가 아니다!

-2.  가설Setting 조건 3가지:

  1. 상호배반적(Mutually Exclusive): 나의주장과 대중주장은 모호함 없이 독립적이어야 하며 더하면 다른주장은 없어야 함

    • 거짓말쟁이를 어떻게 정의하지? 어느 수준이 거짓말쟁이라는거지? -> 핵심

      • 나의주장: 양치기들은 다 거짓말쟁이다!
      • 대중주장: 모든 양치기들이 다 거짓말쟁이는 아니다!
  2. 증명가능성(Demostrable): 성급한 일반화에 빠지지 않으려면 증명 가능한 것이나 범위로 내세워야 함

    • 모든 양치기들을 확인하기도 어렵고 일부 양치기들 중에는 거짓말쟁이가 아닌 양치기도 있을 수 있음
    • 모든 양치기를 조사후 거짓말쟁이가 없다 하더라도 과거에는 거짓말 했을 수도 있음
      • 나의주장: 현재 대한민국에 있는 양치기들은 일반적으로 거짓말하는 경향이 있다!
      • 대중주장: 그들이라고 일반적으로 더 거짓말을 하는 경향이 있지는 않다!
  3. 구체적(Specific): 충분히 구별되고 실현가능한 표현으로 정의되어야 함

    • 나의주장: 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 한다!
    • 대중주장: 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 하지 않는다!

      가설변경에 따라 수집되는 데이터 및 분석 타겟팅하는 데이터가 변경됨!

-4.  가설검정 정리 및 절차:

  • 모집단(Population): 연구(관심) 대상이 되는 전체 집단
  • 표본(Sample): 모집단에서 선택된 일부 집단
  • 전수조사(Population Scale Test): 모집단 모두를 조사하는 방식으로 시간과 비용이 가장 비효율적인 방식 (ex.인구주택 총조사)
  • 표본조사(Sample Scale Test): 표본집단을 조사하는 방식으로 시간과 비용을 크게 줄일 수 있으나 편향성(Bias) 문제 존재 (ex.출구조사, 여론조사)
  • 추론통계(Statistical Inference): 모집단에서 샘플링한 표본집단을 가지고 모집단의 특성을 추론하고 그 신뢰성이 있는지 검정하는 것
    • 요즘은 내가 보유한 데이터를 표본으로, 보유하지 못하는 현실세계 전체의 데이터나 미래의 데이터를 모집단으로 보기도 함
    • 표본을 통해 모집단을 추정하기 때문에 표본의 특성이 모집단을 잘 반영해야 함
    • 표본의 기초통계(Descriptive Statistics) 확인을 통해 분포를 확인해야 함 (분포에 따라 분석 방법이 달라짐)
      • 모집단: 현재 전 세계 사람
      • 샘플집단: 현재 대한민국 사람
        • 샘플집단1: 현재 대한민국 양치기들
        • 샘플집단2: 현재 대한민국 일반인들
    • 결국 대한민국이라는 표본으로 전 세계 사람들이라는 모집단을 추론하는 것 - 추론 통계(Statistical Inference)
  • 통계량(Statistic): 표본의 특성을 나타내는 수치
  • 모수(Parameter): 통계량을 통해 알게 된 모집단의 특성
  • 표본오차(Sampling Error): 표본평균으로 모평균을 알아내는 것이 추론통계의 목적이기 때문에 "모평균-표본평균"으로 계산
    • 모평균은 모집단에서 표본추출을 통해 얻어진 표본평균으로 추정된 모집단의 특성이며, 절대 표본평균이 모평균을 그대로 나타내는 것은 아님!
  • 중심극한정리(Central Limit Theorem) -> 샘플의 특성이 모집단의 특성으로 수렴 할 것이다.
    "전체 모집단에서 여러 번 Sample을 추출해라. 그리고 Sample마다 평균을 구해라.
    이 평균들의 분포는 정규분포이며 전체 모집단의 평균으로 수렴한다."

    𝑋¯𝛼𝑁( 𝜇,𝜎2𝑛)X¯∼αN( μ,σ2n)

    1. 모집단이 어떤 분포든 "Sample 평균"의 분포는 정규분포다.
    2. "Sample 크기"가 클수록 "Sample 평균"의 분산은 낮아진다.
    3. "Sample 분산"은 대체로 원집단 분산에 매우 근접한다.
    4. Sample 평균과 분산만으로 모집단의 평균과 분산을 추론할 수 있다.
    5. CLT를 통한 추론으로 모집단의 분포 형태까지 추론하지는 못한다.
      (*모집단과 표본집단 비교 대신 표본집단간 비교 수렴에도 성립한다)
    6. "나의주장이 틀렸다면,"- 양치기들과 일반인들의 거짓말 빈도가 전혀 차이가 없어야 함

- 모든 양치기들을 조사하지 않더라도 Sample로 추출한 양치기의 거짓말 횟수 평균은 일반인의 거짓말 횟수 평균에 수렴해야 함
- 양치기의 거짓말 횟수 평균이 일반인의 거짓말 횟수 평균보다 같거나 적어야 함


1. 가설 설정

  • 대립가설(Alternative Hypothesis, 𝐻1H1): 나의주장, 분석 방법별 정해져 있음(보통 차이가 있다/영향력이 있다/연관성이 있다/효과가 있다)
    • 대립가설: 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 한다!
  • 귀무가설(Null Hypothesis, 𝐻0H0): 대중주장, 분석 방법별 정해져 있음(보통 차이가 없다/영향력이 없다/연관성이 없다/효과가 없다)
    • 귀무가설: 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 하지 않는다!

2. 검정통계량 및 유의확률 추정

  • 검정통계량(Test Statistics): 대립가설(나의주장)과 귀무가설(대중주장)을 비교하기 위한 검증(Evaluation)지표값, 일명 "점추정"

    • 검정통계량:                         샘플집단  양치기  거짓말  빈도  −  샘플집단  일반인  거짓말  빈도샘플집단  양치기  거짓말  빈도  표준편차
      • 양치기와 일반인의 거짓말 빈도가 차이가 없다면 이상적인 검정통계량은 0이고 나의주장 틀린 것
      • 양치기와 일반인의 거짓말 빈도가 차이가 있다면 검정통계량이 0에서 많이 벗어날수록(큰 양수) 나의주장 옳은 것
    • 검정통계량 로직:
      • 두 표본평균의 분포를 보려고 하면 분석이 어렵기 때문에, "두 표본의 차"만을 분석하면 간단해짐
      • X와 Y를 각각 추정하는 것보다 X-Y만 추정하면 훨씬 단순한 모형
      • 정규분포에서 정규분포를 빼도 정규분포
  • 신뢰구간(Confidence Interval): 검정통계량이 발생가능한 구간, 일명 "구간추정"

  • 유의수준(Significant Level, 𝛼α):

    귀무가설(대중주장)이 참이라는 전제 하에, 대립가설(나의주장)이 참이라고 "오판"할 최대 확률

    • 유의수준 5%:
      • 양치기와 일반인의 거짓말 차이가 없다는 전제 하에,
      • 일반적으로,
      • 100번 중 95번은 귀무가설이 관찰되고(양치기와 일반인의 거짓말 차이가 없음),
      • 100번 중 5번은 대립가설이 관찰된다(양치기와 일반인의 거짓말 차이가 있음)
  • 신뢰수준(Confidence Level): 1-유의수준

4. (나의주장) 기각/채택 의사결정

  • 유의확률(p-value):

    귀무가설(대중주장)이 참이라는 전제 하에, 나의 데이터에서 대립가설(나의주장)이 관찰될 확률

    • 유의확률 10%:
      • 양치기와 일반인의 거짓말 차이가 없다는 전제 하에,
      • 나의 데이터는,
      • 서로의 거짓말 차이가 있다 오판할 확률(5%) < 서로의 거짓말 차이가 관찰될 확률(10%),
      • 양치기와 일반인의 거짓말 차이가 없다!(귀무가설(대중주장) 채택)
    • 유의확률 1%:
      • 양치기와 일반인의 거짓말 차이가 없다는 전제 하에,
      • 나의 데이터는,
      • 서로의 거짓말 차이가 있다 오판할 확률(5%) > 서로의 거짓말 차이가 관찰될 확률(1%),
      • 양치기와 일반인의 거짓말 차이가 있다!(대립가설(나의주장) 채택
  • 양측검정/좌측검정/우측검정:

-5  예시 및 정리

> 이해문제1: 양치기들이 거짓말쟁이인가?

1) 가설설정

     대중주장: 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 하지 않는다!

  • 나의주장: 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 한다!

2) 점추정 및 구간추정

  • 검정통계량(점추정):                         샘플집단  양치기  거짓말  빈도  −  샘플집단  일반인  거짓말  빈도샘플집단  양치기  거짓말  빈도  표준편차 (1회성)
  • 신뢰구간(구간추정): 실험을 여러번 반복해서 거짓말차이(검정통계량)의 히스토그램 또는 분포 (반복성)

3) 유의수준 및 유의확률

  • 유의수준: (대중주장이 참인 가정에서, 검정통계량 값으로 나의주장이 맞다 오판할 확률)
    : 양치기와 일반인이 거짓말 차이가 없다는 전제에서, 양치기들이 일반인보다 거짓말 빈도가 많다 오판할 확률
  • 유의확률: (대중주장이 참인 가정에서, 검정통계량 값으로 나의주장이 관찰될 확률)
    : 양치기와 일반인이 거짓말 차이가 없다는 전제에서, 양치기들이 일반인보다 거짓말 빈도가 많이 관찰될 확률

4) 의사결정: (유의수준 5%기준)

  • 나의주장 참: 나의주장이 맞다 오판할 확률은 5%나, 나의 데이터에서 나의주장이 관찰될 확률(3%)이 더 낮으니 양치기들은 거짓말쟁이!
  • 대중주장 참: 나의주장이 맞다 오판할 확률은 5%나, 나의 데이터에서 나의주장이 관찰될 확률(7%)이 더 높으니 양치기들은 거짓말쟁이가 아님!

> 이해문제2: (논문읽기 A/B Test) 내 알고리즘의 성능은 좋은가?

1) 가설설정

  • 대중주장: 지금까지 존재하는 알고리즘의 정확성은 최대 80%
  • 나의주장: 내가 만든 알고리즘의 정확성은 90%

2) 점추정 및 구간추정

  • 검정통계량(점추정): 지금까지 존재하는 알고리즘들로 나올수 있는 정확성 (1회성)
  • 신뢰구간(구간추정): 정확성을 여러번 반복해서 계산 시 정확성의 히스토그램 또는 분포 (반복성)

3) 유의수준 및 유의확률

  • 유의수준: 일반적인 알고리즘 정확성이 최대 80%일 거라는 가정하에, 알고리즘 정확성이 90%이라 "오판"할 확률
  • 유의확률: 일반적인 알고리즘 정확성이 최대 80%일 거라는 가정하에, 나의 실험에서 정확성이 90%가 관찰될 확률

4) 의사결정: (유의수준 5%기준)

  • 나의주장 참: 90% 정확성으로 오판할 확률은 5% 미만으로 희소하지만, 나의 실험에서 90% 정확성이 관찰될 확률은 3%로 희소한 범위 내 있으니 나의 주장이 맞고 내가 만든 알고리즘은 훌륭한 알고리즘!
  • 대중주장 참: 90% 정확성으로 오판할 확률은 5% 미만으로 희소하지만, 나의 실험에서 90% 정확성이 관찰될 확률은 7%로 희소한 결과가 아니니 대중 주장이 맞고 내가 만든 알고리즘은 일반적인 알고리즘!

> 심플정리1: 에너XXX 건전지 수명이 듀XX 보다 길다?

1) 가설확인:

  • 대중주장(H0): 에너XXX 수명 = 듀XX 수명
  • 나의주장(H1): 에너XXX 수명 > 듀XX 수명

2) 유의수준 설정 및 유의확률 확인:

  • 유의수준: 5%
  • 유의확률: 1% (H0가 참이란 가정에, 건전지 평균 수명(검정통계량) 100개를 실험)

3) 의사결정

  • 유의수준 > 유의확률: 나의주장 참!
    -> 에너XXX 수명이 더 김
  • 유의수준 < 유의확률: 대중주장 참!
    -> 에너XXX 수명이 더 길지 않음

> 심플정리2: 숟가락을 잘 구부리는 나는 초능력자다?

1) 가설확인:

  • 대중주장(H0): 내 능력 = 다른 사람의 능력
  • 나의주장(H1): 내 능력 > 다른 사람의 능력

2) 유의수준 설정 및 유의확률 확인:

  • 유의수준: 5%
  • 유의확률: 8% (H0가 참이란 가정에, 숟가락 구부린 횟수(검정통계량) 100명과 비교)

3) 의사결정

  • 유의수준 > 유의확률: 나의주장 참!
    -> 나는 초능력자!
  • 유의수준 < 유의확률: 대중주장 참!
    -> 나는 일반인!



    > 현실문제1: 출구조사

    • (방송표현) "출구조사 결과 A후보의 지지율은 40%로 추정되며, 95% 신뢰구간에서 +-3%의 오차가 발생할 수 있습니다"
    • (통계표현) "샘플링을 통해 A후보의 지지율(검정통계량)의 평균값은(점추정) 40%이며, 실제 모집단 확대시 A후보의 지지율이 37%~43%(구간추정)에 있을 확률이 95%이다"

      일반 적인 회귀분석이나 모든 시계열 분석은 가설검정이 포함 된다 -> 가설검정 가능

      데이터마이닝 딥러닝은 -> 모델은 정교(정확성 가능) 하지만 설명력은 줄어든다 
      -> 점추정만 가능 구간추정이 없어 가설검정 불가능 -> 가설 검정이 없으므로 학문적으로 이론적으로는 
      설명력이 없다고 표현가능
반응형
반응형