-1. 기존주장과 신규주장의 비교(가설검정)
필요성1: 대부분의 분석은 "누구나" 할수 있는 "비교(A/B Test)"를 기반으로 하며, 일상생활부터 연구논문까지 다양
필요성2: "설명력"과 "(모델)복잡도"는 반비례하는 경향이 있으며, 설명력이 수반되는 모델들은 가설검정 해석이 필수
-> 대부분의 통계 및 수학을 기반으로하는 방법론들은 분석의 구현이나 결과에 대해 해석을 포함하지만
최신의 딥러닝 기반 알고리즘은 성능이 좋지만 이론적 수학적 통계적으로는 엄밀하게 이야기 하는 것이 어려움.
- 분석목적예시: 양치기들이 거짓말쟁이인가?
- 나의주장(B): 양치기들은 거짓말쟁이다!
- 대중주장(A): 양치기들은 거짓말쟁이가 아니다!
-2. 가설Setting 조건 3가지:
-
상호배반적(Mutually Exclusive): 나의주장과 대중주장은 모호함 없이 독립적이어야 하며 더하면 다른주장은 없어야 함
-
거짓말쟁이를 어떻게 정의하지? 어느 수준이 거짓말쟁이라는거지? -> 핵심
- 나의주장: 양치기들은 다 거짓말쟁이다!
- 대중주장: 모든 양치기들이 다 거짓말쟁이는 아니다!
-
-
증명가능성(Demostrable): 성급한 일반화에 빠지지 않으려면 증명 가능한 것이나 범위로 내세워야 함
- 모든 양치기들을 확인하기도 어렵고 일부 양치기들 중에는 거짓말쟁이가 아닌 양치기도 있을 수 있음
- 모든 양치기를 조사후 거짓말쟁이가 없다 하더라도 과거에는 거짓말 했을 수도 있음
- 나의주장: 현재 대한민국에 있는 양치기들은 일반적으로 거짓말하는 경향이 있다!
- 대중주장: 그들이라고 일반적으로 더 거짓말을 하는 경향이 있지는 않다!
-
구체적(Specific): 충분히 구별되고 실현가능한 표현으로 정의되어야 함
- 나의주장: 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 한다!
- 대중주장: 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 하지 않는다!
가설변경에 따라 수집되는 데이터 및 분석 타겟팅하는 데이터가 변경됨!
-4. 가설검정 정리 및 절차:
- 모집단(Population): 연구(관심) 대상이 되는 전체 집단
- 표본(Sample): 모집단에서 선택된 일부 집단
- 전수조사(Population Scale Test): 모집단 모두를 조사하는 방식으로 시간과 비용이 가장 비효율적인 방식 (ex.인구주택 총조사)
- 표본조사(Sample Scale Test): 표본집단을 조사하는 방식으로 시간과 비용을 크게 줄일 수 있으나 편향성(Bias) 문제 존재 (ex.출구조사, 여론조사)
- 추론통계(Statistical Inference): 모집단에서 샘플링한 표본집단을 가지고 모집단의 특성을 추론하고 그 신뢰성이 있는지 검정하는 것
- 요즘은 내가 보유한 데이터를 표본으로, 보유하지 못하는 현실세계 전체의 데이터나 미래의 데이터를 모집단으로 보기도 함
- 표본을 통해 모집단을 추정하기 때문에 표본의 특성이 모집단을 잘 반영해야 함
- 표본의 기초통계(Descriptive Statistics) 확인을 통해 분포를 확인해야 함 (분포에 따라 분석 방법이 달라짐)
- 모집단: 현재 전 세계 사람
- 샘플집단: 현재 대한민국 사람
- 샘플집단1: 현재 대한민국 양치기들
- 샘플집단2: 현재 대한민국 일반인들
- 결국 대한민국이라는 표본으로 전 세계 사람들이라는 모집단을 추론하는 것 - 추론 통계(Statistical Inference)
- 통계량(Statistic): 표본의 특성을 나타내는 수치
- 모수(Parameter): 통계량을 통해 알게 된 모집단의 특성
- 표본오차(Sampling Error): 표본평균으로 모평균을 알아내는 것이 추론통계의 목적이기 때문에 "모평균-표본평균"으로 계산
- 모평균은 모집단에서 표본추출을 통해 얻어진 표본평균으로 추정된 모집단의 특성이며, 절대 표본평균이 모평균을 그대로 나타내는 것은 아님!
- 중심극한정리(Central Limit Theorem) -> 샘플의 특성이 모집단의 특성으로 수렴 할 것이다.
"전체 모집단에서 여러 번 Sample을 추출해라. 그리고 Sample마다 평균을 구해라.
이 평균들의 분포는 정규분포이며 전체 모집단의 평균으로 수렴한다."𝑋¯∼𝛼𝑁( 𝜇,𝜎2𝑛)X¯∼αN( μ,σ2n)
- 모집단이 어떤 분포든 "Sample 평균"의 분포는 정규분포다.
- "Sample 크기"가 클수록 "Sample 평균"의 분산은 낮아진다.
- "Sample 분산"은 대체로 원집단 분산에 매우 근접한다.
- Sample 평균과 분산만으로 모집단의 평균과 분산을 추론할 수 있다.
- CLT를 통한 추론으로 모집단의 분포 형태까지 추론하지는 못한다.
(*모집단과 표본집단 비교 대신 표본집단간 비교 수렴에도 성립한다) - "나의주장이 틀렸다면,"- 양치기들과 일반인들의 거짓말 빈도가 전혀 차이가 없어야 함
- 모든 양치기들을 조사하지 않더라도 Sample로 추출한 양치기의 거짓말 횟수 평균은 일반인의 거짓말 횟수 평균에 수렴해야 함
- 양치기의 거짓말 횟수 평균이 일반인의 거짓말 횟수 평균보다 같거나 적어야 함
1. 가설 설정
- 대립가설(Alternative Hypothesis, 𝐻1H1): 나의주장, 분석 방법별 정해져 있음(보통 차이가 있다/영향력이 있다/연관성이 있다/효과가 있다)
- 대립가설: 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 한다!
- 귀무가설(Null Hypothesis, 𝐻0H0): 대중주장, 분석 방법별 정해져 있음(보통 차이가 없다/영향력이 없다/연관성이 없다/효과가 없다)
- 귀무가설: 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 하지 않는다!
2. 검정통계량 및 유의확률 추정
-
검정통계량(Test Statistics): 대립가설(나의주장)과 귀무가설(대중주장)을 비교하기 위한 검증(Evaluation)지표값, 일명 "점추정"
- 검정통계량: 샘플집단 양치기 거짓말 빈도 − 샘플집단 일반인 거짓말 빈도샘플집단 양치기 거짓말 빈도 표준편차샘플집단 양치기 거짓말 빈도 − 샘플집단 일반인 거짓말 빈도샘플집단 양치기 거짓말 빈도 표준편차
- 양치기와 일반인의 거짓말 빈도가 차이가 없다면 이상적인 검정통계량은 0이고 나의주장 틀린 것
- 양치기와 일반인의 거짓말 빈도가 차이가 있다면 검정통계량이 0에서 많이 벗어날수록(큰 양수) 나의주장 옳은 것
- 검정통계량 로직:
- 두 표본평균의 분포를 보려고 하면 분석이 어렵기 때문에, "두 표본의 차"만을 분석하면 간단해짐
- X와 Y를 각각 추정하는 것보다 X-Y만 추정하면 훨씬 단순한 모형
- 정규분포에서 정규분포를 빼도 정규분포
- 검정통계량: 샘플집단 양치기 거짓말 빈도 − 샘플집단 일반인 거짓말 빈도샘플집단 양치기 거짓말 빈도 표준편차샘플집단 양치기 거짓말 빈도 − 샘플집단 일반인 거짓말 빈도샘플집단 양치기 거짓말 빈도 표준편차
-
신뢰구간(Confidence Interval): 검정통계량이 발생가능한 구간, 일명 "구간추정"
-
유의수준(Significant Level, 𝛼α):
귀무가설(대중주장)이 참이라는 전제 하에, 대립가설(나의주장)이 참이라고 "오판"할 최대 확률
- 유의수준 5%:
- 양치기와 일반인의 거짓말 차이가 없다는 전제 하에,
- 일반적으로,
- 100번 중 95번은 귀무가설이 관찰되고(양치기와 일반인의 거짓말 차이가 없음),
- 100번 중 5번은 대립가설이 관찰된다(양치기와 일반인의 거짓말 차이가 있음)
- 유의수준 5%:
-
신뢰수준(Confidence Level): 1-유의수준
4. (나의주장) 기각/채택 의사결정
- 유의확률(p-value):
귀무가설(대중주장)이 참이라는 전제 하에, 나의 데이터에서 대립가설(나의주장)이 관찰될 확률
- 유의확률 10%:
- 양치기와 일반인의 거짓말 차이가 없다는 전제 하에,
- 나의 데이터는,
- 서로의 거짓말 차이가 있다 오판할 확률(5%) < 서로의 거짓말 차이가 관찰될 확률(10%),
- 양치기와 일반인의 거짓말 차이가 없다!(귀무가설(대중주장) 채택)
- 유의확률 1%:
- 양치기와 일반인의 거짓말 차이가 없다는 전제 하에,
- 나의 데이터는,
- 서로의 거짓말 차이가 있다 오판할 확률(5%) > 서로의 거짓말 차이가 관찰될 확률(1%),
- 양치기와 일반인의 거짓말 차이가 있다!(대립가설(나의주장) 채택
- 유의확률 10%:
- 양측검정/좌측검정/우측검정:
-5 예시 및 정리
> 이해문제1: 양치기들이 거짓말쟁이인가?
1) 가설설정
대중주장: 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 하지 않는다!
- 나의주장: 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 한다!
2) 점추정 및 구간추정
- 검정통계량(점추정): 샘플집단 양치기 거짓말 빈도 − 샘플집단 일반인 거짓말 빈도샘플집단 양치기 거짓말 빈도 표준편차샘플집단 양치기 거짓말 빈도 − 샘플집단 일반인 거짓말 빈도샘플집단 양치기 거짓말 빈도 표준편차 (1회성)
- 신뢰구간(구간추정): 실험을 여러번 반복해서 거짓말차이(검정통계량)의 히스토그램 또는 분포 (반복성)
3) 유의수준 및 유의확률
- 유의수준: (대중주장이 참인 가정에서, 검정통계량 값으로 나의주장이 맞다 오판할 확률)
: 양치기와 일반인이 거짓말 차이가 없다는 전제에서, 양치기들이 일반인보다 거짓말 빈도가 많다 오판할 확률- 유의확률: (대중주장이 참인 가정에서, 검정통계량 값으로 나의주장이 관찰될 확률)
: 양치기와 일반인이 거짓말 차이가 없다는 전제에서, 양치기들이 일반인보다 거짓말 빈도가 많이 관찰될 확률
4) 의사결정: (유의수준 5%기준)
- 나의주장 참: 나의주장이 맞다 오판할 확률은 5%나, 나의 데이터에서 나의주장이 관찰될 확률(3%)이 더 낮으니 양치기들은 거짓말쟁이!
- 대중주장 참: 나의주장이 맞다 오판할 확률은 5%나, 나의 데이터에서 나의주장이 관찰될 확률(7%)이 더 높으니 양치기들은 거짓말쟁이가 아님!
> 이해문제2: (논문읽기 A/B Test) 내 알고리즘의 성능은 좋은가?
1) 가설설정
- 대중주장: 지금까지 존재하는 알고리즘의 정확성은 최대 80%
- 나의주장: 내가 만든 알고리즘의 정확성은 90%
2) 점추정 및 구간추정
- 검정통계량(점추정): 지금까지 존재하는 알고리즘들로 나올수 있는 정확성 (1회성)
- 신뢰구간(구간추정): 정확성을 여러번 반복해서 계산 시 정확성의 히스토그램 또는 분포 (반복성)
3) 유의수준 및 유의확률
- 유의수준: 일반적인 알고리즘 정확성이 최대 80%일 거라는 가정하에, 알고리즘 정확성이 90%이라 "오판"할 확률
- 유의확률: 일반적인 알고리즘 정확성이 최대 80%일 거라는 가정하에, 나의 실험에서 정확성이 90%가 관찰될 확률
4) 의사결정: (유의수준 5%기준)
- 나의주장 참: 90% 정확성으로 오판할 확률은 5% 미만으로 희소하지만, 나의 실험에서 90% 정확성이 관찰될 확률은 3%로 희소한 범위 내 있으니 나의 주장이 맞고 내가 만든 알고리즘은 훌륭한 알고리즘!
- 대중주장 참: 90% 정확성으로 오판할 확률은 5% 미만으로 희소하지만, 나의 실험에서 90% 정확성이 관찰될 확률은 7%로 희소한 결과가 아니니 대중 주장이 맞고 내가 만든 알고리즘은 일반적인 알고리즘!
> 심플정리1: 에너XXX 건전지 수명이 듀XX 보다 길다?
1) 가설확인:
- 대중주장(H0): 에너XXX 수명 = 듀XX 수명
- 나의주장(H1): 에너XXX 수명 > 듀XX 수명
2) 유의수준 설정 및 유의확률 확인:
- 유의수준: 5%
- 유의확률: 1% (H0가 참이란 가정에, 건전지 평균 수명(검정통계량) 100개를 실험)
3) 의사결정
- 유의수준 > 유의확률: 나의주장 참!
-> 에너XXX 수명이 더 김- 유의수준 < 유의확률: 대중주장 참!
-> 에너XXX 수명이 더 길지 않음
> 심플정리2: 숟가락을 잘 구부리는 나는 초능력자다?
1) 가설확인:
- 대중주장(H0): 내 능력 = 다른 사람의 능력
- 나의주장(H1): 내 능력 > 다른 사람의 능력
2) 유의수준 설정 및 유의확률 확인:
- 유의수준: 5%
- 유의확률: 8% (H0가 참이란 가정에, 숟가락 구부린 횟수(검정통계량) 100명과 비교)
3) 의사결정
- 유의수준 > 유의확률: 나의주장 참!
-> 나는 초능력자!- 유의수준 < 유의확률: 대중주장 참!
-> 나는 일반인!
> 현실문제1: 출구조사
- (방송표현) "출구조사 결과 A후보의 지지율은 40%로 추정되며, 95% 신뢰구간에서 +-3%의 오차가 발생할 수 있습니다"
- (통계표현) "샘플링을 통해 A후보의 지지율(검정통계량)의 평균값은(점추정) 40%이며, 실제 모집단 확대시 A후보의 지지율이 37%~43%(구간추정)에 있을 확률이 95%이다"
일반 적인 회귀분석이나 모든 시계열 분석은 가설검정이 포함 된다 -> 가설검정 가능
데이터마이닝 딥러닝은 -> 모델은 정교(정확성 가능) 하지만 설명력은 줄어든다
-> 점추정만 가능 구간추정이 없어 가설검정 불가능 -> 가설 검정이 없으므로 학문적으로 이론적으로는
설명력이 없다고 표현가능
'통계 및 선형대수학' 카테고리의 다른 글
카이 제곱 검정 개념 및 실습 (0) | 2020.12.28 |
---|---|
상관 분석 및 실습 (0) | 2020.12.28 |
일원 분산 분석 및 실습(Anova) (0) | 2020.12.27 |
단일 ,독립, 쌍체 표본 t검정 ( 데이터 정규성 검정) (0) | 2020.12.27 |
통계학 기본 (0) | 2020.06.26 |