반응형

통계 및 선형대수학 8

Singular Value Decomposition 수학적 정리

Singular Value Decomposition (SVD) n X p 매트릭스 X를 위와 같은 요소로 나누는 것이 SVD 어떠한 행렬을 U , D ,V 3개의 값으로 decomposition 할 수 있는 것이 SVD U : n X p , D : p X p (정방 행렬), V: p X p(정방 행렬) 기본적으로는 SVD를 하지않으면 계산이 복잡하기에 적용 (SVD 적용에 따라 모델의 속도차이가 큼, ex) pca는 속도가 빠르다) -> 곱 연산을 할 때 많은 연산들을 줄여주는 효과가 있음 위와 같이 SVD를 통해 임의의 matrix 공분산 구조행렬의 eigen vector, eigen value를 얻을 수 있음 X가 centered 되어있다면 , X^T * X 는 X의 공분산 구조 SVD와 eigen ..

Eigen vector 개념 정리

Eigen value, Eigen vector 정방행렬 A에 대해서 아래 식을 만족 할 경우 v는 고유 벡터 (eigen vector) 그리고 람다는 고유값 (eigen value) Av = 람다v 행렬식이 0 일 때 존재 함 위 그래프와 같이 A는 v를 선형변환한다 ( 선형 변환을 해도 방향은 유지되는 벡터가 고유 벡터고 늘어난 정도가 고유 값) 기하학적으로는 임의의 점 A라는 변형을 할 때 고유 벡터는 방향이 바뀌지 않는다는 것이 그 의미이고 변화 되는 스케일이 고유 값 수식으로 표현 위의 식에서 , x =0이 아닌 다른 해가 존재하려면, A- 람다*I 가 역행렬이 존재하지 않아야함 행렬식 |A| = 0 이 되는 람다 값을 계산 참고 ) 역행렬 행렬식과 역행렬의 존재성 관계 행렬식 |A| = 0 인 ..

상관 분석 및 실습

* 상관 분석 -> 두 연속형 변수 간에 어떠한 선형 관계를 가지는지 파악 , 피어슨, 스피어만 등이 있음 * 상관 계수 시각화 예시 * 단조 관련성 ->순위에 대한 상관계수를 측정할 때 쓰는 것 , r(x), r(y)는 x와 y에 대한 오름차순 순위 이것 r(x), r(y)을 가지고 식에 대입함 * 상관 분석 실습 p-value를 보면 모두 유의하므로 모두 관계가 있다고 볼 수 있다.

일원 분산 분석 및 실습(Anova)

* 일원 분산 분석 -> 셋 이상의 그룹간 차이가 존재하는 지를 확인하기 위한 가설 검정 방법 * 일원 분산 분석은 T검정을 사용하면 안된다 ? YES ->일원 분산 분석은 독립 표본 t검정을 여러 번 사용한 것과 같은 결과를 낼 것 처럼 보임 * 일원 분산 분석의 선행 조건 *일원 분산 분석 실습 Reject 결과가 True 면 유의미한 차이가 있다고 볼 수 있다 - > 귀무가설 기각

단일 ,독립, 쌍체 표본 t검정 ( 데이터 정규성 검정)

* 통계적 가설 검정 개요 * t 검정의 목적 -> 모집단의 분산이나 표준편차를 알지 못할 때 모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 가지고 검정하는 방법 쉽게말하면 그룹의 평균이 기준 평균과의 차이가 있는지를 확인 하기 위함 1. 단일 표본 T검정의 선행 조건 - 기본적으로 단일 표본 t 검정은 해당 변수가 정규 분포를 따라야 수행 가능하므로 kolmogorov-smornov나 shapiro-wilk를 사용한 정규성 검정이 선행 되어야 함. - 하지만 정규성 샘플 수가 많을 때에는 보통 정규성을 가정하므로 샘플 수가 부족한 경우에만 정규성 검정을 한 뒤에 정규성을 띄지 않는 다면 비모수적 방법인 부호검정(sign test)나 윌콕슨 부호-순위 검정을 수행해야함 * 단일표본 t 검정 실..

가설검정

-1. 기존주장과 신규주장의 비교(가설검정) 필요성1: 대부분의 분석은 "누구나" 할수 있는 "비교(A/B Test)"를 기반으로 하며, 일상생활부터 연구논문까지 다양 필요성2: "설명력"과 "(모델)복잡도"는 반비례하는 경향이 있으며, 설명력이 수반되는 모델들은 가설검정 해석이 필수 -> 대부분의 통계 및 수학을 기반으로하는 방법론들은 분석의 구현이나 결과에 대해 해석을 포함하지만 최신의 딥러닝 기반 알고리즘은 성능이 좋지만 이론적 수학적 통계적으로는 엄밀하게 이야기 하는 것이 어려움. 분석목적예시: 양치기들이 거짓말쟁이인가? 나의주장(B): 양치기들은 거짓말쟁이다! 대중주장(A): 양치기들은 거짓말쟁이가 아니다! -2. 가설Setting 조건 3가지: 상호배반적(Mutually Exclusive): ..

통계학 기본

모수(parameter)는 모집단(population)의 특성을 나타내는 수치로 모평균, 모분산, 모표준편차, 모비율, 모상관관계 등 표본 통계량(sample statistics)은 표본(sample)의 특성을 나타내는 수치로 표본평균, 표본분산, 표본표준편차, 표본비율, 표본상관관계 등, (표본) 통계량은 표본에서 얻은 모수에 대한 정보의 요약이므로 통계량은 모집단에서 추출한 특정 표본에 따라 달라지는 확률변수로 이 통계량의 확률 분포를 표본 분포(sampling distribution)라고 부른다. 표본 분포는 모집단 분포와 사뭇 다른 개념이다. 표본 분포는 통계량의 확률 분포였다면, 모집단 분포(population distribution)는 모집단을 구성하는 데이터의 확률 분포를 의미한다. 현실적으..

반응형
반응형