목차
전에 교수님께 들은 적이 있다. 한 연구소에서 AI 관련 연구를 하던 직원이 가장 힘들었던 점은 통계를 잘 몰라서였다는걸..
기초 통계
https://sun-dori.tistory.com/164
[#8 데이터 분석
목차파이프라인데이터 분석에서 데이터를 효과적으로 가져오고 분석하는 것은 매우 중요한 작업이다. 데이터를 어느 한 지점에서 특정 부분까지 가져오는데에 많은 장애(중복, 유실 등)가 있으
sun-dori.tistory.com](https://sun-dori.tistory.com/164)
이전 데이터분석에서 진행했던 것은 기술 통계였다. 기술통계말고도 알아야하는 것은 추론 통계이다.
추론 통계란 모집단에서 샘플링한 표본으로 모집단의 특성을 추론하고 그 결과가 신뢰성이 있는지 검정하는 과정이다.
추론 통계에서 모집단(population)은 연구나 분석에서 관심을 가지는 전체 집단을 의미하여 추론통계에서는 모집단 전체를 조사하기 어렵거나 불가능하기 때문에, 모집단에서 표본(sample)을 추출하여 이를 통해 모집단의 특성을 추정한다. 이 과정을 통해 얻어진 통계치를 이용해 모집단에 대한 결론을 도출하는 것이 추론통계의 주요 목표이다.
처음 공부할 때 모집단이 무엇인지 정의 내리기가 어려웠다. 그러나 이해가 될 때까지 공부하다 보니 점차 이해하게 되었다. 사전에서는 "통계적인 관찰의 대상이 되는 집단 전체"라고 정의한다. 이것만으로는 모집단의 개념을 이해하기 어려울 수 있다. 모집단의 어원을 살펴보면, 영어로 'population'은 '인구'를 의미한다. 한 마디로, 모집단은 연구자가 알고 싶어하는 집단 전체를 말한다. 예를 들어, "대한민국 남녀 평균 비만율을 알고 싶다"고 한다면 모집단은 대한민국 모든 남자와 여자의 몸무게가 된다. 아직도 이해가 안 된다면, 단순히 연구자가 알고 싶어하는 것의 전체라고 생각하면 된다. |
---|
표본은 무엇일까? 표본은 연구자가 측정하거나 관찰한 결과들의 집합을 말한다. 우리 어머니가 가끔 화장품 샘플을 받아오신다. 왜 그것을 샘플이라고 할까? 이는 작은 양이지만 한 번 써보고 그 화장품을 테스트해보라는 의미다. 이와 마찬가지로, 연구자들도 모집단 전체를 완벽하게 판단하는 것은 불가능하다. 모집단이 어떻게 구성되어 있으며 어떤 특성을 가지고 있는지에 대해 알기 위해 모든 개체를 조사하는 것은 시간적으로 매우 비효율적이다. 따라서 연구자들은 표본(sample)을 추출하여 이를 측정하거나 관찰함으로써 모집단의 특성을 추정한다. 이렇게 함으로써, 연구자들은 모집단에 대해 "이런 경향이 있겠구나", "이런 효과가 있겠구나", "이런 사람들이 사용하겠구나"라고 예측할 수 있게 된다. 요약하자면, 표본은 연구자가 모집단의 특성을 추정하기 위해 선택한 부분 집합이며, 이는 전수조사의 비효율성을 극복하기 위한 방법이다. |
모집단 | 표본 |
---|---|
관심의 대상이 되는 모든 개체나 관측값 등 측정값들의 집합 | 모집단에서 실제로 추출한 관측값이나 측정값. |
모수 | 통계량 | |
---|---|---|
대상 | 모집단의 특성 | 표본에서 계산한 특성 |
표시 | 그리스, 로마자로 표시 | 알파벳으로 표시 |
평균 | ||
표준편차 | ||
가설 수립과 검정
가설 수립(Hypothesis)
가설 수립은 모수에 대한 예상, 주장 또는 단순한 추측을 말한다.
1. 가설의 정의
가설은 연구나 실험을 통해 검증하고자 하는 구체적인 주장이나 예측을 의미한다. 통계적 가설은 두 가지로 나뉘는데, 귀무가설(Null Hypothesis, H₀)과 대립가설(Alternative Hypothesis, H₁)이다.
2. 영(0)가설 또는 귀무가설 (Null Hypothesis, H₀)
귀무가설은 연구나 실험에서 현재 상태나 기존의 이론을 나타내는 가설이다. 이는 일반적으로 "효과가 없다"거나 "변화가 없다"는 식의 보수적인 주장이다. 귀무가설은 통계적 검정에서 기각(reject)되거나 채택(accept)될 수 있다.
예시:
- H₀: 새로운 약물이 기존 약물과 효과가 같다
- H₀: 특정 교육 방법이 학생들의 성적에 영향을 미치지 않는다
3. 대립가설 (Alternative Hypothesis, H₁)
대립가설은 귀무가설에 반대되는 주장으로, 연구자가 검증하고자 하는 실제 가설이다. 이는 일반적으로 "효과가 있다"거나 "변화가 있다"는 식의 주장이다. 즉, 귀무(영) 가설이 채택되지 않을 때, 즉 두 모수에 대한 값이 다를 때의 가설.
예시:
- H₁: 새로운 약물이 기존 약물보다 효과가 더 크다
- H₁: 특정 교육 방법이 학생들의 성적을 향상시킨다
4. 가설 수립의 절차
- 연구 문제 정의: 연구하고자 하는 문제를 명확히 정의한다. 예를 들어, "새로운 약물의 효과를 평가하고자 한다."
- 귀무가설과 대립가설 설정: 연구 문제를 바탕으로 귀무가설(H₀)과 대립가설(H₁)을 설정한다.
- H₀: 새로운 약물이 기존 약물과 효과가 같다
- H₁: 새로운 약물이 기존 약물보다 효과가 더 크다
- 유의 수준 결정: 통계적 검정에서 오류를 허용하는 수준(주로 0.05)을 결정한다. 이는 잘못된 가설을 기각할 확률을 의미한다.
- 데이터 수집 및 분석: 실험이나 관찰을 통해 데이터를 수집하고, 통계적 방법을 사용해 분석한다.
- 통계적 검정 수행: 수집된 데이터를 바탕으로 통계적 검정을 수행하여 귀무가설을 기각할지 채택할지 결정한다.
- 결과 해석 및 결론 도출: 통계적 검정 결과를 해석하고, 연구 문제에 대한 결론을 도출한다.
5. 예시
예를 들어, 새로운 교육 프로그램의 효과를 검증하기 위해 다음과 같은 가설을 세울 수 있다.
- 연구 문제: 새로운 교육 프로그램이 학생들의 성적에 미치는 영향을 평가하고자 한다
- 귀무가설 (H₀): 새로운 교육 프로그램이 학생들의 성적에 영향을 미치지 않는다
- 대립가설 (H₁): 새로운 교육 프로그램이 학생들의 성적을 향상시킨다
6. 요약
가설 수립은 통계적 연구나 실험의 기초 단계로, 명확한 연구 문제를 정의하고, 이를 검증하기 위한 귀무가설과 대립가설을 설정하는 과정이다. 이 과정은 이후의 데이터 수집, 분석, 검정, 해석 등의 절차에 중요한 기준이 된다.
영(귀무)가설(Null Hypothesis) | 대립가설(Alternative Hypothesis) |
기각하기를 희망하여 형식화한 가설로 기존에 받아들이던 가설. 모수에 관한 귀무가설은 항상 모수의 정확한 값을 지정하도록 진술된 것인 반면, 대립가설에서는 여러 개의 값의 가능성을 허용한다. |
표본을 통해 입증하고자 하는 새로운 가설. 모수에 대한 관심의 영역 중에서 귀무가설로 지정되지 않은 모든 경우를 포괄적으로 지정 |
H0 | H1 |
귀신은 존재하지 않는다. 그 사람은 죄가 없다 |
귀신은 존재한다. 그 사람은 죄가 있다. |
가설 검정
1. 가설검정의 정의
가설검정은 통계적 방법을 사용해 두 가지 대립되는 가설 중 하나를 선택하는 과정이다. 주어진 데이터로부터 가설을 검정하여 귀무가설(Null Hypothesis, H₀)을 기각할지, 아니면 채택할지를 결정한다.
2. 가설검정의 단계
- 가설 설정: 두 가지 가설을 설정한다.
- 귀무가설 (H₀): 현재 상태나 기존 이론을 나타낸다. 예: "새로운 약물이 기존 약물과 효과가 같다."
- 대립가설 (H₁): 연구자가 검증하고자 하는 가설이다. 예: "새로운 약물이 기존 약물보다 효과가 더 크다."
- 유의 수준 결정: 유의 수준(α)을 설정한다. 일반적으로 0.05를 사용하며, 이는 5%의 확률로 귀무가설이 참인데도 불구하고 이를 기각하는 오류를 범할 가능성을 의미한다.
- 검정 통계량 계산: 데이터를 바탕으로 검정 통계량을 계산한다. 이는 표본 데이터를 사용해 계산되며, 모집단의 특성을 추정하기 위한 값이다.
- 기각역 설정: 기각역은 유의 수준과 검정 통계량의 분포를 바탕으로 설정된다. 기각역에 해당하는 검정 통계량 값이 나오면 귀무가설을 기각하게 된다.
- 결론 도출: 계산된 검정 통계량이 기각역에 속하는지 여부에 따라 귀무가설을 기각할지 채택할지를 결정한다. 기각역에 속하면 귀무가설을 기각하고, 그렇지 않으면 귀무가설을 채택한다.
3. 예시
예를 들어, 새로운 교육 프로그램이 학생들의 성적을 향상시키는지 검정하는 과정은 다음과 같다.
- 가설 설정:
- H₀: 새로운 교육 프로그램이 학생들의 성적에 영향을 미치지 않는다.
- H₁: 새로운 교육 프로그램이 학생들의 성적을 향상시킨다.
- 유의 수준 결정: α = 0.05로 설정한다.
- 검정 통계량 계산: 표본 데이터(교육 프로그램을 받은 학생들의 성적)를 사용해 t-검정 통계량을 계산한다.
- 기각역 설정: 유의 수준 0.05에 해당하는 t-분포의 기각역을 설정한다. 예를 들어, t값이 -1.96보다 작거나 1.96보다 크면 귀무가설을 기각한다.
- 결론 도출: 계산된 t값이 기각역에 속하면, "새로운 교육 프로그램이 학생들의 성적을 향상시킨다"고 결론 내리고, 그렇지 않으면 "새로운 교육 프로그램이 학생들의 성적에 영향을 미치지 않는다"고 결론 내린다.
4. 주요 용어
- 유의 수준 (Significance Level, α): 귀무가설을 기각할 임계값이다.
- 검정 통계량 (Test Statistic): 표본 데이터를 바탕으로 계산된 값으로, 가설 검정에 사용된다.
- 기각역 (Rejection Region): 검정 통계량이 이 영역에 속하면 귀무가설을 기각한다.
- p-값 (p-value): 관찰된 검정 통계량이 귀무가설을 기각할 정도로 극단적인지 나타내는 값이다.
가설검정은 통계적 결정을 내리는 중요한 방법으로, 이를 통해 연구자는 데이터에 기반한 결론을 도출할 수 있다.
오류
가설 수립과 검정은 과학적 연구와 통계 분석에서 핵심적인 과정이다. 특히, 오류의 개념은 이러한 과정에서 매우 중요한 역할을 한다. 오류는 주로 두 가지 유형으로 나뉜다: 제1종 오류와 제2종 오류. 이 글에서는 오류의 개념과 그 중요성에 대해 살펴보고, 구체적인 예시를 통해 이해 해보자.
오류의 개념
먼저, 오류에 대해 이해하기 위해서는 제1종 오류와 제2종 오류의 정의를 알아야 한다.
- 제1종 오류 (Type I Error): 이는 실제로는 참인 귀무가설을 기각하는 오류를 말한다. 예를 들어, 무고한 사람을 죄가 있다고 판결하는 경우가 여기에 해당한다.
- 제2종 오류 (Type II Error): 이는 실제로는 거짓인 귀무가설을 기각하지 못하는 오류를 말한다. 예를 들어, 실제로 존재하지 않는 귀신을 존재한다고 믿는 경우가 여기에 해당한다.
객관적인 증거의 필요성
귀무가설을 기각하기 위해서는 객관적인 증거가 필요하다. 죄가 없다는 객관적인 증거와 귀신이 존재한다는 객관적인 증거는 얼마나 필요할까? 일반적으로 과학적 연구에서는 95% 신뢰 구간을 기준으로 한다. 이는 다시 말해, 5%의 확률로 제1종 오류를 허용한다는 의미다.
예를 들어, 법정에서 한 사람이 무죄임을 증명하기 위해서는 충분한 증거가 필요하다. 이 증거가 부족하면, 그 사람은 유죄로 판결될 위험이 있다. 마찬가지로, 귀신이 존재한다는 것을 증명하기 위해서는 엄격한 증거가 필요하다. 95% 신뢰 구간은 이러한 증거의 신뢰도를 나타내는 지표다.
오류의 중요성
이러한 오류를 최소화하기 위해서는 철저한 검정 과정이 필요하다. 연구자는 가설을 수립하고, 데이터를 수집한 후, 통계적 검정을 통해 가설의 타당성을 확인한다. 이 과정에서 오류의 가능성을 인지하고, 이를 줄이기 위한 다양한 방법을 사용한다.
오류는 가설 수립과 검정 과정에서 피할 수 없는 요소다. 제1종 오류와 제2종 오류는 각각 다른 의미와 중요성을 지니며, 이를 최소화하기 위해 신뢰 구간과 같은 통계적 지표가 사용된다. 95% 신뢰 구간은 일반적으로 객관적인 증거의 필요성을 나타내는 기준으로 사용되며, 이는 과학적 연구와 실생활에서 매우 중요한 역할을 한다. 이러한 과정을 통해 연구의 신뢰성을 높이고, 오류를 최소화할 수 있다.
통계 결과 해석
통계 분석에서 가설 검정 후 결과를 해석하는 과정은 매우 중요하다. 특히, 유의 수준과 유의확률을 비교하여 결과를 결정하는 방법은 통계적 검정의 핵심적인 부분이다. 이 글에서는 유의 수준과 유의확률의 정의와 그 중요성, 그리고 이들을 비교하여 결과를 해석하는 방법에 대해 알아자.
유의 수준 (Significance Level)
유의 수준은 제1종 오류의 최대 허용 확률을 나타낸다. 일반적으로 5% (0.05) 또는 1% (0.01) 수준을 사용하며, 이는 연구자가 설정한 임계값이다. 예를 들어, 유의 수준을 5%로 설정하면, 실제로 귀무가설이 참일 때 이를 기각할 최대 허용 확률이 5%라는 의미다. 이는 다시 말해, 연구자가 5%의 확률로 제1종 오류를 허용한다는 것이다.
유의확률 (p-value)
유의확률은 관찰된 데이터가 귀무가설 하에서 발생할 확률을 나타낸다. p-value는 데이터 분석 후 계산되며, 이 값이 유의 수준보다 작으면 귀무가설을 기각하고 대립가설을 채택한다. 반대로 p-value가 유의 수준보다 크면 귀무가설을 기각할 수 없게 된다.
결과 해석
결과 해석은 유의 수준과 유의확률을 비교하여 결정한다. 이는 다음과 같은 단계로 이루어진다:
- 유의 수준 설정: 연구자가 사전에 유의 수준(예: 0.05)을 설정한다.
- 데이터 분석: 데이터를 수집하고, 통계적 검정을 통해 p-value를 계산한다.
- 비교 및 결론 도출: 계산된 p-value와 사전에 설정한 유의 수준을 비교한다.
- p-value ≤ 유의 수준: 귀무가설 기각, 대립가설 채택.
- p-value > 유의 수준: 귀무가설 기각 불가.
예를 들어, 신약의 효과를 검증하는 실험에서 유의 수준을 0.05로 설정했다고 가정하자. 실험 결과, p-value가 0.03으로 나왔다면, p-value가 유의 수준보다 작기 때문에 신약이 효과가 있다는 대립가설을 채택하게 된다. 반면, p-value가 0.08로 나왔다면, 유의 수준보다 크기 때문에 신약의 효과를 입증할 수 없게 된다.
통계 결과 해석에서 유의 수준과 유의확률의 비교는 가설 검정의 핵심 요소다. 유의 수준은 제1종 오류의 최대 허용 확률을 나타내며, p-value는 관찰된 데이터가 귀무가설 하에서 발생할 확률을 나타낸다. 이 둘을 비교하여 귀무가설을 기각할지 여부를 결정하는 과정은 연구의 타당성과 신뢰성을 확보하는 데 필수적이다. 이러한 방법론을 통해 연구자는 데이터 분석 결과를 명확하고 일관되게 해석할 수 있다.
P(p-value)가 0.05 이하인 경우 대립가설을 채택하는 이유와 그 의미유의 수준과 p-value의 의미유의 수준(α)은 제1종 오류의 최대 허용 확률을 나타내며, 일반적으로 0.05(5%)가 사용된다. 이는 실제로 귀무가설이 참일 때, 연구자가 이 귀무가설을 잘못 기각할 확률을 5%로 제한한다는 의미다.p-value는 관찰된 데이터가 귀무가설 하에서 발생할 확률을 나타낸다. p-value가 작을수록 관찰된 데이터가 귀무가설 하에서 발생할 확률이 낮다는 것을 의미하며, 이는 귀무가설이 틀렸을 가능성을 시사한다. p-value < 0.05의 기준p-value가 0.05 이하인 경우, 이는 관찰된 데이터가 귀무가설 하에서 발생할 확률이 5% 미만임을 의미한다. 따라서, 다음과 같은 결론을 내릴 수 있다:
|
T-분석
T-분석(T-test)은 두 집단의 평균을 비교하여 차이가 있는지를 검정하는 통계적 방법이다. 이는 주로 샘플 크기가 작고, 모집단의 분산이 알려져 있지 않은 경우에 사용된다. T-분석은 다양한 연구 분야에서 널리 사용되며, 결과의 신뢰성을 높이는 데 중요한 역할을 한다. 이번 글에서는 T-분석의 기본 개념, 유형, 그리고 그 과정에 대해 알아보겠다.
T-분석의 기본 개념
T-분석은 두 집단의 평균을 비교하여 통계적으로 유의한 차이가 있는지를 검정하는 방법이다. 이는 t-분포를 기반으로 하며, t-값을 계산하여 이를 임계값과 비교함으로써 가설을 검정한다.
T-분석의 유형
T-분석은 크게 두 가지로 나뉜다: 독립 표본 t-검정(Independent Samples T-test)과 대응 표본 t-검정(Paired Samples T-test).
- 독립 표본 t-검정:
- 두 독립적인 집단의 평균을 비교할 때 사용된다.
- 예: 남성과 여성의 평균 키 비교.
- 대응 표본 t-검정:
- 동일한 집단에서 두 시점 또는 두 조건의 평균을 비교할 때 사용된다.
- 예: 다이어트 전후의 체중 비교.
T-분석의 과정
T-분석을 수행하는 과정은 다음과 같다:
- 가설 설정:
- 귀무가설(H0): 두 집단의 평균 차이가 없다.
- 대립가설(H1): 두 집단의 평균 차이가 있다.
- 유의 수준 설정:
- 일반적으로 0.05(5%)를 사용한다.
- t-값 계산:
- 독립 표본 t-검정:\[
t = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}}
\]
\[
\bar{X}_1, \bar{X}_2: \text{두 집단의 평균}
\]
\[
S_1^2, S_2^2: \text{두 집단의 분산}
\]
\[
n_1, n_2: \text{두 집단의 샘플 크기}
\]
- 대응 표본 t-검정:\[
t = \frac{\bar{D}}{S_D / \sqrt{n}}
\]
\[
\bar{D}: \text{두 시점 또는 조건의 평균 차이}
\]
\[
S_D: \text{차이의 표준편차}
\]
\[
n: \text{샘플 크기}
\]
- 대응 표본 t-검정:\[
- 독립 표본 t-검정:\[
- 임계값과 비교:
- 계산된 t-값을 t-분포 표에서 찾은 임계값과 비교한다.
- 결론 도출:
- t-값이 임계값보다 크면 귀무가설을 기각하고, 대립가설을 채택한다.
- t-값이 임계값보다 작으면 귀무가설을 기각하지 못한다.
예를 들어, 두 그룹의 시험 성적을 비교하려고 한다. 그룹 A의 평균 성적이 75점, 그룹 B의 평균 성적이 80점이라면, T-분석을 통해 이 차이가 유의미한지를 검정할 수 있다.
T-분석은 두 집단의 평균을 비교하여 차이가 있는지를 검정하는 강력한 통계적 방법이다. 이를 통해 연구자는 데이터의 유의미한 차이를 확인하고, 가설을 검정할 수 있다. T-분석의 결과는 연구의 타당성과 신뢰성을 높이는 데 중요한 역할을 하며, 다양한 연구 분야에서 널리 사용된다. 통계적 검정을 통해 얻은 결과를 종합적으로 고려하여 결론을 도출하는 것이 중요하다.
단일 표본 T-검정(One-Sample T-Test)
import numpy as np
from scipy import stats
# 예시 데이터 (몸무게)
weights = np.array([68, 70, 72, 71, 69, 73, 67, 74, 66, 70])
# 예상 평균 몸무게
expected_mean = 70
# 단일 표본 T-검정 수행
t_statistic, p_value = stats.ttest_1samp(weights, expected_mean)
# 결과 출력
print(f"단일 표본 T-검정 결과:")
print(f"T-Statistic: {t_statistic}, P-Value: {p_value}")
-------------------------------------
단일 표본 T-검정 결과:
T-Statistic: 0.0, P-Value: 1.0
단일 표본 T-검정 결과는 T-Statistic이 0.0이고, P-Value가 1.0입니다. 이는 주어진 데이터의 평균이 예상 평균인 70과 정확히 같다는 것을 의미한다. 따라서, 귀무가설(데이터의 평균이 70이다)을 기각할 수 없다.
import numpy as np
from scipy import stats
# 예시 데이터 (남성 몸무게)
male_weights = np.array([78, 80, 75, 77, 79, 74, 82])
# 예시 데이터 (여성 몸무게)
female_weights = np.array([68, 70, 65, 67, 69, 72, 64])
# 독립 표본 T-검정 수행
t_statistic, p_value = stats.ttest_ind(male_weights, female_weights)
# 결과 출력
print(f"독립 표본 T-검정 결과:")
print(f"T-Statistic: {t_statistic}, P-Value: {p_value}")
----------------------------------------
독립 표본 T-검정 결과:
T-Statistic: 6.694555487165052, P-Value: 2.213367560054018e-05
독립 표본 T-검정 결과는 T-Statistic이 6.6946이고, P-Value가 매우 작아 2.2134e-05입니다. 이는 남성과 여성의 몸무게 평균이 통계적으로 유의미하게 다르다는 것을 강하게 시사한다. P-Value가 매우 작아 귀무가설(남성과 여성의 몸무게 평균이 같다)을 기각할 수 있다.
import numpy as np
from scipy import stats
# 예시 데이터 (다이어트 전 몸무게)
before_diet = np.array([85, 83, 88, 90, 87, 89, 86])
# 예시 데이터 (다이어트 후 몸무게)
after_diet = np.array([80, 81, 82, 85, 84, 83, 82])
# 대응 표본 T-검정 수행
t_statistic, p_value = stats.ttest_rel(before_diet, after_diet)
# 결과 출력
print(f"대응 표본 T-검정 결과:")
print(f"T-Statistic: {t_statistic}, P-Value: {p_value}")
---------------------------------
대응 표본 T-검정 결과:
T-Statistic: 7.749999999999999, P-Value: 0.0002425578895424482
대응 표본 T-검정 결과는 T-Statistic이 7.75이고, P-Value가 0.0002426입니다. 이는 다이어트 전후의 몸무게 차이가 통계적으로 유의미하게 감소했음을 나타낸다. P-Value가 매우 작아 귀무가설(다이어트 전후 몸무게 차이가 없다)을 기각할 수 있다.
카이제곱 검정
카이제곱 검정(Chi-square test)은 범주형 데이터에서 기대도수와 관찰도수 간의 차이를 검정하는 통계적 방법이다. 이 검정은 두 변수 간의 독립성을 판단하거나 한 변수의 분포가 특정 분포와 일치하는지를 알아보는 데 사용된다. 이번 글에서는 카이제곱 검정의 기본 개념, 유형, 그리고 그 과정을 보자.
본론
카이제곱 검정의 기본 개념
카이제곱 검정은 관찰된 데이터가 기대되는 데이터와 얼마나 잘 맞는지를 평가하는 검정 방법이다. 이 검정은 다음과 같은 두 가지 주요 유형으로 나눌 수 있다.
- 적합도 검정 (Goodness of Fit Test):
- 주어진 표본이 특정 분포에 적합한지를 검정한다.
- 예: 주사위가 공정한지 여부를 검정하기 위해 각 면의 나오는 빈도를 확인한다.
- 독립성 검정 (Test of Independence):
- 두 범주형 변수가 서로 독립인지 아니면 연관이 있는지를 검정한다.
- 예: 성별과 선호하는 음료 사이의 연관성을 검정한다.
카이제곱 검정의 수식
카이제곱 검정의 통계량은 다음과 같이 계산된다:
여기서,
- \[Q_{i}는 관찰도수(observed frequency)이다.\]
- \[E_{i}는 기대도수(expected frequency)이다.\]
카이제곱 검정의 과정
카이제곱 검정을 수행하는 과정은 다음과 같다:
- 가설 설정:
- 귀무가설(H0): 두 변수는 독립이다 (또는 관찰된 분포는 기대되는 분포와 일치한다).
- 대립가설(H1): 두 변수는 독립이 아니다 (또는 관찰된 분포는 기대되는 분포와 일치하지 않는다).
- 기대도수 계산:
- 기대도수 Qi는 다음과 같이 계산된다:\[ E_i = \frac{(행 합계 \times 열 합계)}{총 합계} \]
- 카이제곱 통계량 계산:
- 앞서 언급한 수식을 사용하여 카이제곱 통계량 X*X를 계산한다.
- 자유도 계산:
- 자유도(df)는 다음과 같이 계산된다: \[ df = (행의 수 - 1) \times (열의 수 - 1) \]
- 임계값과 비교:
- 계산된 X*X 값을 카이제곱 분포표에서 자유도와 유의 수준(보통 0.05)에 해당하는 임계값과 비교한다.
- 결론 도출:
- X*X 값이 임계값보다 크면 귀무가설을 기각하고, 그렇지 않으면 귀무가설을 기각하지 않는다.
예시
예를 들어, 두 학교의 학생들이 선호하는 과목(수학, 과학, 문학)이 서로 독립적인지를 검정하려고 한다. 각 학교에서 수집한 데이터로 기대도수와 관찰도수를 비교하여 카이제곱 검정을 수행할 수 있다.
결론
카이제곱 검정은 범주형 데이터에서 기대도수와 관찰도수 간의 차이를 검정하는 강력한 통계적 방법이다. 이를 통해 변수 간의 독립성을 판단하거나 한 변수의 분포가 특정 분포와 일치하는지를 확인할 수 있다. 카이제곱 검정은 다양한 연구 분야에서 널리 사용되며, 결과의 타당성과 신뢰성을 높이는 데 중요한 역할을 한다.
'Python > 빅데이터 분석과 머신러닝' 카테고리의 다른 글
#11 머신러닝 (0) | 2024.08.01 |
---|---|
#10 머신러닝 (0) | 2024.07.30 |
#8 데이터 분석 (1) | 2024.07.23 |
#7 데이터 시각화 (2) | 2024.07.18 |
#4 데이터 보기(판다스) (0) | 2024.07.17 |