반복이 있는 이원배치법

  • 두 인자의 interaction에 (교호작용) 의한 효과가 존재할까?
  • 인자 A의 효과가 인자 B의 수준의 변화에 따라서 변화하는 모형에서 존재한다
  • \(Y_{ijk} = \mu + \alpha_i + \beta_j + \gamma_{i,j} + e_{ijk}\)
  • \(e_{ijk} \sim N(0, \sigma^2)\)이며, 서로 독립이다.
  • \(\displaystyle \sum_{i=1}^p \alpha_i = \sum_{j=1}^q \beta_j = \sum_{i=1}^p \gamma_{i,j} = \sum_{j=1}^q \gamma_{i,j} = 0\)
  • 당연히 모수를 모르니까, 추정을 해야 한다.
  • \(Y_{ijk} = \bar{Y_{...}} + (\bar{Y_{i..}} - \bar{Y_{...}}) + ( \bar{Y_{.j.}} - \bar{Y_{...}}) + ( \bar{Y_{ij.}} - \bar{Y_{i..}} - \bar{Y_{.j.}} + \bar{Y_{...}} ) + ( Y_{ijk} - \bar{Y_{ij.}}) \)
  • \(\displaystyle \sum_{i,j,k} (Y_{ijk} - \bar{Y_{...}})^2 = \sum_{i,j,k} (\bar{Y_{i..}} - \bar{Y_{...}})^2 + \sum_{i,j,k} (\bar{Y_{.j.}} - \bar{Y_{...}})^2 + \sum_{i,j,k} (\bar{Y_{ij.}} - \bar{Y_{i..}} - \bar{Y_{.j.}} + \bar{Y_{...}})^2 + \sum_{i,j,k} (Y_{ijk} - \bar{Y_{ij.}})^2 \)
  • SST = SStr[A] + SStr[B] + SStr[A x B] + SSE
  • 자유도: \( (pqr-1) = (p-1) + (q-1) + (p-1)(q-1) + pq(r-1)\)
  • 교호작용의 존재: \(F = \frac{MStr_{A \times B}}{MSE} \sim F((p-1)(q-1),pq(r-1))\)로 검정 (under 귀무가설)
  • 교호작용의 존재 여부는 \(\gamma_{i,j} = 0\)이 항상 성립하는지 여부를 판별하는 것과 같다.
  • 교호작용이 존재한다고 결론이 나면, 개별적인 \(A\), \(B\) 인자의 유의성은 검정하지 않는다.
  • 교호작용이 없다고 결론이 나면, \(A\), \(B\) 각각의 유의성을 검정한다.
  • 이 경우에는 SStr[A x B] 부분을 SSE 부분으로 넘기고 (자유도, 값 모두) F 검정을 진행한다.
  • 즉, 모형을 \(Y_{ijk} = \mu + \alpha_i  + \beta_j + e_{ijk}\)로 수정한다.


'Lecture Notes > 통계학' 카테고리의 다른 글

05/29 통계학 노트  (0) 2019.05.29
05/27 통계학 노트  (0) 2019.05.27
05/22 통계학 노트  (0) 2019.05.22
05/20 통계학 노트  (0) 2019.05.20
05/15 통계학 노트  (0) 2019.05.15
05/13 통계학 노트  (1) 2019.05.13

일원배치법

  • 계산을 조금 하면, \(\displaystyle \sum_{i,j} (Y_{ij} - \bar{Y_{..}})^2 = \sum_{i,j} (\bar{Y_{i.}}-\bar{Y_{..}})^2 + \sum_{i,j} (Y_{ij} - \bar{Y_{i.}})^2 \)를 얻는다.
  • 생각해보면, 이는 [총제곱합 = 집단 간 차이로 인한 총제곱합 + 집단 내 차이로 인한 총제곱합]을 의미한다.
  • 총제곱합을 SST, 집단 간 차이로 인한 총제곱합을 SStr, 집단 내 차이로 인한 총제곱합을 SSE라 하자. 
  • 자유도를 분석해보자. \(N = \sum_{i=1}^k n_i \)라 하자.
  • 총제곱합 SST: \(\bar{Y_{..}}\)을 추정했으니, 자유도는 \(N-1\)이다.
  • 집단 간 차이에 의한 총제곱합 SStr: 이 부분은 다루기 어렵지만, SSE의 자유도에서 자유도가 \(k-1\)임을 알 수 있다.
  • 집단 내 차이에 의한 총제곱합 SSE: \(\bar{Y_{i.}}\)을 추정했으니, 자유도가 \(N-k\)임을 알 수 있다.
  • \(SSE = \sum_{i,j} (Y_{ij} - \bar{Y_{i.}})^2 = \sum_{i=1}^k (n_i -1) S^2_i\)
  • \(SStr = \sum_{i,j} (\bar{Y_{i.}} - \bar{Y_{..}})^2 = \sum_{i=1}^k n_i (\bar{Y_{i.}} - \bar{Y_{..}})^2\)
  • 당연하지만 일원배치법에서도 회귀분석에서 이용한 잔차에 대한 가정이 필요하다. 
  • 선형성, 등분산성, 독립성, 정규성을 모두 들고 있는 상황이다. \(e_{ij} \sim N(0,\sigma^2)\)이고 서로 독립이다.
  • 이 가정하에서는, \( E(\frac{SSE}{n-k}) = \sigma^2\)이 성립한다. 이때 \(\frac{SSE}{n-k}\)를 MSE라고 한다.
  • 우리의 목표는 \(H_0\)인 \(\mu_1 = \mu_2 = \cdots = \mu_k = \mu\)를 검정하는 것이다.
  • 귀무가설 \(H_0\)가 참이라면, \(E(\frac{SStr}{k-1}) = \sigma^2\)이 성립한다. 이때 \(\frac{SStr}{k-1}\)를 MStr이라고 한다.
  • 이 경우, \( F= \frac{MStr}{MSE} \sim F(k-1, N-k)\)가 성립한다. \(F\)가 커질수록 귀무를 기각하는 방향이다.
  • 일원배치법의 모형을 더 엄밀하게 써보자.
  • \(Y_{ij} = \mu + \alpha_i + e_{ij}\): 여기서 \(\alpha_i = \mu_i - \mu\)는 처리의 효과이다.
  • \(e_{ij} \sim N(0, \sigma^2)\)이고, 이들은 서로 독립이다. (선형성, 등분산성, 독립성, 정규성)
  • \(\sum_{i=1}^k n_i \alpha_i =0\)이다. 이 사실은 직접 계산하면 알 수 있다.
  • 귀무가설 \(H_0\)은 \(\alpha_1 = \alpha_2 = \cdots = \alpha_k =0\)이 성립한다는 것이다.
  • 대립가설은 \(\alpha_i \neq 0\)인 \(i\)가 존재한다는 것이다.

반복이 없는 이원배치법: 요인이 2개

  • 인자 A: 처리 \(p\) 종류, 인자 B: 처리 \(q\) 종류
  • \(Y_{ij} = \mu + \alpha_i + \beta_j + e_{ij}\)
  • \(e_{ij} \sim N(0, \sigma^2)\)이고, 이들은 서로 독립이다.
  • \(\sum_{i=1}^p \alpha_i = \sum_{j=1}^q \beta_j = 0\)이 성립한다.
  • 아이디어는 그대로다. \(\alpha_i\)도, \(\beta_j\)도, \(e_{ij}\)도, \(\mu\)도 모른다. 그러니 추정해야 한다.
  • \(Y_{ij} = \bar{Y_{..}} + (\bar{Y_{i.}}-\bar{Y_{..}}) + (\bar{Y_{.j}} - \bar{Y_{..}}) + (Y_{ij} - \bar{Y_{i.}} - \bar{Y_{.j}} + \bar{Y_{..}})\)
  • 다시, 총제곱합을 생각하자. 일원배치법과 다른 점이 없다.
  • \( \displaystyle \sum_{i,j} (Y_{ij} - \bar{Y_{..}})^2 = \sum_{i,j} (\bar{Y_{i.}}-\bar{Y_{..}})^2 + \sum_{i,j} (\bar{Y_{.j}} - \bar{Y_{..}})^2 + \sum_{i,j} (Y_{ij} - \bar{Y_{i.}} - \bar{Y_{.j}} + \bar{Y_{..}})^2\)
  • \( SST = SStr_A + SStr_B + SSE\)
  • 자유도 분석: \(SST\)는 \(pq-1\), \(SStr_A\)는 \(p-1\), \(SStr_B\)는 \(q-1\), \(SSE\)는 \((p-1)(q-1)\)이다.
  • 일원배치법과 다를 게 없다. \(MStr_A\), \(MStr_B\), \(MSE\)를 구할 수 있을 것이다.
  • 인자 A의 유의성을 보고 싶다는 것은, 귀무가설 \(H_0\)인 \(\alpha_1 = \alpha_2 = \cdots = \alpha_p = 0\)을 검정하는 것과 같다.
  • 인자 B의 유의성을 보고 싶다는 것은, 귀무가설 \(H_0\)인 \(\beta_1 = \beta_2 = \cdots = \beta_q = 0\)을 검정하는 것과 같다.
  • 각 경우에서, \(F = \frac{MStr_A}{MSE}\), \(F=\frac{MStr_B}{MSE}\)를 검정통계량으로 잡는다.
  • 귀무가설 하에서 \(F\)가 따르는 분포는 각각 \(F(p-1,(p-1)(q-1))\)과 \(F(q-1,(p-1)(q-1))\)이다.
  • 유의확률을 계산한 뒤, 설정했던 유의수준과 비교하여 유의성을 검정할 수 있을 것이다. 


'Lecture Notes > 통계학' 카테고리의 다른 글

05/29 통계학 노트  (0) 2019.05.29
05/27 통계학 노트  (0) 2019.05.27
05/22 통계학 노트  (0) 2019.05.22
05/20 통계학 노트  (0) 2019.05.20
05/15 통계학 노트  (0) 2019.05.15
05/13 통계학 노트  (1) 2019.05.13

중회귀분석

  • 물론 회귀선은 최소제곱법으로 계산할 수 있다. 선형대수가 필요한 부분이다.
  • 이제는 \(\beta_1 = \beta_2 = \beta_3 = \cdots = \beta_k =0 \)을 검정해야 한다.
  • 앞서 사용했던 방법 중 하나인 \(SST\), \(SSR\), \(SSE\)를 활용하는 방식으로 검정을 진행할 수 있다.
  • \(k\)개의 변수가 있다면, \(SSR\)의 자유도는 \(k\)이고, \(SSE\)의 자유도는 \(n-k-1\)이다.
  • 이제 오차분산의 추정값을 \(\hat{\sigma^2} = \frac{SSE}{n-k-1}\)로 쓸 수 있다.
  • 비슷하게, 결정계수를 \(R^2 = \frac{SSR}{SST}\)로 둘 수 있다.
  • 설명변수 사이의 상관관계가 존재하면, 다중공선성이 존재할 수 있다. (multicollinearity - 키와 몸무게)
  • 이 값은 설명변수가 많아지면 커지는 경향이 있고, 이를 보정할 필요가 있다. \(R^2_{adj} = 1 - \frac{n-1}{n-k-1} \cdot \frac{SSE}{SST}\)
  • 귀무가설 \(\beta_1 = \beta_2 = \cdots = \beta_k = 0\)이 참이라면, \(F = \frac{ \frac{SSR}{k} }{ \frac{SSE}{n-k-1} } \sim F(k,n-k-1)\)이다. 
  • 앞선 경우와 마찬가지로, 단측 검정을 하여 귀무가설을 기각할 지 여부를 결정할 수 있다.
  • \(T\) 검정으로도 검정을 할 수 있는데, 이때는 각 \(\beta_i\)에 대한 검정을 진행해야 한다.

단순회귀분석에서의 잔차분석

  • 단순회귀분석의 적용 순서 (매우 중요)
  • 산점도 이용해 선형관계 확인 -> 단순회귀모형 적합 및 잔차 분석 -> 잔차 분석 통과 시 신뢰구간/검정 등 예측 시행
  • 잔차도: 설명변수와 스튜던트화 잔차 \( \frac{ \hat{e_i} }{\hat{sd(\hat{e_i})}} \)를 산점도로 나타낸다.
  • 단순회귀분석을 위한 잔차에 대한 가정은 선형성, 등분산성, 독립성, 정규성이다.
  • 잔차도는 대략 0에 관하여 대칭적으로 나타나야 하고, (선형성)
  • 설명변수의 값에 따른 잔차의 산포가 크게 다르지 않으며, (등분산성)
  • 점들이 특정한 형식을 가지고 나타나지 않고, (독립성)
  • 대부분의 잔차가 \([-2,2]\) 범위에서 나타나야 한다. (정규성)
  • 결정계수가 높다고 하더라도, 잔차가 단순회귀분석에서 필요한 가정을 만족하지 않는다면 그 분석은 잘못된 분석이다.
  • 잔차분석을 하지 않으면 단순회귀분석이 정당한지 확인할 수 없다.

분산분석 (ANOVA)

  • 두 모평균의 차에 대한 검정의 확정으로, 3개 이상의 모평균의 차에 대한 비교를 위한 대표적인 방법
  • 평균에 차이가 있더라도, 분산이 크면 구분하기가 어렵다는 점을 활용한다.
  • 특성값의 분산, 변동을 분석하는 방법이다. 
  • 특성값의 변동을 제곱합으로 나타내고, 이 제곱합을 실험에 관련된 요인별로 분해하여 분석한다.
  • 어디서 오차에 비해 큰 영향을 주는가?
  • 집단 내부의 변동 vs 집단 간의 변동 -> 분산 때문인가, 실제 모평균 차이 때문인가?

통계적 실험

  • 실험이 행해지는 개체: 실험단위
  • 실험단위에 특정한 실험환경/실험조건을 가하는 것: 처리
  • 실험조건을 나타내는 변수: 인자
  • 반응을 나타내는 변수: 반응변수
  • 인자가 취하는 값: 인자의 수준

일원배치법

  • 특성값에 대한 한 종류의 인자만의 영향을 조사하고자 할 때 사용
  • 3개 이상의 처리효과를 비교한다.
  • 각 수준에서 반복수는 같지 않아도 좋으며, 보통 3~5 수준으로 3~10번 반복한다.
  • 실험이 랜덤한 순서로 진행되어야 하므로, 완전랜덤화계획이라고도 한다
  • \(Y_{ij}\)를 \(i\)번째 처리의 \(j\)번째 관측치라 하자.
  • \(Y_{ij} = \mu_i + e_{ij} = \mu + (\mu_i - \mu ) + e_{ij}\)
  • 여기서 \(\mu_i\)는 \(i\)번째 처리를 했을 때 평균, \(\mu\)는 \(\mu_i\)들의 가중치 평균 (가중치는 그 처리를 한 실험단위 수), \(e_{ij}\)는 오차.
  • 즉, \(\mu_i - \mu\)는 처리의 효과고, \(e_{ij}\)는 알 수 없는 오차의 효과이다.
  • 처리의 영향이 큰가, 알 수 없는 오차의 영향이 큰가? 회귀분석에서의 분산분석과 매우 비슷한 상황이다.
  • 문제는 \(\mu\), \(\mu_i\), \(e_{ij}\)를 모두 모른다. 추정치를 활용해야 한다는 뜻이다.
  • \(Y_{ij} = \bar{Y_{..}} + (\bar{Y_{i.}} - \bar{Y_{..}}) + (Y_{ij} - \bar{Y_{i.}})\)로 볼 수 있을 것이다.
  • \(\bar{Y_{i.}} - \bar{Y_{..}}\)는 집단 간 차이, \(Y_{ij}-\bar{Y_{i.}}\)는 집단 내 차이를 설명하는 것이다.
  • 다시 제곱합을 비교하게 된다. 다시 \(F\) 분포를 사용할 준비를 하자. 


'Lecture Notes > 통계학' 카테고리의 다른 글

05/29 통계학 노트  (0) 2019.05.29
05/27 통계학 노트  (0) 2019.05.27
05/22 통계학 노트  (0) 2019.05.22
05/20 통계학 노트  (0) 2019.05.20
05/15 통계학 노트  (0) 2019.05.15
05/13 통계학 노트  (1) 2019.05.13

단순회귀분석에서의 추론과 검정

  • 모수를 점추정하는 방법을 배웠다. 하지만 구간추정을 해야 오차관리도 할 수 있을 것이다.
  • \(E[Y|X] = \alpha + \beta x\)에 관한 추론을 하자. 
  • \(\displaystyle \hat{\alpha} + \hat{\beta} x  = \bar{y} - \hat{\beta} \bar{x} + \hat{\beta} x = \frac{1}{n} \sum_{i=1}^n y_i + \frac{\sum_{i=1}^n (x_i -\bar{x}) y_i}{S_{xx}} \cdot (x-\bar{x}) = \sum_{i=1}^n \left( \frac{1}{n} + \frac{(x_i-\bar{x})(x-\bar{x})}{S_{xx}} \right) y_i \)
  • \(y_i\)는 모두 정규분포를 따르며 독립이므로, \(\hat{\alpha}+\hat{\beta}x\) 역시 마찬가지다.
  • 이제 목표는 평균과 분산을 계산하는 것이다. 그러면 분포가 완전하게 나올 것이다.
  • 계산을 열심히 해주면, \(E(\hat{\alpha}+\hat{\beta}x) = \alpha + \beta x\)와 \(\displaystyle Var(\hat{\alpha}+\hat{\beta}x)=\left(\frac{1}{n} + \frac{(x-\bar{x})^2}{S_{xx}} \right) \cdot \sigma^2 \)를 얻는다.
  • 오차분산 \(\sigma^2\)을 추정하게 된다면, \(t\) 분포를 사용할 수 있게 된다.
  • 검정통계량은 \(\displaystyle T= \frac{\hat{\alpha}+\hat{\beta}x - (\alpha + \beta x)}{ \sqrt{ \left(\frac{1}{n} + \frac{(x-\bar{x})^2}{S_{xx}} \right) \hat{\sigma^2}}} \sim t(n-2) \)이다.
  • \(\alpha\)에 대한 추정은 \(x=0\)을 넣어주면 충분하다. 
  • 회귀직선의 유의성 검정: \(\beta =0\)이냐 아니냐 검정.
  • 한편, \(\displaystyle \frac{SSE}{\sigma^2} \sim \chi^2(n-2)\)임도 알 수 있다.
  • 회귀직선의 유의성을 검정하기 위해, 총편차 중 회귀직선이 설명하는 부분이 커야 한다.
  • 이 논리에 의해서 \(SSR\)이 크면 클수록 회귀직선의 유의성을 설명할 수 있게 될 것이다.
  • 그러니 목표는 \(\frac{SSR}{SSE}\)를 분석하는 것이다.
  • \(E(SSR) = E( \hat{\beta}^2 \sum_{i=1}^n (x_i - \bar{x})^2) = \sigma^2 + \beta^2 S_{xx}\) 
  • \(SSR\)이 \(\sigma^2\)의 불편추정량인 것은 \(\beta = 0\)인 것과 동치이다.
  • \(\beta = 0\)이라면, \(\frac{SSR}{\sigma^2} \sim \chi^2(1)\)이 될 것이다.
  • 이제 \(F\) 분포를 만들 수 있을 것이다. \(\beta = 0\)이라면, \(\frac{\frac{SSR}{1}}{\frac{SSE}{n-2}} = \frac{MSR}{MSE} \sim F(1, n-2)\)가 된다.
  • 대립가설은 \(\beta \neq 0\)이지만, 이때 \(\beta\)가 극단적으로 가면 \(SSR\)이 커진다. 
  • 그러므로 단측 검정을 해야 한다. (카이제곱검정과 비슷한 원리다)
  • \(S_{xx}\)가 \(0\)이면 어떻게 될까? 물론 그런 일은 없을 것이지만, \(S_{xx}\)가 아주 작으면 문제가 된다.
  • \(S_{xx}\)가 작으면 \(\beta^2\)이 작아서 \(E(SSR) \approx \sigma^2\)인 건지, \(S_{xx}\)가 작아서 \(E(SSR) \approx \sigma^2\)인 건지 알 수 없다.
  • 그러므로 일반적인 단순선형회귀에서는 \(S_{xx}\)가 작은 데이터셋을 사용할 수 없다.
  • 분산분석표를 작성할 수 있다! 회귀, 잔차로 인한 오차를 이용해서 \(f\)값을 구해, 검정을 할 수 있다. 
  • \(F\) 통계량은 \(T\) 통계량의 제곱이 된다는 것을 확인할 수 있다. 즉, 사실상 같은 방법이다. 


'Lecture Notes > 통계학' 카테고리의 다른 글

05/27 통계학 노트  (0) 2019.05.27
05/22 통계학 노트  (0) 2019.05.22
05/20 통계학 노트  (0) 2019.05.20
05/15 통계학 노트  (0) 2019.05.15
05/13 통계학 노트  (1) 2019.05.13
05/01 통계학 노트  (0) 2019.05.05

단순회귀분석의 모형과 적합

  • 잔차(residual): \(\hat{e_i} = y_i - \hat{y_i}\)
  • 잔차는 오차의 관측값으로 생각할 수 있다.
  • 잔차의 성질: \(\sum_{i=1}^n \hat{e_i} = \sum_{i=1}^n x_i\hat{e_i} = 0\)
  • 잔차제곱합: \(SSE = \sum_{i=1}^n (y_i - \hat{y_i})^2 = S_{yy} - \frac{S^2_{xy}}{S_{xx}}\)
  • 평균제곱오차: 오차분산의 추정, \(\hat{\sigma^2} = MSE = \frac{SSE}{n-2}\)
  • 자유도 \(n-2\) - 이는 \(\hat{\alpha}\)와 \(\hat{\beta}\)를 추정했기 때문. 
  • 총편차: \(y_i - \bar{y}\)의 분해 - \((y_i - \hat{y_i})+(\hat{y_i} - \bar{y})\)
  • 오차항에 기인하는 편차와, 회귀직선에 기인하는 편차.
  • \(\sum_{i=1}^n (y_i - \bar{y})^2 = \sum_{i=1}^n (y_i - \hat{y_i})^2 + \sum_{i=1}^n (\hat{y_i} - \bar{y})^2\)
  • SST(총제곱합) = SSE(잔차제곱합) + SSR(회귀제곱합)
  • SST: \(\bar{y}\) 추정 - 자유도 \(n-1\), \(SST = S_{yy}\)
  • SSE: \(\hat{y}\) 추정 - 즉 \(\hat{\alpha}, \hat{\beta}\) 추정 - 자유도 \(n-2\)
  • SSR: 자유도 1, \(SSR = \frac{S^2_{xy}}{S_{xx}}\)
  • 결정계수: \(R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}\)
  • 자료 전체의 흩어진 정도를 나타내는 SST 중에서 회귀선에 의해 설명되는 부분
  • \(R^2 = \frac{SSR}{SST} = \frac{S^2_{xy}}{S_{xx}S_{yy}} = \left(\frac{S_{xy}}{\sqrt{S_{xx}}\sqrt{S_{yy}}} \right)^2\)는 표본상관계수의 제곱
  • 회귀분석에서 통계량 계산값이 완전히 같더라도 산점도가 다를 수 있다.
  • 단순회귀분석은 무조건 선형성을 가늠할 수 있을 때 사용하는 것이다. 
  • 선형회귀를 쓸 수 없는 경우에는 적당한 변환 후 선형회귀를 쓰거나, 비선형회귀를 사용한다.

단순회귀분석에서의 추론

  • 계산 Trick: \(\sum_{i=1}^n (x_i -\bar{x})(y_i - \bar{y}) = \sum_{i=1}^n (x_i-\bar{x})y_i\)
  • 이를 활용하면, \(\hat{\beta} = \frac{\sum_{i=1}^n (x_i-\bar{x})y_i}{\sum_{i=1}^n (x_i-\bar{x})^2}\)
  • 이제 \(c_i = \frac{x_i-\bar{x}}{\sum_{i=1}^n (x_i-\bar{x})^2}\)라 하면 \(c_i\)는 상수
  • 또한, \(\hat{\beta} = \sum_{i=1}^n c_i y_i\)가 성립한다. 즉, 상수 고정 선형결합 형태이다.
  • \(Y_i = \alpha + \beta x_i + e_i\)이고, \(e_i \sim N(0,\sigma^2)\)이다.
  • 그러니 \(Y_i\) 역시 정규분포이며, \(Y_1, Y_2, \cdots , Y_n\)도 서로 독립이다.
  • 그러니 \(\hat{\beta}\)는 서로 독립이고 정규분포를 따르는 \(Y_i\)의 선형결합이다.
  • 즉, 평균과 분산만 구해주면 분포를 완전하게 구할 수 있을 것이다.
  • 적당히 계산을 해주면, \(E(\hat{\beta})=\beta\), \(Var(\hat{\beta}) = \frac{\sigma^2}{S_{xx}}\)를 얻는다.
  • 하지만 \(\sigma^2\)을 모르니, 추정량을 사용한다. 추정량은 MSE에서 나온다.
  • 그러니 \(T = \frac{\hat{\beta} - \beta}{\hat{\sigma}/\sqrt{S_{xx}}} \sim t(n-2)\), \(\hat{\sigma}=\sqrt{MSE}\)


'Lecture Notes > 통계학' 카테고리의 다른 글

05/22 통계학 노트  (0) 2019.05.22
05/20 통계학 노트  (0) 2019.05.20
05/15 통계학 노트  (0) 2019.05.15
05/13 통계학 노트  (1) 2019.05.13
05/01 통계학 노트  (0) 2019.05.05
개인공부 #2: Pearson's chi-squared test  (0) 2019.05.04

상관분석

  • 상관계수: 두 변수의 선형관계가 얼마나 강한지, 어떤 방향인지 표현
  • 상관분석: 두 변수의 상관계수를 분석하여 연관성을 분석
  • 표본상관계수를 이용하여 모상관계수를 추론
  • 모상관계수: \( \rho = Corr(X,Y)= \frac{Cov(X,Y)}{\sqrt{Var(X)}\sqrt{Var(Y)}} \)
  • 표본상관계수: \( r = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^n (x_i-\bar{x})^2}\sqrt{\sum_{i=1}^n (y_i - \bar{y})^2}} \) 
  • 계산을 편하게 하기 위해서 \(S_{xy} = \sum_{i=1}^n x_i y_i - \frac{\sum_{i=1}^n x_i \sum_{i=1}^n y_i}{n}\)이라 하자.
  • 그러면 \( r = \frac{S_{xy}}{\sqrt{S_{xx}}\sqrt{S_{yy}}}\)라고 쓸 수 있다. \(r\)의 기초 성질은 앞에서 했다.
  • 목표: \(r\)을 기반으로 한 \(\rho\) 추정하기
  • 여기서는 특별히 \(H_0\): \(\rho=0\)를 다룬다.
  • \(\rho=0\)인 경우에는 \(r\)의 standard error가 \(\sqrt{ \frac{1-r^2}{n-2} }\)이다.
  • 검정통계량은 \(T = \frac{r}{\text{s.e}(r)} = \sqrt{n-2} \cdot \frac{r}{\sqrt{1-r^2}} \sim t(n-2)\)
  • \(H_1\)의 방향에 따라서 기각역이 그 방향으로 정해지게 된다.

회귀분석

  • 두 변수 사이의 함수관계를 분석하여 한 변수값으로부터 다른 변수값에 대한 예측
  • 단순회귀분석: 두 변수 사이의 직선관계를 모형으로 하여 분석
  • 중회귀분석: 두 개 이상의 변수가 한 변수에 영향을 줄 때, 그 선형관계를 분석
  • 단순선형회귀모형: \( Y_i = E(Y_i|X=x_i)+ e_i \)
  • \(x_i\)는 우리가 control하는 변수이다. 즉, 확률변수가 아니다.
  • 오차를 나타내는 \(e_i\)는 등분산을 가지는 확률변수이다. 그러니 반응변수 \(Y_i\)도 확률변수가 된다. 
  • 여기서 \(e_i\)는 우리가 control할 수 없는 변수들에 의한 오차다.
  • \(Y_i\)가 \(E(Y_i|X=x_i)\) 주위에 나타날 때, 반응변수의 값 \(y_i\)는 확률변수 \(Y_i\)의 관측값으로 생각할 수 있다.

  • 가정: \(E(e_i)=0\)이고 \(E(Y_i|X=x_i)=\alpha + \beta x_i\) (선형성)
  • 가정: \(Var(e_1)=Var(e_2)=\cdots =Var(e_n)=\sigma^2\) (등분산성)
  • 등분산성의 성질에 의해 \(Var(Y_1)=Var(Y_2)= \cdots Var(Y_n) = \sigma^2\)
  • 가정: \(e_1, e_2, \cdots e_n\)는 서로 독립 (독립성)
  • 독립성의 성질에 의해 \(Y_1, Y_2, \cdots ,Y_n\)도 서로 독립
  • 평균들이, 즉 \(E(Y_i|X=x_i)\)들이 \(x_i\)에 대한 선형함수라는 가정이 적용될 수 있을 때 사용한다.
  • \(y=\alpha + \beta x\)를 모회귀직선, \(\alpha, \beta\)를 모회귀계수, \(\sigma^2\)을 오차분산이라 한다.
  • 최소제곱법: \(\sum_{i=1}^n (y_i - \alpha - \beta x_i)^2\)을 최소화하는 \(\alpha, \beta\)를 찾자.
  • 편미분해서 계산하면 \(\hat{\alpha} = \bar{y}-\hat{\beta}\bar{x}\), \(\hat{\beta} = \frac{S_{xy}}{S_{xx}}\)
  • 최소제곱회귀직선: \(\hat{y} = E(\hat{Y_i}|X=x_i)= \bar{y} + \hat{\beta}(x_i-\bar{x})\)
  • 이제 목표는 \(\alpha, \beta, \sigma^2\)에 대한 추정을 하는 것이 된다.


'Lecture Notes > 통계학' 카테고리의 다른 글

05/20 통계학 노트  (0) 2019.05.20
05/15 통계학 노트  (0) 2019.05.15
05/13 통계학 노트  (1) 2019.05.13
05/01 통계학 노트  (0) 2019.05.05
개인공부 #2: Pearson's chi-squared test  (0) 2019.05.04
개인공부 #1 - 다변수 정규분포  (0) 2019.05.03
  1. 잘 보고 갑니다~~

앞선 검정은 모두 연속형 자료에 대한 논의였다. 이제부터는 이산자료를 다룬다. 


모비율의 추정

  • \(X\)를 \(n\)개의 표본 중 확률 \(p\)로 발현되는 특정 성질을 갖는 것의 개수라 하자.
  • \(X \sim B(n,p)\)이므로 \(\hat{p}=\frac{X}{n}\)으로 \(p\)를 추정하자. 
  • \(np \ge 5\), \(n(1-p) \ge 5\)이면 근사적으로 \(\frac{\hat{p}-p}{\sqrt{np(1-p)}} \sim N(0,1)\)이다.
  • 모비율 \(p\)에 관한 근사적 \(100(1-\alpha)\)%신뢰구간은 \(n\hat{p} \ge 5\), \(n(1-\hat{p})\ge 5\)라는 가정하에서 $$ \left( \hat{p} - \sqrt{ \frac{\hat{p}(1-\hat{p})}{n} } \cdot z_{\alpha /2} , \text{     } \hat{p} + \sqrt{ \frac{\hat{p}(1-\hat{p})}{n} } \cdot z_{\alpha /2} \right) $$
  • 오차한계를 줄이기 위한 표본의 수 결정 - \( \sqrt{ \frac{p(1-p)}{n} } \cdot z_{\alpha /2} \le d \implies n \ge p(1-p)(z_{\alpha /2}/d)^2\)
  • 아직 \(p\)나 \(\hat{p}\)를 모르니까, 우변의 최댓값을 생각하여 \(n \ge \frac{1}{4}(z_{\alpha /2}/d)^2\)을 잡는다.

모비율 가설검정

  • \(H_0\)가 \(p=p_0\)라면, 검정통계량을 \(\frac{\hat{p}-p_0}{\sqrt{np_0(1-p_0)}}\)으로 잡는다.
  • 물론, 여기서도 \(np_0 \ge 5\), \(n(1-p_0)\ge 5\)가 필요하다. 기각역은 대립가설의 방향에 따라 잡는다.

두 모비율의 비교

  • \(X_1 \sim B(n_1, p_1) \)이고 \(X_2 \sim B(n_2, p_2)\)라 할 때, \(p_1-p_2\)를 추정하자. (단, 두 분포는 독립)
  • \(E(\hat{p_1}-\hat{p_2}) = p_1 - p_2\)이고, \(Var(\hat{p_1}-\hat{p_2}) = Var(\hat{p_1})+Var(\hat{p_2}) = \frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}\)
  • \(n_1 p_1 \ge 5\), \(n_1(1-p_1) \ge 5\), \(n_2 p_2 \ge 5\), \(n_2 (1-p_2) \ge 5\)라 가정하면, 근사적으로 $$ \frac{(\hat{p_1}-\hat{p_2})-(p_1-p_2)}{\sqrt{\frac{p_1 (1-p_1)}{n_1} + \frac{p_2 (1-p_2)}{n_2}}} \sim N(0,1) $$
  • 그러니 \(p_1-p_2\)에 대한 근사적 신뢰구간은 $$ \left( (\hat{p_1}-\hat{p_2}) - \sqrt{\frac{\hat{p_1} (1-\hat{p_1})}{n_1} + \frac{\hat{p_2} (1-\hat{p_2})}{n_2}} \cdot z_{\alpha /2}, \text{   } (\hat{p_1}-\hat{p_2}) + \sqrt{\frac{\hat{p_1} (1-\hat{p_1})}{n_1} + \frac{\hat{p_2} (1-\hat{p_2})}{n_2}} \cdot z_{\alpha /2} \right)$$

두 모비율의 비교를 위한 가설검정

  • \(H_0\)가 \(p_1=p_2\)라면, 검정통계량을 \(\frac{\hat{p_1}-\hat{p_2}}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n_1} + \frac{\hat{p}(1-\hat{p})}{n_2}}}\)로 둔다. 단, \(\hat{p} = \frac{X_1 + X_2}{n_1+n_2}\)는 합동표본비율이다.
  • \(n_1 p_1 \ge 5\), \(n_1(1-p_1) \ge 5\), \(n_2 p_2 \ge 5\), \(n_2 (1-p_2) \ge 5\)가 필요하며, 기각역은 대립가설의 방향을 따라간다.

동질성 검정: \(r\)개의 다항모집단에 대한 관측 도수를 기반으로, 그 동질성을 검정한다.

  • \(H_0\): \(r\)개의 다항모집단이 모두 동일하다. \(H_1\): \(H_0\)가 거짓이다. 
  • 기각역: 관찰도수가 \(H_0\)하에서의 기대도수와 크게 차이나면 \(H_0\)를 기각한다.
  • 모집단 \(i\)에서 뽑은 표본에서 범주 \(j\)가 관측된 도수를 \(O_{i,j}\)라 하자. 단 \(1 \le i \le r\), \( 1\le j \le c\)다.
  • \(n_i = \sum_{j=1}^c O_{i,j}\)는 모집단 \(i\)에서 뽑은 표본의 수이다.
  • \(O_j = \sum_{i=1}^r O_{i,j}\)는 범주 \(j\)가 관측된 총 횟수이다. 
  • \(n = \sum_{i=1}^r n_i = \sum_{j=1}^c O_j\)는 총 표본 수이다. 
  • \(H_0\)에서는 \(p_{1,j}=p_{2,j} = \cdots = p_{i,j} =p_j\)가 모든 \(j\)에 대해 성립한다.
  • 합동표본비율 \(\hat{p_j} = \frac{O_j}{n}\)을 생각하자. 그러면 기대도수는 \(E_{i,j} = n_i \cdot \frac{O_j}{n}\)이다. 
  • 검정통계량은 \(\chi^2 = \sum_{i=1}^r \sum_{j=1}^c \frac{(O_{i,j}-E_{i,j})^2}{E_{i,j}} \sim \chi^2 ((r-1)(c-1))\)이다. 
  • 기각역은 \(\chi^2 > \chi^2_{\alpha} ((r-1)(c-1))\)이 된다. 대립가설의 방향이 어디인지 생각해보자.

독립성 검정: 한 모집단의 각 개체에 대하여 두 가지 특성을 관찰하고, 그 독립성을 검정한다. 

  • \(H_0\): 두 특성은 독립적이다. \(H_1\): \(H_0\)가 거짓이다.
  • 기각역: 관찰도수가 \(H_0\)하에서의 기대도수와 크게 차이나면 \(H_0\)를 기각한다.
  • 특성 1이 가질 수 있는 범주가 \(r\)개 있다고 하고, 이를 \(A_1, A_2, \cdots A_r\)이라 하자.
  • 특성 2가 가질 수 있는 범주가 \(c\)개 있다고 하고, 이를 \(B_1, B_2, \cdots B_c\)이라 하자.
  • \(O_{i,j}\)를 \(A_i\)와 \(B_j\)를 가지는 표본의 개수라고 정의하자. \(n=\sum_{i, j} O_{i,j}\)를 전체 표본 수라고 하자.
  • 여기서 \(p_i = \frac{1}{n} \sum_{j=1}^c O_{i,j}\)를 \(A_i\)가 관측될 합동표본비율이라 하자. (단, \(1 \le i \le r\))
  • 마찬가지로 \(q_j = \frac{1}{n} \sum_{i=1}^r O_{i,j}\)를 \(B_j\)가 관측될 합동표본비율이라 하자. (단, \(1 \le j \le c\))
  • 그러면 기대도수는 가정된 \(H_0\)에서 얻어진 독립성에 의해서 \(E_{i,j} = n \cdot p_i \cdot q_j\)가 된다. 
  • 검정통계량은 \(\chi^2 = \sum_{i=1}^r \sum_{j=1}^c \frac{(O_{i,j}-E_{i,j})^2}{E_{i,j}} \sim \chi^2 ((r-1)(c-1))\)이다. 
  • 기각역은 \(\chi^2 > \chi^2_{\alpha} ((r-1)(c-1))\)이 된다. 대립가설의 방향이 어디인지 생각해보자.

Goodness-of-Fit 검정: 자료들의 도수가 이론적인 도수와 일치하는지 검정한다.

  • \(H_0\): 모비율이 이론적 모비율과 같다. \(H_1\): \(H_0\)가 거짓이다.
  • 기각역: 관찰도수가 \(H_0\)하에서의 기대도수와 크게 차이나면 \(H_0\)를 기각한다.
  • \(H_0\)에서 기대도수를 바로 구할 수 있다. 표본의 수에 이론적 모비율을 곱하면 된다. 
  • 검정통계량은 \(\chi^2 = \sum_{i=1}^r \frac{(O_i-E_i)^2}{E_i} \sim \chi^2 (r-1)\)이다. 
  • 기각역은 \(\chi^2 > \chi^2_{\alpha} (r-1)\)이 된다. 대립가설의 방향이 어디인지 생각해보자.

증명은 앞서 업로드한 [개인공부 #2: Pearson's chi-squared test]에서 확인할 수 있다. 

카이제곱 분포의 자유도는 "걸린 제약"에 의해 감소한다. 이를 생각하면서 자유도를 확인하자.

cf) 일반적으로 "제약"은 "편차의 합이 0이다"라는 사실에서 가장 많이 걸린다고 한다.

cf) 당연한 것이지만 가설 검정의 큰 틀은 변화하지 않는다. 그대로 검정해주면 된다.

'Lecture Notes > 통계학' 카테고리의 다른 글

05/15 통계학 노트  (0) 2019.05.15
05/13 통계학 노트  (1) 2019.05.13
05/01 통계학 노트  (0) 2019.05.05
개인공부 #2: Pearson's chi-squared test  (0) 2019.05.04
개인공부 #1 - 다변수 정규분포  (0) 2019.05.03
4월자 통계학 노트 (6장까지)  (0) 2019.05.02

앞서 한 다변수 정규분포에 대한 논의를 통해서 Pearson's chi-squared test를 증명할 수 있다. 

아래에서 "근사적으로 같다"는 표현은, "적당한 조건에서 그 분포로 수렴한다"라는 뜻으로 사용된다. 


\(n\)개의 독립적인 random variable \(X_1, X_2, \cdots X_n\)이라 하자. 

또한, 각 \(1 \le i \le n\), \(1 \le j \le r\)에 대하여 \(P(X_i=j)=p_j\)이고, \(\sum_{j=1}^r p_j = 1\)이라 하자. 

각 \(1 \le j \le r\)에 대하여 \(1 \le i \le n\) 중 \(X_i = j\)인 것의 수를 \(v_j\)라 하자. 이러면 \(\sum_{j=1}^r v_j = n\)이 강제된다. 이때 $$ \sum_{j=1}^r \frac{(v_j-np_j)^2}{np_j} \sim \chi^2 (r-1) $$이 근사적으로 성립한다. 


여기서 \(r-1\)은 \(v_1, v_2, \cdots v_r\)이 속할 수 있는 공간의 dimension, 또는 이 변수들이 가질 수 있는 degrees of freedom과 같다는 것을 파악할 수 있으며, (\(n=\sum_{j=1}^r v_j\)가 고정이니까) 실제로 더욱 일반적인 경우에도 비슷한 명제가 성립한다. 


이를 증명해보도록 하자. 우선 이항분포의 정규근사에 의해 $$\frac{v_j-np_j}{\sqrt{np_j(1-p_j)}} \sim N(0,1)$$이 근사적으로 성립한다. 그러니 여기에 상수배를 해주면 $$\frac{v_j-np_j}{\sqrt{np_j}} \sim N(0,1-p_j)$$도 근사적으로 성립함을 알 수 있다. 간단하게 \(\frac{v_j-np_j}{\sqrt{np_j}} \rightarrow Z_j\), \(Z_j \sim N(0,1-p_j)\)라 하자. 


하지만 이 정보는 \(\sum_{j=1}^r Z^2_j\)의 분포를 확인하기에는 부족하다. \(Z_j\)들끼리 독립이 아니기 때문이다. 

분포를 구하기 위해서는 먼저 \(Z_i\)와 \(Z_j\)의 Covariance를 구할 필요가 있다. (단, \(i \neq j\)) \(E(Z_i)=E(Z_j)=0\)이므로 $$Cov(Z_i,Z_j)=E(Z_i Z_j) - E(Z_i)E(Z_j) = E\left( \frac{v_i-np_i}{\sqrt{np_i}} \cdot \frac{v_j-np_j}{\sqrt{np_j}} \right) = \frac{1}{n\sqrt{p_i p_j}} E\left(v_i v_j - np_i v_j - np_j v_i + n^2 p_i p_j \right) $$이고, \(E(v_i)=np_i\), \(E(v_j)=np_j\)이며 \(\displaystyle E(v_i v_j) = \sum_{1 \le u, v \le n} P(X_u=i, X_v=j) = n(n-1)p_i p_j\)이므로 $$Cov(Z_i, Z_j) = \frac{1}{n\sqrt{p_i p_j}} \left(n(n-1)p_i p_j - n^2 p_i p_j -n^2 p_i p_j  + n^2 p_i p_j \right) = - \sqrt{p_i p_j} $$이다. 


결론적으로 \(\sum_{j=1}^r \frac{(v_j-np_j)^2}{np_j}\)와 \(\sum_{j=1}^r Z^2_j\)는 근사적으로 같은 분포를 따르게 된다. 

이때 \(Z_j \sim N(0,1-p_j)\)이고 \(Cov(Z_i, Z_j) = -\sqrt{p_i p_j}\)이다. (단, \(i \neq j\)) 이제 \(\sum_{j=1}^r Z^2_j \sim \chi^2_{r-1}\)을 보이자.


여기서 두 벡터 \(\vec{g}=(g_1, g_2, \cdots g_r)^T\)와 \(\vec{p}=(\sqrt{p_1}, \sqrt{p_2}, \cdots , \sqrt{p_r})^T\)를 정의하자.

\(g\)는 i.i.d. standard normal random variable로 이루어진 벡터이다. 또한, \(|\vec{p}|=1\)이다. 


먼저 증명할 것은 \(\vec{g}-(\vec{g} \cdot \vec{p})\vec{p}\)와 \((Z_1, Z_2, \cdots Z_r)\)이 같은 분포를 따른다는 것이다. 

\(\vec{g} \rightarrow \vec{g}-(\vec{g} \cdot \vec{p})\vec{p}\)는 선형사상이므로 행렬변환으로 표현된다. 그러니 \(\vec{g}-(\vec{g} \cdot \vec{p})\vec{p}\)는 \(N(0,\Sigma)\) 형태의 분포를 따른다. 이는 \((Z_1, Z_2, \cdots Z_r)\)도 마찬가지다. 그러니 중요한 것은 이들의 Covariance Matrix가 같은지 여부를 보는 것이다. 그러니

$$q_i = g_i - \left(\sum_{j=1}^r g_j \sqrt{p_j}\right) \sqrt{p_i}$$를 정의하고, \(E(q^2_i)\)와 \(E(q_i q_j)\)를 계산하여 그 값들이 \(Z_1, Z_2, \cdots Z_r\)에서 나온 값들과 같음을 증명하면 된다. 

이는 단순한 계산이다. 특히, 이 세팅에서는 \(g_i\)들이 i.i.d.이므로 정말 간단하게 계산할 수 있게 된다. 여기서 $$\sum_{j=1}^r \frac{(v_j-np_j)^2}{np_j} \rightarrow |\vec{g}-(\vec{g} \cdot \vec{p})\vec{p}|^2 $$를 얻는다. 하지만 저 형태의 벡터식은 정말 익숙한 형태의 식임을 알 수 있다. 바로 "사영"이다. 


\(\vec{g}-(\vec{g} \cdot \vec{p})\vec{p}\)는 \(\vec{g}\)를 \(\vec{p}\)에 수직한 평면에 사영시킨 벡터다. 이는 \(|\vec{p}|=1\)이므로 성립한다. 

이제 \(\vec{p}\)를 포함하는 \(\mathbb{R}^r\)의 orthonormal basis를 하나 만들고, 이를 \(\vec{p}_1 , \vec{p}_2 ,\vec{p}_3, \cdots \vec{p}_r\)이라 하자. (단, \(\vec{p}_1=\vec{p}\))

$$\vec{g} = \sum_{j=1}^r g_j \vec{e_j} = \sum_{j=1}^r g'_j \vec{p_j} $$로 쓸 수 있고, 여기서 \(\vec{g}'=(g'_1, g'_2, \cdots g'_r)\)은 \(\vec{g}\)에 orthogonal matrix에 대응되는 선형변환을 끼얹은 것으로 볼 수 있다.

그러므로 앞선 포스팅의 결과에 의해 \(\vec{g}'\)은 \(\vec{g}\)와 같은 분포를 따르고, 이는 \(g'_1, g'_2, \cdots g'_r\)이 i.i.d. standard normal random variable임을 의미한다. 그런데 \(\vec{g}-(\vec{g} \cdot \vec{p})\vec{p}\)가 \(\vec{g}\)를 \(\vec{p}\)에 수직한 평면에 사영시킨 벡터이므로 $$\vec{g}-(\vec{g}\cdot \vec{p})\vec{p} = \left(\sum_{j=1}^r g'_j \vec{p_j} \right) - g'_1 \vec{p_1} = \sum_{j=2}^r g'_j \vec{p_j} $$이다. \(\vec{p}_1 , \vec{p}_2 ,\vec{p}_3, \cdots \vec{p}_r\)이 \(\mathbb{R}^r\)의 orthonormal basis이고 \(g'_2, g'_3, \cdots g'_r\)이 i.i.d. standard random variable이므로 $$ |\vec{g}-(\vec{g} \cdot \vec{p})\vec{p}|^2 = \sum_{j=2}^r g'^2_j \sim \chi^2 (r-1)$$임을 알 수 있다. 이 증명은 자연스럽게 더 많은 "제약 조건"이 걸려있을 때에도 적용될 수 있다. 






'Lecture Notes > 통계학' 카테고리의 다른 글

05/13 통계학 노트  (1) 2019.05.13
05/01 통계학 노트  (0) 2019.05.05
개인공부 #2: Pearson's chi-squared test  (0) 2019.05.04
개인공부 #1 - 다변수 정규분포  (0) 2019.05.03
4월자 통계학 노트 (6장까지)  (0) 2019.05.02
04/01 통계학 노트  (0) 2019.04.01