東京大学 | 大学院医学系研究科 | 国際保健学専攻 | 人類生態学教室TOP | 2nd

社会統計学第11回
「量的変数の解析(1)〜差の検定と相関」(2001年12月6日)

トップ | 更新情報 | 研究と教育 | 業績 | 計算機 | 写真 | 枕草子 | 著者 | 目安箱 | 書評 | 社会統計学目次

最終更新: 2001年12月17日 月曜日 11時28分

全部を一括して読む | 前回へ


講義概要

母平均値と標本平均の差の検定
▼標本平均E(X)=mean(X)と既知の母平均値μXの差の検定は,母分散VXが既知のとき,z0=abs(E(X)-μX)/sqrt(VX/n)が標準正規分布に従うことを使って検定できる(注:nはサンプル数,abs()は絶対値を得る関数)。
▼VXが未知のときは標本の不偏分散SX=Σ(Xi-E(X))2/(n-1)=var(X)を使って,t0=abs(E(X)-μX)/sqrt(SX/n)が自由度n-1のt分布に従うことを使って検定できる(暗黙の仮定として,ランダムサンプルで,母集団の分布が正規分布であることが必要)。
▽未知の母平均値の信頼区間の推定はこの裏返し。
※Rでは,量的変数Xについて,平均値の95%信頼区間の下限はmean(X)-qt(0.975,n-1)*sqrt(var(X)/n)で得られ(ただし,予めn<-NROW(X)としておく),上限は,mean(X)+qt(0.975,n-1)*sqrt(var(X)/n)となる。なお,t.test(X,mu=既知の母平均値)とすれば,上記の検定と推定を両方やってくれる。
(練習1)昭和53年の国民栄養調査によれば3歳男児の平均身長は95.5cmであった。昭和53年にある保健所の3歳児健診に来所した326人の男児の平均身長が96.3cmで不偏分散が25.7であったとき,全国平均と比べて発育に差があるか検定せよ(出典:豊川裕之,柳井晴夫「医学・保健学の例題による統計学」現代数学社,1982)。
独立2標本の分布の位置の差の検定:
▼標本調査によって得られた独立した2つの量的変数XとY(サンプル数が各々nXとnYとする)について,母分散が既知で等しいVである場合は,z0=abs(E(X)-E(Y))/sqrt(V/nX+V/nY)が標準正規分布に従うことを使って検定する。
▼母分散が未知の場合は以下の通り。
  1. F検定(分散が等しいかどうか):2つの量的変数XとYの不偏分散の大きい方を小さい方で割ったF0=SX/SYが第1自由度nX-1,第2自由度nY-1のF分布に従うことを使って検定する。
    ※Rでは1-pf(F0,nX-1,nY-1)が有意確率になるが,var.test(X,Y)で実行できる(この場合は,Rが勝手に入れ替えてくれるので,Xの不偏分散の方がYの不偏分散より大きいかどうか気にしなくてもよい)。詳細は,help(var.test)で説明が得られ,example(var.test)で使用例が実行される。Rの関数は基本的にそういう仕様になっているのが親切である。設計思想が優れていると思う。
  2. 分散に差がない場合:母分散S=[(nX-1)SX+(nY-1)SY]/(nX+nY-2)より,t0=abs(E(X)-E(Y))/sqrt(S/nX+S/nY)が自由度nX+nY-2のt分布に従うことを利用して検定する。
  3. 分散が差がある場合(Welchの方法):t0=abs(E(X)-E(Y))/sqrt(SX/nX+SY/nY)が自由度φのt分布に従うことを使って検定する。但しφ=(SX/nX+SY/nY)2/[(SX/nX)2/(nX-1)+(SY/nY)2/(nY-1)]。
▼両側検定と片側検定:独立2標本XとYの平均値の差の検定をする場合,それぞれの母平均をμX, μYと書けば,その推定量はμX=mean(X)=ΣX/nとμY=mean(Y)=ΣY/nとなる。両側検定では,帰無仮説H0:μXYに対して対立仮説H1:μX≠μYである。H1を書き直すと,「μX>μYまたはμX<μY」ということである。つまり,t0を平均値の差/標準誤差として求めると,t0が負になる場合も正になる場合もあるので,有意水準5%で検定して有意になる場合というのは,t0が負でt分布の下側2.5%点より小さい場合と,t0が正でt分布の上側2.5%点より大きい場合の両方を含む。t分布は原点について対称なので,結局両側検定の場合は,上述のように差の絶対値を分子にして,1-pt(t0,自由度)によって得られた確率を2倍すれば有意確率が得られることになる。片側検定は,先験的にXとYの間に大小関係が仮定できる場合に行い,例えば,Xの方がYより小さくなっているかどうかを検定したい場合なら,帰無仮説H0:μX≧μYに対して対立仮説H1:μX<μYとなる。この場合は,t0が正になる場合だけ考えればよい。有意水準5%で検定して有意になるのは,t0がt分布の上側5%点より大きい場合である。
※上記(2)と(3)について,Rではt.test(X,Y)で平均値の差の検定をやってくれるし,t.test(量的変数‾カテゴリ変数)でカテゴリ変数で群分けした量的変数の2群間の平均値の差の検定をやってくれる。デフォルトではWelchの方法になる。t.test(X,Y,var.equal=T)とすれば等分散の場合の計算になる。片側検定をしたい場合は,alternativeという指定を追加する。例えば,X>Yが対立仮説なら,t.test(X,Y,alternative="greater")とする。指定しなければ両側検定である。alternativeに指定できる文字列は,greaterの他にはlessとtwo.sidedがある。
▼Mann-WhitneyのU検定(Wilcoxonの順位和検定と同じ。分布が歪んでいる場合に行う):2群を混ぜて個々の値に小さい方から順位を与え,その順位を使って検定統計量Uを計算するのだが,詳細は省略する。
※Rではwilcox.test(変数1,変数2,paired=F)またはwilcox.test(量的変数‾カテゴリ変数)でやってくれる。
▼コルモゴロフ=スミルノフ検定(分布の違いを検出したい場合):説明は省略する。
※Rではks.test(変数1,変数2)で可能。
対応のある2標本の平均値の差の検定:
▼対応のあるt検定:例えば前回例示したプロ野球入場者数のデータで,セリーグの入場者数とパリーグの入場者数は,各年度について両方の値があるので,対応が取れている。このような場合は,独立2標本の平均値の差の検定をするよりも,対応のある2標本として分析する方が切れ味がよい(差の検出力が高い)。
※Rではt.test(変数1,変数2,paired=T)で実行できる。
▼ウィルコクソンの符号順位検定(分布が歪んでいる場合):説明は省略。
※Rではwilcox.test(変数1,変数2,paired=T)で実行できる。
相関:
▼上述のセリーグの入場者数とパリーグの入場者数は,どちらかがどちらかを説明するという関係ではないが,互いに関連をもって変化している可能性がある。この関連の程度を表す指標が相関係数である。
▼ピアソンの積率相関係数(もっとも普通に用いられる。「相関係数」といえば,普通これを指す): XとYの共分散をXの分散とYの分散の積の平方根で割った値である。式で書けば,相関係数の推定値rは,r=Σ(Xi-E(X))(Yi-E(Y))/√(Σ(Xi-E(X))2Σ(Yi-E(Y))2)。rが0とは有意に異なるという仮説を検定するためには,r=0という帰無仮説の下で,検定統計量t0=r√(n-2)/√(1-r2)が,自由度n-2のt分布に従うことを利用して検定すればよい。
※Rでは,r<-cov(X,Y)/sqrt(var(X)*var(Y)); n<-NROW(X); t0<-r*sqrt(n-2)/sqrt(1-r^2); として,2*(1-pt(t0,n-2))で有意確率が得られるが,下記のようにcor.test関数を使う方が簡単である。
▼スピアマンの順位相関係数(分布が歪んでいたり,外れ値がある場合に使う): 値を順位で置き換えたピアソンの積率相関係数になる。
▼ケンドールの順位相関係数(スピアマンと同様): (A-B)/[n(n-1)/2]。A=順位の大小関係が一致する組の数,B=不一致数
※Rでは,cor.test(変数1,変数2,method="pearson")でピアソンの積率相関係数が得られ,それがゼロである確率pも得られる。pearsonの部分をspearmanに変えればスピアマンの,kendallに変えればケンドールの,順位相関係数とp値がそれぞれ得られる。

フォロー

練習問題の解答例
▼母平均95.5,標本平均96.3,不偏分散25.7,n=326を代入すれば,t0<-abs(96.3-95.5)/sqrt(25.7/326)となる。(講義中に言い忘れたが,)両側検定にするために確率を2倍して,p<-2*(1-pt(t0,325))が有意確率となるので,p=0.00466である。帰無仮説「標本平均と母平均が一致する」が棄却されるので,この3歳児健診の対象児は,全国平均と有意に差があると言える。
▼セリーグとパリーグの入場者数の相関は,central<-c(28,29,29,31,31,31,31,32,35,34); pacific<-c(13,12,16,18,21,23,22,24,24,24)として,cor.test(central,pacific)とすれば,以下の出力が得られる。
	        Pearson's product-moment correlation
	
	data:  central and pacific
	t = 4.5086, df = 8, p-value = 0.001979
	alternative hypothesis: true correlation is not equal to 0
	sample estimates:
	      cor
	0.8471066
この結果から,ピアソンの積率相関係数の推定値がr=0.847で,それがゼロであるという帰無仮説が有意確率p=0.001979で棄却されるので,有意な相関があるといえる。
講義中にwebサイトを検索したのはなぜ?
webサイトにはRでのいろいろな確率分布の関数の一覧表を置いてあるので参照しました。
試験は?
試験はありません。
母分散と不偏分散とは何ですか?
母分散とは,母集団の分散です。不偏分散とは,標本から推計される母分散の推定値で,各標本の値から平均を引いて二乗したものの総和(「偏差平方和」といいます)を(標本数−1)で割ったものになります。

全部を一括して読む | 次回へ