東京大学 | 大学院医学系研究科 | 国際保健学専攻 | 人類生態学教室TOP | 2nd
社会統計学第5回
「カテゴリカルデータの解析(1)」(2001年10月18日)
トップ | 更新情報 | 研究と教育 | 業績 | 計算機 | 写真 | 枕草子 | 著者 | 目安箱 | 書評 | 社会統計学目次
最終更新:
2002年1月4日 金曜日 18時58分
全部を一括して読む | 前回へ
講義概要
- カテゴリカルデータとは
- ▼カテゴリ=離散量のデータをいう。質的なデータ,あるいは定性的なデータと言い換えてもよい。
- ▼名義尺度と順序尺度を含む。
- ▼例としては,以下のようなものがある。名義尺度でも2値データだと使える分析法が多い。
- 性別(名義尺度,2値)
- 賛成vs反対(名義尺度,2値)
- はいvsいいえ(名義尺度,2値)
- 住んでいる都道府県(名義尺度,多値)
- プロスポーツの好きな順番(順序尺度,多値)
- ▼いつも実行しているvsだいたい実行しているvsときどき実行しているvsたまに実行しているvsまったく実行していない,は,順序があるだけでなく,ほぼ等間隔と見なせるので,間隔尺度となる(通常,整数値を振る)。間隔尺度は量的なデータである。
- ▼あまりに稀なカテゴリに対してはリコーディングの必要がある場合がある。
- 母比率に関する推定(1)
- ▼母比率とは,個々のカテゴリが母集団で占めるあろう割合である。通常,標本比率とほぼ一致する。
- ▼例えば,手元の容器の中に,数百個の白い碁石があるとする。この概数を手っ取り早く当てるために,数十個の黒い碁石を混ぜる。よくかき混ぜてから20個程度の石を取り出してみて(標本),その中で黒い石に対して白い石が占めていた比に,加えた黒い石の数をかければ,元の白い碁石の数が推定できる。生態学のリンカーン法のやり方と同じである。
- ▼例題:最初に混入した黒い石の数が40個,かき混ぜてから20個の石を取り出してみたら黒石2個,白石18個だった場合,元の白石の数はいくつと推定されるか?
- 母比率に関する推定(2)
- ▼上の手続きで得られるのは,点推定値である。もっともそれらしい,1つの値が出る。
- ▼ここで,この推定値がどれほど確からしいか? を考えてみる。
- ▼黒石の割合(母比率)がpである容器から20個の石を取り出したときに,黒石がちょうど2個である確率は,ニ項分布に従うので,Rの式で書けば,choose(20,2)*p^2*(1-p)^18となる。この値が最大となるのは,p=0.1の時である(確かめよ)。
- ▼例えば,bis <- function(p) {choose(20,2)*p^2*(1-p)^18}としておいて,z <- c(1:100); for (i in 1:100) {z[i] <- bis(i/500)}; barplot(z)とすれば,0.002から0.2まで0.002刻みで母比率を変えたときの「黒石がちょうど2個である確率」が図示される。ちょうど50番目にピークがあって,p=0.1のときが最大になることがわかる。
- ▼40個入れて全体の0.1を占めるのだから,40/0.1=400が全体の数で,400-40=360が元の白石の数だと推定できる。
- ▼ただし,p=0.09だろうがp=0.11だろうが,黒石がちょうど2個である確率には大した差はない。だから,360という点推定値は,404(p=0.09のとき)とか324(p=0.11のとき)に比べて,それほど信頼性は高くない。
- 母比率に関する推定(3)
- ▼ビデオリサーチによれば,NHKの朝のテレビ小説「ほんまもん」の10月8日の関東地区の視聴率は22.9%であった。関東地区の調査対象世帯は600だから,137世帯が見ていたことになる。このとき,関東地区全体の真の視聴率(母比率)はどのくらいの範囲にあると推定されるか? というのが問題である。
- ▼「ほんまもん」を見る/見ないという事象は各世帯独立に起こるとすれば,ニ項分布で考えることができる。母比率が137/600の時にちょうど137世帯が見たという確率は,choose(600,137)*(137/600)^137*(463/600)^463で,たかだか3.9%に過ぎない。
- ▼しかし,母比率が10%だったのに137世帯が見たという確率は,2.5*10^(-20)であり,まったくありそうにない。
- 母比率に関する推定(4)
- ▼137/600の前後適当な幅をとれば,かなり高い確率で,ちょうど137世帯が見た,という事象が起こることになる。この幅を「信頼区間」という。
- ▼95%の確率でちょうど137世帯が見たという事象が起こるための母比率の推定幅を,「95%信頼区間」という。
- 母比率に関する推定(5)
- ▼95%信頼区間を求めるには,下側2.5%の点と上側2.5%の点を求めればよいので,Rならz<-0; k<-0; while (z<0.025) {k <- k+1; z <- z+zz[k] }; kとして下側2.5%の点を求め,z<-0; k<-600; while (z<0.025) {k <- k-1; z <- z+zz[k] }; kとして上側2.5%の点を求めればよい(確かめよ)。
- ▼結果として,600世帯の調査で22.9%の視聴率だったら,母集団の視聴率(真の視聴率)の95%信頼区間は,19.8%から26.5%の間と言える。
- 母比率に関する推定(6)
- ▼ニ項分布は,nが大きいときは正規分布で近似できる。このことを利用すれば,母比率p,標本数(調査世帯数)nで,その標本の中で注目している属性をもつ標本数(「ほんまもん」を見た世帯数)をX,観測比率をP=X/nとすれば,Xが近似的に正規分布N(np,np(1-p))に従うことになる。正規分布の95%のサンプルは,平均±2標準偏差に入ることが既知なので,
- Pr[np-2√(np(1-p))≦X≦np+2√(np(1-p))]=0.95
- ▼これから式変形すると,Pr[P-2√{P(1-P)/n}≦p≦P+2√{P(1-P)/n}]=0.95となるので,母比率pは95%の確率で範囲(P-2√{P(1-P)/n}, P+2√{P(1-P)/n})にあるといえる。即ちこれが,母比率pの95%信頼区間となる。
- 母比率に関する推定(7)
- ▼練習問題: ある大学の正門の前で,ある朝登校して来る学生の男女比を調べてみたところ,300人中,女子学生が75人であった。この大学の女子学生の割合の点推定値と95%信頼区間を求めよ。
- ▼ヒント: 95%信頼区間の下限を求めるRの式は,75/300-2*sqrt(75/300*225/300/300)である。
- ▼注: この推定には,朝登校して来る学生に男女の偏りがないという仮定があるので,実は真の値を過大評価することになっている。
- ▼付加的な問題: では,どうすれば正しい推定ができるような標本がとれるか?
フォロー
- 理解を助けるために参考になりそうな本は?
- ▼統計の参考書を教えて欲しいという質問は大学院生からも良く受けるのですが,これが最高だというものはなかなかありません。統計的な考え方の基礎を知るには,鈴木義一郎「情報量規準による統計解析入門」(講談社)をお薦めします。推定や検定の個別の方法については,粕谷英一「生物学を学ぶ人のための統計のはなし―きみにも出せる有意差」(文一総合出版)または,多少高価ですが,浜田知久馬「学会・論文発表のための統計学 統計パッケージを誤用しないために」(真興交易(株)医書出版部)がお薦めです。統計学を本気でやりたければ,竹村彰通「現代数理統計学」(創文社)から進めばよいと思いますが,それなりに難解なので独学にはちょっときついかもしれません。
- Rのコマンドをなかなか覚えられないので困っている。
- ▼大学以降に学ぶことは,実は全部は覚えなくていいことが多いのです。実際,教官だって,教えていることをいつでも全部暗記しているかといえば,そんなことはありません。大事なことは,どこを見れば必要な情報が書いてあるかを覚えておくことです。
- ▼Rについても,基本的なコマンドいくつかと文法の基本さえきちんと覚えておけば,後はうろ覚えで十分です。help(コマンド名)とか,ヘルプメニューからヘルプを見るなどすればいつでも詳細は確認できます。
- Rで,data(infert)としてinfertと打つだけでデータが出てくるのはなぜ?
- ▼Rには統計計算の練習用に,たくさんのデータが予め組み込まれています。
- ▼例えば,1960年から1997年までの地球の平均二酸化炭素濃度の毎月の変化(co2),タイタニック号に乗っていた人の船室や性別などのデータ(Titanic),米国の人口の経年変化(uspop)などが利用可能です。infertもその一つです。
- ▼これらのデータは,原則として,既に論文などで発表済みで公開されているものです。
- 次週のプリントが前もって欲しい
- そうできれば理想的なのですが,できていないので,無理です。正直に言えば,講義前日の夜にプリントを作成している状態です。申し訳ありません。
全部を一括して読む | 次回へ