東京大学 | 大学院医学系研究科 | 国際保健学専攻 | 人類生態学教室TOP | 2nd

社会統計学第13回
「量的変数の解析(3)〜多変量情報の集約」(2001年12月20日)

トップ | 更新情報 | 研究と教育 | 業績 | 計算機 | 写真 | 枕草子 | 著者 | 目安箱 | 書評 | 社会統計学目次

最終更新: 2001年12月25日 火曜日 08時39分

全部を一括して読む | 前回へ


講義概要

二元配置分散分析
▼前回は,カテゴリ変数が1つで各カテゴリ間の量的変数の平均値を比べた。今回はカテゴリ変数が2つの場合に拡張する。
▼例えば,7つの村A, B, C, D, E, F, Gで健診をやって,身長や体重を測ったという先週のデータで,村落間の違いだけでなく,性差も調べたいとする。この場合,性によって村落の身長や体重への影響が異なっているかもしれないので,交互作用効果も調べる必要がある。
▼二元配置分散分析では,母数モデルと変量モデルのどちらであるかを区別しなくてはならない。分散分析では,個々の値が母平均とカテゴリ変数の主効果と誤差項の和に分解できると考えるが,通常は,誤差項をカテゴリ変数のカテゴリや何番目のデータであるかによらず,期待値はゼロ,分散は一定の母分散に等しいと仮定する。これが母数モデルである。カテゴリ変数のカテゴリが個体であるような場合,それがある母集団からのランダム標本であると仮定して,各カテゴリの主効果の期待値がゼロ,分散がそれぞれ異なるとしてモデルを立てることになる。これが変量モデルである。
▼上の例では母数モデルでいいので,身長の場合なら, anova(lm(HEIGHT‾VILLAGE+SEX+VILLAGE*SEX))とする。
▼三元配置以上でも同じように分析できる。
主成分分析
▼たくさんの変数があって,それらの間のいくつかに関連はあるけれども,そのまま見ていたのでは解釈が難しい,という場合に,変数を少ない数の互いに独立な変数(主成分)の線形結合として表せると便利である。そのための分析法が主成分分析である。Rでは,mvaライブラリの中のprcompまたはprincompで実行できる。
▼library(mva)としてから,example(prcomp)とか,example(princomp)とかやってみると,実行例を見ることができるので,やってみよう。

フォロー

世論調査から分析するとか,もっと身近な例題とかでやって欲しかった。
▼確かにその方が,具体的な分析のイメージがつかめたかもしれません。今回は準備不足で世論調査的な生データが用意できなかったのでできなくて済みませんでした。受講者が多ければ,講義の最初の方で生データを集めるという方法も取れたのですが,結果的に少人数講義になってしまったので,1度だけ集めたデータも,結局使えなくて残念でした。