東京大学 | 大学院医学系研究科 | 国際保健学専攻 | 人類生態学教室TOP | 2nd
社会統計学第3回
「記述統計(1):データの図示」(2001年10月4日)
トップ | 更新情報 | 研究と教育 | 業績 | 計算機 | 写真 | 枕草子 | 著者 | 目安箱 | 書評 | 社会統計学目次
最終更新:
2002年1月8日 火曜日 13時06分
全部を一括して読む | 前回へ
講義概要
代表値もやる予定だったのだが,時間が不足したので翌週に繰り延べた。
- データの図示
- ▼離散量の場合
- ▼連続量の場合
- ヒストグラム
- 幹葉表示(stem and leaf plot)
- 箱ヒゲ図(box and whisker plot)
- 散布図(scatter plot)
- 離散量データの例1
- ▼夫婦の子ども数:20組の夫婦について
- 2, 3, 1, 0, 3, 2, 2, 1, 1, 1, 2, 2, 1, 3, 2, 1, 0, 2, 1, 1
- だった場合,どうまとめるか?
- →度数分布図を描く。Rなら,
- child <- c(2, 3, 1, 0, 3, 2, 2, 1, 1, 1, 2, 2, 1, 3, 2, 1, 0, 2, 1, 1)
- hist(child+0.5,4)
- とすればきれいなグラフが書ける。
- ▼(10月22日追記)ただし,hist(child,c(-0.5,0.5,1.5,2.5,3.5))と書くほうが正当である。
- ▼(10月22日追記)histを使わずに,plot(table(child))またはbarplot(table(child))とする手もある。
- 離散量データの例2
- ▼国立社会保障・人口問題研究所が行った「第11回出生動向基本調査・夫婦調査」から,結婚持続期間と子ども数の関係
結婚持続期間 | 0人 | 1人 | 2人 | 3人 | 4人 | 5人以上 |
0〜4年 (1,273) | 42.6 | 44.7 | 12.1 | 0.6 | 0 | 0 |
5〜9年 (1,276) | 10.3 | 21.0 | 53.6 | 13.9 | 1.2 | 0 |
10〜14年 (1,287) | 5.5 | 11.6 | 54.2 | 25.2 | 3.3 | 0.3 |
15〜19年 (1,334) | 3.7 | 9.8 | 53.6 | 27.9 | 4.6 | 0.4 |
20〜24年 (1,419) | 2.3 | 8.1 | 57.0 | 28.9 | 3.4 | 0.4 |
25年以上 ( 559) | 1.3 | 12.2 | 58.3 | 24.0 | 3.9 | 0.4 |
- →Excelで100%積み上げ横棒グラフにするとよい。
- 連続量データの例1
- ▼平成元年3月9日から4月2日の東京地区の最低気温
- 3.2, 3.1, 5.1, 4.8, 8.3, 9.8, 8.3, 6.6, 5.1, 3.8, 5.2, 5.6, 6.5, 5.7, 5.7, 7.4, 6.2, 7.0, 6.7, 5.7, 6.2, 6.0, 8.8, 10.7, 8.5
- ▼このデータを元にヒストグラムを書くには,Rなら,
- temp <- c(3.2, 3.1, 5.1, 4.8, 8.3, 9.8, 8.3, 6.6, 5.1, 3.8, 5.2, 5.6, 6.5, 5.7, 5.7, 7.4, 6.2, 7.0, 6.7, 5.7, 6.2, 6.0, 8.8, 10.7, 8.5)
- hist(temp)
- とすればよい。区間まで自動的に設定される。もちろん,好きな区間に設定することもできるが,通常は自動で問題ない。Excelでも区間を設定すれば,「ツール」→「分析ツール」→「ヒストグラム」でヒストグラムが描けるが,グラフ上では区間表示がずれたように見えるので注意が必要。
- 連続量データの例2
- ▼同じデータについて,幹葉表示ならば手作業で,
3 | | | 2 1 8 |
4 | | | 8 |
5 | | | 1 1 2 6 7 7 7 |
6 | | | 6 5 2 7 2 0 |
7 | | | 4 0 |
8 | | | 3 3 8 5 |
9 | | | 8 |
10 | | | 7 |
- とすることができる。
- ▼(10月22日追記)Rならば,stem(temp)でも幹葉表示はできる
が,葉の部分がすべて0として表示されてしまう流儀なので,ヒストグラムよりも優れているポイントが今一つ発揮されないのが残念である。(2002年1月8日前の文を一部削除かつ追記)R-jpメーリングリストで目黒@T&D投資顧問さんからご指摘いただいたが,この場合なら,stem(temp,2)とすれば,上で手作業でやったものとまったく同じ幹葉表示が得られることがわかった。stem(temp)はstem(temp,1)と同義で,stem(temp,2)の場合よりも幹の区分が粗くなる。なお,stem(temp,8)だと幹の部分が1桁増えるので,葉の部分がすべて0になるのは当然である。stem(temp,7)だと,幹が各整数温度について2区分される。ここで1とか2とか7とか8とかいう値(Rではscaleと呼ばれる)が具体的に何を意味するのかは,はっきりしないが,数を増やすほど幹の区分が細かくなるような値である。
- 連続量データの例3
- ▼同じデータについて,箱ヒゲ図ならばRを使って,
- とすることができる。このデータではあまり箱ヒゲ図の威力がないが,外れ値があるときはその様子が一目瞭然なので便利な図示である。
- 連続量データの例4
- ▼学生10人の前期と後期の成績が下表のようであるとき,
学生 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
前期(x) | 8 | 8 | 6 | 6 | 6 | 4 | 4 | 3 | 3 | 2 |
後期(y) | 9 | 5 | 9 | 7 | 5 | 7 | 4 | 7 | 4 | 3 |
- 散布図を書くには,Rを使えば,
- x <- c(8,8,6,6,6,4,4,3,3,2)
- y <- c(9,5,9,7,5,7,4,7,4,3)
- plot(x,y)
- とすればよい。Excelでも範囲を選んで,「挿入」→「グラフ」→「散布図」とするだけなので,簡単である。
フォロー
- 箱ヒゲ図は何の役に立つのか?
- ▼外れ値がたくさんあるような場合に,全体の分布と外れ値の様子を両方見られるのが便利(例:下図)
-
全部を一括して読む | 次回へ