東京大学 | 大学院医学系研究科 | 国際保健学専攻 | 人類生態学教室TOP | 2nd

社会統計学第４回
「記述統計（２）：代表値」（2001年10月11日）

トップ | 更新情報 | 研究と教育 | 業績 | 計算機 | 写真 | 枕草子 | 著者 | 目安箱 | 書評 | 社会統計学目次

最終更新： 2002年2月18日月曜日 20時53分

全部を一括して読む | 前回へ

講義概要

（2002年2月18日追記）ケアレスミスで，四分位範囲と書くべきところを四分位偏差と書いていたのを訂正しました。ケアレスミスを反省すると同時に，メールでご指摘くださいました目黒様に深く感謝申し上げます。

代表値

▼データ全体の情報を集約してみるために計算される，１つの値。

▼分布の特徴を表す値として，一般に，中心とばらつきの２つが考えられる。

分布の中心(central tendency)＝狭義の代表値

最頻値(mode)：頻度の最も高い値。連続量なら，ヒストグラムのピークを与える階級の級代表値。ただし，区切り方次第で異なる値になるという恣意性と，二峰性の分布の場合に一意に決まらない可能性があることが問題。
中央値(median)：順番に並べたときの真中の値。
平均値(mean)：データの総和をデータ数で割った値。物理的に考えれば重心と等しい。
他に幾何平均（積の累乗根），調和平均（逆数の平均値の逆数）など。

分布のばらつき

範囲(range)：最大値と最小値の差。
四分位範囲(inter-quartile range)：順番に並べたデータを４つに分割して，上から１／４の点と下から１／４の点の差をとったもの。外れ値の影響を受けにくい。
四分位偏差(semi-inter-quartile range)：順番に並べたデータを４つに分割して，上から１／４の点と下から１／４の点の差をとったものの半分。外れ値の影響を受けにくい。
平均偏差：平均と各データの差の絶対値の総和をデータ数で割った値
分散：平均と各データの差の二乗の和をデータ数で割った値。
標準偏差：分散の平方根。なお，データ数で割る代わりにデータ数から１を引いた「自由度」で割れば，それぞれ不偏分散，不偏標準偏差となる。標本から母集団を推定するときは不偏にする。
変動係数(CV)：標準偏差を平均で割った値。相対的なばらつきの尺度。

練習問題

▼以下のそれぞれについて，代表値を計算してみよ。

前回提示した，「平成元年３月９日から４月２日の東京地区の最低気温」のデータ。
solomon.datというデータファイルに入っている，ソロモン諸島の人々の年齢と収縮期血圧のデータ。

今回使った関数の一覧

求める代表値など	EXCELの関数または手順（範囲A1:Y1にデータがあるとして）	Rの関数または手順（x <- c(...)などのやり方で変数xにデータを入れたとして）
最頻値	離散データなら=MODE(A1:Y1)で良いが，連続量なら，ツール＞分析ツール＞ヒストグラムでヒストグラムを書いて最大度数のデータ区間を探し，その区間の中点を最頻値とする。	hist(x)でヒストグラムを書いて最大度数のデータ区間を探し，その区間の中点を最頻値とする。hist(x,c(min(x),5,8,max(x)))などとすれば，xの最小値から5まで，5から8まで，8からxの最大値までという３つの区間で度数を計算させることができる。本来はhist(x,5)とすれば５つの区間という形の指定ができるはずなのだが，区間の数によってうまくいったりいかなかったりした。なお，hist(x,plot=F)とすれば，グラフを書く代わりに数値を表示させられる。
中央値	=MEDIAN(A1:Y1)	median(x) 但し，xの中にNA（欠損値）を含む場合は，median(x,na.rm=T)，あるいはmedian(x[!is.na(x)])とする。以下同様。
平均値	=AVERAGE(A1:Y1) 調和平均は=HARMEAN(A1:Y1)，幾何平均は=GEOMEAN(A1:Y1)で求められる。	mean(x) 調和平均は1/mean(1/x)，幾何平均はexp(mean(log(x)))で求められる。
範囲	=MAX(A1:Y1)-MIN(A1:Y1)	max(x)-min(x)
四分位範囲	=QUARTILE(A1:Y1,3)-QUARTILE(A1:Y1,1)	IQR(x)，またはy<-quantile(x); y[4]-y[2] または，fivenum(x)[4]-fivenum(x)[2]でも良い。
四分位偏差	=(QUARTILE(A1:Y1,3)-QUARTILE(A1:Y1,1))/2	IQR(x)/2，またはy<-quantile(x); (y[4]-y[2])/2 または，(fivenum(x)[4]-fivenum(x)[2])/2でも良い。
平均偏差	=AVEDEV(A1:Y1)	組み込み関数にはないが， sum(abs(x-mean(x)))/NROW(x)で得られる。
不偏分散	=VAR(A1:Y1) （不偏でない分散は=VARP(A1:Y1)で得られる）	var(x) 不偏でない分散は組み込み関数にはないが， sum((x-mean(x))^2)/NROW(x)で得られる。
不偏標準偏差	=STDEV(A1:Y1) （不偏でない標準偏差は=STDEVP(A1:Y1)で得られる）	sd(x) 不偏でない標準偏差は， sqrt(sum((x-mean(x))^2)/NROW(x))で得られる。^(*)
タブ区切りデータファイルの読み込み	そのままドラッグ＆ドロップ	１行目に変数名が入っているなら， x <- read.delim("C:/My Documents/solomon.dat",header=T)とする^(**)。それぞれの変数は，例えばx$ageのようにして参照できる。１行目が変数名でなくすぐにデータである場合は， x <- read.delim("C:/My Documents/solomon.dat",header=F)とする。この場合，変数名はx$V1, x$V2, ...として参照できる。一々x$とつけるのが面倒なら，attach(x)とすればV1とかV21だけで参照できる。
カンマ区切りデータファイルの読み込み	そのままドラッグ＆ドロップ	１行目に変数名が入っているなら， x <- read.csv("C:/My Documents/solomon.dat",header=T)とする^(**)。１行目が変数名でなくすぐにデータである場合は， x <- read.csv("C:/My Documents/solomon.dat",header=F)とする。
データの編集	表にそのまま打ち込む	de(x$V1,x$V5)などとすれば表形式で指定した変数の値を編集できる。表の上でマウスを右クリックすると操作メニューがでる。
データの書き出し	ファイルから保存を選ぶ	コンマ区切りでデータフレームxをマイドキュメントのsample.datに書き出すには， write.table(x,"C:/My Documents/sample.dat",sep=",")とする。タブ区切りならsep="¥t"とすればよい。

^(*) もちろん，不偏でない分散を出すときに，Vx<-sum((x-mean(x))^2)/NROW(x)などとして値を保存しておいて，
sqrt(Vx)とするのがエレガントである。

^(**) ¥を/に置き換えたファイル名をフルパスで書く。ただし，２バイトコードが入ったディレクトリ名やファイル名は，文字化けするので使えないと思われる。Windows2000では，マイドキュメントフォルダは，ふつう，"C:/Documents and Settings/nakazawa/My Documents/"など（nakazawaのところにはユーザIDが入る）として参照できる。

フォロー

いろいろな代表値はどんな目的で使われる？

▼例えば，Rでdata(infert)として読み込まれるデータ（Rには，予めいくつかのデータが組み込まれているのです）は，infertとすればすべて表示されますが，その個々の値をすべて見て全体の様子を把握することは人間には難しいので，分布を図示したり代表値を計算したりするわけです。

▼代表値は，どれもデータの分布を１つの値に集約して示す目的で計算されます。１つの値に集約できると他のデータと比較するのに便利です（経年変化を見るとか）。

▼データの分布の中心を表す値としては，分布が歪んでいたり外れ値が多い時は中央値，分布が正規分布に近ければ平均値が適当です。分布のばらつきを表す値としては，分布が歪んでいたり外れ値が多い時は四分位範囲や四分位偏差，正規分布に近ければ不偏標準偏差が適当です。

練習問題の答え

代表値の種類	東京の最低気温	ソロモン諸島住民の年齢	ソロモン諸島民の収縮期血圧
中央値	6.2	33	111
平均値	6.4	34.43245	112.2878
調和平均	5.833592	0^(*)	110.0773
幾何平均	6.122352	0^(*)	111.1651
範囲	7.6	87	107
四分位範囲	2.2	23	20
四分位偏差	1.1	11.5	10
平均偏差	1.456	13.64231	12.32760
分散	3.4624	292.8202	263.0999
不偏分散	3.606667	293.3403	263.6538
標準偏差	1.860753	17.11199	16.22036
不偏標準偏差	1.899123	17.12718	16.23742
変動係数	29.1%	49.7%	14.4%

^(*)ageは0を含むため，調和平均や幾何平均は0になってしまう。

（注）ここは計算練習なので（変動係数以外は）桁数を長く表示しているが，本来は有効数字を考えて結果を出す必要がある。例えば，年齢はデータの有効数字が２桁しかないから，平均値も34と書くべきである。

全部を一括して読む | 次回へ

社会統計学第４回「記述統計（２）：代表値」（2001年10月11日）

講義概要

フォロー

社会統計学第４回
「記述統計（２）：代表値」（2001年10月11日）