東京大学 | 大学院医学系研究科 | 国際保健学専攻 | 人類生態学教室TOP | 2nd
トップ | 更新情報 | 研究と教育 | 業績 | 計算機 | 写真 | 枕草子 | 著者 | 目安箱 | 書評 | 非常勤
最終更新: 2002年2月19日 火曜日 12時12分
わかったようでわからない「確率」について,徹底的に考えてみよう
代表値もやる予定だったのだが,時間が不足したので翌週に繰り延べた。
結婚持続期間 | 0人 | 1人 | 2人 | 3人 | 4人 | 5人以上 |
---|---|---|---|---|---|---|
0〜4年 (1,273) | 42.6 | 44.7 | 12.1 | 0.6 | 0 | 0 |
5〜9年 (1,276) | 10.3 | 21.0 | 53.6 | 13.9 | 1.2 | 0 |
10〜14年 (1,287) | 5.5 | 11.6 | 54.2 | 25.2 | 3.3 | 0.3 |
15〜19年 (1,334) | 3.7 | 9.8 | 53.6 | 27.9 | 4.6 | 0.4 |
20〜24年 (1,419) | 2.3 | 8.1 | 57.0 | 28.9 | 3.4 | 0.4 |
25年以上 ( 559) | 1.3 | 12.2 | 58.3 | 24.0 | 3.9 | 0.4 |
3 | | | 2 1 8 |
4 | | | 8 |
5 | | | 1 1 2 6 7 7 7 |
6 | | | 6 5 2 7 2 0 |
7 | | | 4 0 |
8 | | | 3 3 8 5 |
9 | | | 8 |
10 | | | 7 |
学生 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
前期(x) | 8 | 8 | 6 | 6 | 6 | 4 | 4 | 3 | 3 | 2 |
後期(y) | 9 | 5 | 9 | 7 | 5 | 7 | 4 | 7 | 4 | 3 |
(2002年2月18日追記)ケアレスミスで,四分位範囲と書くべきところを四分位偏差と書いていたのを訂正しました。ケアレスミスを反省すると同時に,メールでご指摘くださいました目黒様に深く感謝申し上げます。
求める代表値など | EXCELの関数または手順 (範囲A1:Y1にデータがあるとして) | Rの関数または手順 (x <- c(...)などのやり方で変数xにデータを入れたとして) |
---|---|---|
最頻値 | 離散データなら=MODE(A1:Y1)で良いが,連続量なら,ツール>分析ツール>ヒストグラムでヒストグラムを書いて最大度数のデータ区間を探し,その区間の中点を最頻値とする。 | hist(x)でヒストグラムを書いて最大度数のデータ区間を探し,その区間の中点を最頻値とする。hist(x,c(min(x),5,8,max(x)))などとすれば,xの最小値から5まで,5から8まで,8からxの最大値までという3つの区間で度数を計算させることができる。本来はhist(x,5)とすれば5つの区間という形の指定ができるはずなのだが,区間の数によってうまくいったりいかなかったりした。 なお,hist(x,plot=F)とすれば,グラフを書く代わりに数値を表示させられる。 |
中央値 | =MEDIAN(A1:Y1) | median(x) 但し,xの中にNA(欠損値)を含む場合は,median(x,na.rm=T),あるいはmedian(x[!is.na(x)])とする。以下同様。 |
平均値 | =AVERAGE(A1:Y1) 調和平均は=HARMEAN(A1:Y1),幾何平均は=GEOMEAN(A1:Y1)で求められる。 | mean(x) 調和平均は1/mean(1/x),幾何平均はexp(mean(log(x)))で求められる。 |
範囲 | =MAX(A1:Y1)-MIN(A1:Y1) | max(x)-min(x) |
四分位 | =QUARTILE(A1:Y1,3)-QUARTILE(A1:Y1,1) | IQR(x),またはy<-quantile(x); y[4]-y[2] または,fivenum(x)[4]-fivenum(x)[2]でも良い。 |
四分位偏差 | =(QUARTILE(A1:Y1,3)-QUARTILE(A1:Y1,1))/2 | IQR(x)/2,またはy<-quantile(x); (y[4]-y[2])/2 または,(fivenum(x)[4]-fivenum(x)[2])/2でも良い。 |
平均偏差 | =AVEDEV(A1:Y1) | 組み込み関数にはないが, sum(abs(x-mean(x)))/NROW(x)で得られる。 |
不偏分散 | =VAR(A1:Y1) (不偏でない分散は=VARP(A1:Y1)で得られる) | var(x) 不偏でない分散は組み込み関数にはないが, sum((x-mean(x))^2)/NROW(x)で得られる。 |
不偏標準偏差 | =STDEV(A1:Y1) (不偏でない標準偏差は=STDEVP(A1:Y1)で得られる) | sd(x) 不偏でない標準偏差は, sqrt(sum((x-mean(x))^2)/NROW(x))で得られる。(*) |
タブ区切りデータファイルの読み込み | そのままドラッグ&ドロップ | 1行目に変数名が入っているなら, x <- read.delim("C:/My Documents/solomon.dat",header=T)とする(**)。 それぞれの変数は,例えばx$ageのようにして参照できる。1行目が変数名でなくすぐにデータである場合は, x <- read.delim("C:/My Documents/solomon.dat",header=F)とする。この場合,変数名はx$V1, x$V2, ...として参照できる。 一々x$とつけるのが面倒なら,attach(x)とすればV1とかV21だけで参照できる。 |
カンマ区切りデータファイルの読み込み | そのままドラッグ&ドロップ | 1行目に変数名が入っているなら, x <- read.csv("C:/My Documents/solomon.dat",header=T)とする(**)。1行目が変数名でなくすぐにデータである場合は, x <- read.csv("C:/My Documents/solomon.dat",header=F)とする。 |
データの編集 | 表にそのまま打ち込む | de(x$V1,x$V5)などとすれば表形式で指定した変数の値を編集できる。表の上でマウスを右クリックすると操作メニューがでる。 |
データの書き出し | ファイルから保存を選ぶ | コンマ区切りでデータフレームxをマイドキュメントのsample.datに書き出すには, write.table(x,"C:/My Documents/sample.dat",sep=",")とする。タブ区切りならsep="¥t"とすればよい。 |
代表値の種類 | 東京の最低気温 | ソロモン諸島住民の年齢 | ソロモン諸島住民の収縮期血圧 |
---|---|---|---|
中央値 | 6.2 | 33 | 111 |
平均値 | 6.4 | 34.43245 | 112.2878 |
調和平均 | 5.833592 | 0(*) | 110.0773 |
幾何平均 | 6.122352 | 0(*) | 111.1651 |
範囲 | 7.6 | 87 | 107 |
四分位範囲 | 2.2 | 23 | 20 |
四分位偏差 | 1.1 | 11.5 | 10 |
平均偏差 | 1.456 | 13.64231 | 12.32760 |
分散 | 3.4624 | 292.8202 | 263.0999 |
不偏分散 | 3.606667 | 293.3403 | 263.6538 |
標準偏差 | 1.860753 | 17.11199 | 16.22036 |
不偏標準偏差 | 1.899123 | 17.12718 | 16.23742 |
変動係数 | 29.1% | 49.7% | 14.4% |
分布の種類 | 確率密度関数 (probability density function) | 分布関数=確率母関数=累積確率密度関数 (distribution function = probability generating function = cumulative probability density function) | 分位点関数 (quartile function) |
---|---|---|---|
カイ二乗分布 | dchisq(カイ二乗値, 自由度) | pchisq(カイ二乗値, 自由度) | qchisq(%, 自由度) |
2項分布 | dbinom(生起回数, 試行回数, 母比率) | pbinom(生起回数, 試行回数, 母比率) | qbinom(%, 試行回数, 母比率) |
ポアソン分布 | dpois(生起回数, 期待値) | ppois(生起回数, 期待値) | qpois(%, 期待値) |
正規分布(1) | dnorm(Zスコア,平均値,標準偏差) | pnorm(Zスコア,平均値,標準偏差) | qnorm(%, 平均値,標準偏差) |
対数正規分布(2) | dlnorm(Zスコア,対数平均値,対数標準偏差) | plnorm(Zスコア,対数平均値,対数標準偏差) | qlnorm(%, 対数平均値,対数標準偏差) |
一様分布(3) | dunif(値,最小値,最大値) | punif(値,最小値,最大値) | qunif(%, 最小値,最大値) |
t分布 | dt(t値,自由度) | pt(t値,自由度) | qt(%, 自由度) |
F分布 | df(F値,第1自由度,第2自由度) | pf(F値,第1自由度,第2自由度) | qf(%, 第1自由度,第2自由度) |
(1)平均値と標準偏差は省略可能。省略時は標準正規分布(平均0, 標準偏差1)になる。 | |||
(2)対数平均値と対数標準偏差は省略可能。省略時は対数平均0, 対数標準偏差1になる。なお,対数平均とは自然対数をとった値の平均,対数標準偏差とは自然対数をとった値の標準偏差をいう。dlnorm(1)はdnorm(0)と等しい。 | |||
(3)最小値と最大値は省略可能。省略時は0と1になる。 | |||
(注)これらの分布関数に従う乱数を生成する関数もある。例えば,これまでにも何度か取り上げた,0から1までの一様乱数を1000個生成する関数がrunif(1000)であるのは,runif(1000,0,1)の省略形である。同様に考えれば,試行回数100回,母比率0.2の2項分布に従う乱数を1000個発生させるには,rbinom(1000,100,0.2)とすれば良いことがわかるだろう。 |
今回の講義で使用したRのスクリプトはp07.Rとしてダウンロードできる。
人 | 性別 | 社会人か学生か |
A | 男性(M) | 社会人(W) |
B | 女性(F) | 学生(S) |
C | 男性(M) | 学生(S) |
D | 男性(M) | 社会人(W) |
E | 女性(F) | 社会人(W) |
リスク比とオッズ比は,
であるとき,前向き研究からの疾病リスク比=a/(a+b)/(c/(c+d))=a(c+d)/c(a+b),疾病オッズ比=a/b/(c/d)=ad/bc,患者対照研究からの曝露リスク比=a/(a+c)/(b/(b+d))=a(b+d)/b(a+c),曝露オッズ比=a/c/(b/d)=ad/bcとなり,リスク比は異なるがオッズ比は一致する。断面研究の場合は,有病オッズ比としてad/bcを計算する。社会統計学ではリスク比はあまり使われないが,オッズ比は使われる。一般に,要因Aのない人に比べて,要因Aがある人は,何倍くらい特性Bをもちやすいか,を示す値となる。後にロジスティック回帰の話で触れる。
疾病あり 疾病なし 曝露あり a人 b人 曝露なし c人 d人 関連性の指標には,ピアソンの相関係数とか,φ係数などがある。これらについては後日触れる。
なお,同じ質問を2回した場合に同じ変数がどれくらい一致するかについても,独立性の検定ができそうな気がするかもしれないが,してはいけない。この場合はtest-retest-reliabilityを測ることになるので,前期の社会調査で説明したクロンバックのα係数を計算するか,あるいはκ係数などの一致度の指標を計算するのが正しい。
特性Aあり | 特性Aなし | |
特性Bあり | a人 | b人 |
特性Bなし | c人 | d人 |
特性Aあり | 特性Aなし | |
特性Bあり | π11 | π12 |
特性Bなし | π21 | π22 |
特性Aあり | 特性Aなし | |
特性Bあり | Nπ11 | Nπ12 |
特性Bなし | Nπ21 | Nπ22 |
Aあり | Aなし | |
Bあり | 12人 | 8人 |
Bなし | 9人 | 10人 |
事象が起こる | 事象が起こらない | ||
処理群 | X人 | m1-X人 | m1人 |
対照群 | Y人 | m2-Y人 | m2人 |
2回目○ | 2回目× | 合計 | |
1回目○ | a人 | b人 | m1人 |
1回目× | c人 | d人 | m2人 |
合計 | n1人 | n2人 | N人 |
table型のobjectであるXを与えることで今回示した指標をすべて計算する関数,crosstab(X)を定義してみた。p08.Rとしてダウンロードできる。組み込みデータのinfertを使った使用例もついているので参考になるであろう。
前回までは,主に2×2のクロス集計表を扱った。今回は,(1)2変数のどちらか,あるいは両方ともカテゴリ数が3つ以上の場合,(2)カテゴリカル変数が3つ以上の場合,への拡張を扱う。
喫煙者 | 心筋梗塞 | 非喫煙者 | 心筋梗塞 | |||
---|---|---|---|---|---|---|
飲酒 | あり | なし | 飲酒 | あり | なし | |
あり | 8 | 16 | あり | 63 | 36 | |
なし | 22 | 44 | なし | 7 | 4 |
心筋梗塞 | ||
---|---|---|
飲酒 | あり | なし |
あり | 71 | 52 |
なし | 29 | 48 |
年次 | 84 | 85 | 86 | 87 | 88 | 89 | 90 | 91 | 92 | 93 |
セリーグ | 28 | 29 | 29 | 31 | 31 | 31 | 31 | 32 | 35 | 34 |
パリーグ | 13 | 12 | 16 | 18 | 21 | 23 | 22 | 24 | 24 | 24 |
Min | 1Q | Median | 3Q | Max |
-0.9472 | -0.7143 | -0.5803 | -0.4478 | 1.9311 |
Estimate | Std. Error | z value | Pr(>|z|) | |
(Intercept) | -2.2496 | 0.6354 | -3.540 | 0.000399 *** |
NQ10 | 0.2969 | 0.5291 | 0.561 | 0.574639 |
AGE | 0.2767 | 0.3169 | 0.873 | 0.382463 |
SEX | 0.7372 | 0.5109 | 1.443 | 0.149070 |
従属変数 | 独立変数 | 分析法(Rでの関数名) | 参照回など |
---|---|---|---|
カテゴリ変数1つ | カテゴリ変数または量的変数,1つまたは複数 | ロジスティック回帰分析(glm),判別分析(MASSライブラリのldaまたはmdaライブラリのmda) | 第10回(ロジスティック回帰のみ) |
量的変数1つ | カテゴリ変数1つ | 一元配置分散分析(oneway.testまたはkruskal.test)と多重比較(pairwise.t.test) | 第12回 |
量的変数1つ | カテゴリ変数複数 | 多元配置分散分析(anova) | 第13回 |
量的変数1つ | カテゴリ変数1つ(クラス変数)と量的変数1つまたは複数 | 共分散分析(lmまたはaovで実行できる) | 第12回 |
量的変数1つ | 量的変数複数 | 重回帰分析(lm) | 第10回 |
量的変数1つ | カテゴリ変数複数 | ダミー変数を使った重回帰分析(lm) | 第13回 |
量的変数複数 | カテゴリ変数複数 | 多変量分散分析(manova) | 触れない |
量的変数複数 | 量的変数複数 | 正準相関分析(mvaライブラリのcancor) | 触れない |
Pearson's product-moment correlation data: central and pacific t = 4.5086, df = 8, p-value = 0.001979 alternative hypothesis: true correlation is not equal to 0 sample estimates: cor 0.8471066
PID, VILLAGE, HEIGHT, WEIGHT 1, A, 173, 67 2, A, 166, 70 3, A, 180, 55 : : 87, D, 164, 58 88, D, 175, 90 : : 139, G, 166, 61
Analysis of Variance Table Response: HEIGHT Df Sum Sq Mean Sq F value Pr(>F) VILLAGE 6 1171 195 0.5405 0.7766 Residuals 132 47672 361
期末試験はありません。出席状況と毎回の演習によって成績評価します。