東京大学 | 大学院医学系研究科 | 国際保健学専攻 | 人類生態学教室TOP | 2nd
社会統計学第8回
「カテゴリカルデータの解析(4)」(2001年11月15日)
トップ | 更新情報 | 研究と教育 | 業績 | 計算機 | 写真 | 枕草子 | 著者 | 目安箱 | 書評 | 社会統計学目次
最終更新:
2001年11月21日 水曜日 22時16分
全部を一括して読む | 前回へ
講義概要
- 関連性の指標の種類
- ▼独立性の検定は,関連がない確率を示すだけで,「どのくらいの関連か」を示さないので,関連の大きさを示すには別の指標が必要。
- ▼前回触れたリスク比やオッズ比は,もちろん関連性の指標である。これらの95%信頼区間が1を含まなければ,統計的に有意な関連があるとみなす。
- ▼断面研究から得られる関連性の指標のうち,代表的なものとしては,リスク差,相対差,曝露寄与率,母集団寄与率,YuleのQ,ファイ係数がある。
- ▼同じ調査を同じ対象者に2回,あるいは2人の調査者による1つの事象の評価,あるいは1つの質問紙の中で本質的に同じことを聞いている質問項目についての一致度の指標としては,クロンバックのα係数の他にκ統計量(κ係数ともいう)が有名(注:κはカッパと読む)。
- リスク比(復習)
- ▼リスクとは,1つの(好ましくない)事象が生起する確率である。
- ▼リスク比とは,厳密には前向き研究においてのみ求められる。処理群のリスクの対照群のリスクに対する比である。
- ▼いま,前向き研究において以下の表のような結果が得られたとする。
| 事象が起こる | 事象が起こらない | |
処理群 | X人 | m1-X人 | m1人 |
対照群 | Y人 | m2-Y人 | m2人 |
- ▼母集団でのリスクの推定値は,処理があったときπ1=X/m1,処理がないときπ2=Y/m2である。リスク比は,RR=π1/π2なので,その推定量は,(Xm2)/(Ym1)となる。
- ▼リスク比の分布はNが大きくなれば正規分布に近づくので,正規分布を当てはめて信頼区間を求めることができるが,普通は右裾を引いているので対数変換か立方根変換(Baileyの方法)をしなくてはならない。対数変換の場合は,95%信頼区間の下限はRR*exp(-qnorm(1-0.05/2)*sqrt(1/X-1/m1+1/Y-1/m2)),上限がRR*exp(qnorm(1-0.05/2)*sqrt(1/X-1/m1+1/Y-1/m2))となる。RRが大きい場合は立方根変換しなくてはいけないが,煩雑なので省略する。
- オッズ比(復習)
- ▼オッズとは1つの事象が生起する確率と生起しない確率の比である。
- ▼オッズ比は,前向き研究においては処理群でのオッズの対照群でのオッズに対する比となる。断面研究では要因Aあり群でのオッズの要因Aなし群のオッズに対する比となる。ケースコントロール研究では,患者群のオッズの対照群のオッズに対する比となる。数学的にはどれもまったく同じ形となる。
- ▼事象生起確率が小さいとき,オッズ比はリスク比のよい近似となる。
- ▼オッズ比の点推定値は,前回示した通りOR=(ad)/(bc)である。95%信頼区間は,分布が右裾を引いているので対数変換かCornfieldの方法(4次方程式の解を求めねばならないので手計算は不可能)を用いる必要がある。対数変換なら,95%信頼区間の下限はOR*exp(-qnorm(1-0.05/2)*sqrt(1/a+1/b+1/c+1/d)),上限はOR*exp(qnorm(1-0.05/2)*sqrt(1/a+1/b+1/c+1/d))となる。
- リスク差
- ▼曝露によるリスクの増減を絶対的な変化の大きさで表した値。RD=π1-π2
- 相対差
- ▼要因ももたず発症もしていない者のうち,要因をもった場合にのみ発症する割合。RelD=(π1-π2)/(1-π2)
- 曝露寄与率
- ▼真に要因の影響によって発症した者の割合。AFe=(π1-π2)/π1
- 母集団寄与率
- ▼母集団において真に要因の影響によって発症した者の割合。π=(X+Y)/(m1+m2)として,AFp=(π-π2)/π
- YuleのQ
- ▼オッズ比を-1から1の値を取るようにスケーリングしたもの。Q=(OR-1)/(OR+1)
- ファイ係数(ρ)
- ▼要因の有無,発症の有無を1,0で表した場合の相関係数。θ1,θ2を発症者中の要因あり割合,非発症者中の要因あり割合として,ρ=sqrt((π1-π2)(θ1-θ2))
- κ統計量
- ▼一致度の指標。
| 2回目○ | 2回目× | 合計 |
1回目○ | a人 | b人 | m1人 |
1回目× | c人 | d人 | m2人 |
合計 | n1人 | n2人 | N人 |
- という表から,偶然でもこれくらいは一致するだろうと思われる値は,1回目と2回目の間に関連がない場合の各セルの期待値を足して全数で割った値になるのでPe=(n1*m1/N+n2/N*m2)/N,実際の一致割合(1回目も2回目も○か,1回目も2回目も×であった割合)はPo=(a+d)/Nとわかる。ここで,
- κ=(Po-Pe)/(1-Pe)と定義する。
- ▼κは,完全一致のとき1,偶然と同じとき0,それ以下で負となる。
- ▼κ統計量は,有意性の検定ができる。κの分散var(κ)=Pe/(N*(1-Pe))となるので,κ/sqrt(var(κ))が標準正規分布に従うことを利用して検定できる。つまり,帰無仮説「κが偶然一致する程度と差がない」が正しい確率が1-pnorm(κ/sqrt(var(κ)))となる。この確率が5%未満ならば,得られた一致度は有意水準5%で信頼できる(偶然の一致より大きい)といえる。
- ▼95%信頼区間もκ±qnorm(1-0.05/2)*sqrt(Po*(1-Po)/(N*(1-Pe)^2))として計算できる。
- ▼なおκ統計量は,2×2だけでなく,m×mのクロス集計表に適用できる概念である。
フォロー
table型のobjectであるXを与えることで今回示した指標をすべて計算する関数,crosstab(X)を定義してみた。p08.Rとしてダウンロードできる。組み込みデータのinfertを使った使用例もついているので参考になるであろう。
- 入力が追いつかないことがあるので画面を戻して欲しいことがある
- ▼手を上げて言ってください。
- 定期テストの出題はRでの計算?
- ▼定期テストはしません。
- リスク差,相対差,曝露寄与率などは,すべて同じことを求めていてやり方が違うだけ? それとも求めているものも違う?
- ▼関連の程度を示す指標であるという意味では同じですが,意味することはそれぞれ違います。
練習データの収集
以下の問いの各々に,まあそうかなと思ったら○を,違うと思ったら×をつけてください。迷っても強引に○か×のどちらかをつけてください。
上記フォームからは,1つのIPアドレスにつき1回しか送信できません。現在までに溜まったデータは,ss_p08.txtとして参照できます。
なお,講義中に収集されたデータは以下の通りでしたが,サンプル数が少なすぎて,ほとんど意味のある解析ができませんでした。
Q1 | Q2 | Q3 | Q4 | Q5 | Q6 | Q7 | Q8 | Q9 |
1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 |
0 | 1 | 1 | 1 | 1 | 1 | 0 | 1 | 1 |
0 | 1 | 1 | 1 | 0 | 1 | 0 | 1 | 1 |
1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
1 | 1 | 0 | 1 | 0 | 1 | 1 | 1 | 1 |
1 | 0 | 1 | 0 | 0 | 1 | 1 | 1 | 1 |
全部を一括して読む | 次回へ