鵯記 (bulbul records)

【第628回】東京日帰り出張（2014年3月18日）

往路: 今日は，統計数理研究所リスク解析戦略研究センター第５回生物統計ネットワークシンポジウム「疫学研究における生物統計学の発展と貢献」を聴きに行くため，東京日帰り出張する必要があり，4:30起床。ウインナーと冷凍パプリカを炒め，ご飯で朝食。5:20に出発し，神鉄鵯越まで30分弱歩いて，5:56の新開地行きに乗った。新開地と三宮で乗り継ぎ，6:40頃に神戸空港に着いた。7:20発羽田行きに乗るには，ちょうどいい感じだ。
シンポジウム会場: 9:20頃東京駅に着いた。間違って丸の内側に出てしまったため，遠回りになったが，サピアタワーは日本橋口にある綺麗な建物で，6階までエスカレータで上がって会場に入ったのが9:40頃だった。わりと狭い会場で，椅子だけが並べられていたので，床から電源がとれる椅子を確保し，コンピュータを開いた。以下メモ。例によってメモなので内容は無保証で。10:00から開会挨拶（松井先生による統数研の紹介と主旨説明「リスク研究のNetwork of Excellence (NOE)構築～2010年2月18日第1回から始まって，今回が第5回～国内産・官・学の生物統計家を結集したネットワーク・研究体制の構築～医薬品臨床試験＋純粋統計科学＋臨床＋疫学＋バイオインフォ＋……～「統計数理」の次号が今日の話の特集号。自由にダウンロードできる」等）が始まった頃には空席なく埋まっていた。疫学研究で活躍する若い生物統計家のネットワーク構築が，今回の共同利用プロジェクトH24-25の主旨であり，できてきた，と和泉先生談。セッションは10:10から。セッション1のテーマは「疫学研究における統計手法の概観」。
S1-1「マンテルヘンセル推定法と推定方程式」: 宮崎大学の藤井先生。方法自体は疫学ではよく知られているが，それをどう見るのかという話。構成は，層別分割表解析の必要性→マンテルヘンセル推定量とその性質→なぜうまくいく→推定方程式としてのマンテルヘンセル推定法の発展。シンプルな解析は２×２分割表。曝露と疾病：例えば，matrix(c(40, 20, 60, 75), 2)でオッズ比を計算すると2。しかしこれを年齢で層別した時に，50歳未満がmatrix(c(4, 16, 16, 64), 2)で，50歳以上がmatrix(c(36, 9, 44, 11), 2)だと，どちらもオッズ比は1（感想：藤井先生はなぜかその言葉は出さずに説明されたが，よく知られているシンプソンのパラドックスだな）。この場合，年齢が交絡しているから，見かけの関連がでた。年齢を調整した上で，曝露と疾病の関係を調べたい。層別解析を行う理由の１つは，このような交絡因子の影響を調整すること。因子自体を特定できなくても（例えば施設間差）層別解析は可能。ここでk層の曝露と疾病の２×２分割表を，matrix(c(ak, ck, bk, dk), 2)とする。合計nk。k層のオッズ比はakdk/bkck。ここに背景確率モデルとしてψk=E(akdk)/E(bkck)とする（確率モデルにより多少違ってくるが）。母数であるオッズ比が等しいと仮定して，共通オッズ比を推定するという方針。調査方法と確率モデルについては，ポアソン分布モデル（各セルの度数がポアソン分布モデルに従う），多項分布モデル（各層の総数を固定して4項分布を考える），2項分布モデル（行和あるいは列和を固定，2つの2項分布を考える），非心超幾何分布モデル（周辺度数を固定，akについて超幾何分布を考える）が考えられる。共通オッズ比の推定法については，有名なのは最尤推定（2項分布モデルや多項分布モデルを仮定して最尤推定量を考える），条件付き最尤推定（周辺度数をすべて条件付けたモデルでの最尤推定量を考える），重み付き対数オッズ比（それぞれの総出対数オッズ比を求めて，その重み付き平均を出す）。層の数が少なく，各層のデータ数が大きければ，どの推定方法もそれほど大きな問題は生じない。条件付き最尤推定量の計算が負荷が大きい。層の数が大きく，各層のデータ数が小さい場合には，いろいろな問題が生じる（最尤推定量が一致推定量でなくなる等）。マンテル・ヘンセル推定量は，各層のakdk/nkの和を分子，bkck/nkの和を分母として得る。いろいろ利点あり。２つの漸近モデル。1対1マッチングを考えるとき，(ak, bk)が(0, 0)～(1, 1)までの4つのパタンしか出てこない。最尤推定量と条件付き最尤推定量がかなり異なる。Liang (1985)は，個体間に関連があっても一致性が保証されることを示している。推定関数としての解釈：マンテルヘンセル推定量は，次の関数をゼロにする母数の値として与えられる（Davis, 1985)。Σ(1/nk)(akdk-ψbkck)。良い推定関数は？　不偏性E(g(ψ))=0，Godambeの基準。(1)なぜ重みが1/nkなのか？　(2)なぜakdk-ψbkckを考えるのか？　が問題。Pairwiseに考え，スコア関数を出す。このやり方であれば，指数型分布族や一般化線型モデルへの拡張が可能。各層で不偏な推定関数を考え，その重み付き和を考え，全体を不偏な推定関数にできる。GEEの場合だと，目的変数Yk，モデルとしてμk=E(Yk)とすれば良い。
S1-2「位置情報を用いた疫学研究とその統計解析～疾病集積性を中心に～」: 名古屋大学高橋先生。クローン病。炎症性腸疾患。難病の中でも特定疾患に指定されている。一般に疾患の正確な患者数把握は困難。患者調査等の標本調査による推計や医療受給者証による推定ができる。潰瘍性大腸炎と比較する。まずは記述疫学。2003年の受給者証所持者数。死亡数は少ない。男女年齢別の受給者証所持者数をみると，どの層でも増えている。都道府県別にもみると，数字でみると，どこでも同じように増えているようにみえる。都道府県別となれば空間情報が入ってくる。要因の地理的変動を考慮した記述，解析「空間疫学」。GISが使える。災害応急対策でも「地理空間情報の利用に努めねばならない」（災害対策基本法2012年改正から）。2003年の受給者証所持者数データは，保健所管轄別のものが公開されていて普通にダウンロードできる。疾病地図が都道府県別とか保健所別に書ける。地域集積性がわかるが，受給者証の数では，人口が多いところは多くて当たり前。ここでポアソンモデルを考える。地域iでの発生数をDi，観測値をdiとする。Di～Poisson(θiei)。eiは基準集団に基づいて計算される地域iの期待観測数。θiは地域の相対リスク。θはわからないので，最尤推定する\hat{θi}=di/ei。これは死亡で言えばSMRに相当する。eiはどうやって出すかというと，基準集団の年齢階級jの人口当たり観測度数をPj，nj(i)を地域iの年齢階級jの人口として，その積和がei。SMRは人口規模が大きく異なるときの地域間比較には必ずしも適していないので（標準誤差がeiに応じて変化する），ベイズ流の推定法がよく用いられる。Poisson-Gammaモデル，対数正規モデル，BYMモデル，CARモデルなど。これらでθが推定できる。経験ベイズを使ったθを地図に示すと，大分市保健所が一番リスクが高いなどと示せる。次の課題は，どこかにリスクの高い地域が集積していないか？　を検討すること。集積の有無を判定し，その地域を同定するため，「集積性の検定」。ホットスポットモデルがよく用いられる。hot-spot clusterとclinal clusterでは後者の方が現実的だが前者の方が簡単。ウィンドウZを考えて，Zの内外でDiを計算し，帰無仮説はθが等しい。これを全部のウィンドウでやると検定の多重性の問題が出てくるので，Scan統計量を用いる。集積性検定。Zを変えて尤度が最大になるところを探してMost Likely Cluster(MLC)をだす。MLCの有意性の検定は乱数生成による。Zの改良もいろいろ提案されている。λ(Z)の改良もいろいろ。Rでも計算できるが，専用ソフトもある。クローン病の場合，女性の有意な集積地域として，九州北部と北海道西部に。潰瘍性大腸炎はまったく異なり，東京，大阪，広島など都市部にも集積。ここで疾患ごとに受給者の地域分布が異なることがわかった→仮説生成。さらなる要因分析は次のステップ。臨床などとも共同研究。集積性検定は，心肺機能停止傷病者救急搬送件数の時間集積性にも使える。年末年始に集積していることがわかった。感染症の症候サーベイランスにも使える。NYC保健局サーベイランスデータ，東京都の定点データとも共同研究で示した。位置情報：個々の点の緯度経度，メッシュデータ，市町村単位集計データ，ゲノム研究での遺伝子座の地図，時間データなど。「位置情報を用いた疫学研究とその統計的方法」というタイトルで「統計数理」の2014年特集号に掲載予定（高橋，和泉，竹内）。
S1-3「傾向スコアによる観察研究の統計解析」: 久留米大学服部先生。アウトライン：母集団平均の推定における交絡要因の調整（アウトカム回帰，傾向スコアによる層別回帰，等）→層別二重頑健推定量。利根研究（運動・栄養指導は認知症の予防に有効か）。指導を受けるかどうかは被験者の希望による（無作為化でない）。5cogスコアの記憶得点がアウトカム。他の要因を考慮しないと介入ありの方が5cogスコアが7倍くらいになる。教育歴やベースラインの5cogスコアに差があることが明らか（介入群の方がずっと高い）。これらが交絡している可能性がある。まず層別。教育歴別でやると，どちらの層でも有意なままだが，オッズ比が6とか5とかになる。シンプソンのパラドックスの例といえる。次にたくさんの交絡因子を同時に考えるため，傾向スコアを使う。反事実下でのPotential outcomeを考えると，実際には片方しか起こらないので，欠測データのような形になる。推測目標は平均因果効果(Average Causal Effect: ACE)。無作為割り付けなら2群間で平均値の差をとればいい。観察研究では使えない。仮定：強い意味での無視可能性（MARと同じに考える）。回帰モデル（Outcome Regression）における交絡の調整は，Z=1の症例だけで回帰して全員に外挿。傾向スコアは，e(X)=P(Z=1|X)を考える。(Y(0), Y(1))⊥Z|e(X)。バランシングスコア。ロジスティック回帰などで傾向スコアを出す。その値で被験者を層別することができる。一つの軸なので簡単。5cogスコアを傾向スコアの値で5群に分けた各層で求めると複数の交絡因子が一気に調整できる。傾向スコアによる重み付き推定として，逆確率重み付け法。傾向スコアの逆数で元の集団構成を復元して比較するイメージ。二重頑健推定量は，傾向スコアによる重み付き解析（交絡因子と割り付けの関連を調整）＋アウトカム回帰（交絡因子と反応との関連を調整）。うまい！　PSとORのどちらかが正しく特定できていればOK。利根データでやってみると，二重頑健で3.6くらいになる。半分は交絡の影響であったといえる。統計数理の特集号でいうと，逸見先生の論文で解説されている。安定化版IPW推定，安定化版DRを使って，傾向スコアで分けた層ごとに，DR推定。比をとって安定化版DRだと，うまくいくことをシミュレーションで示した（Hattori and Henmi, 2014, Biometrics)。
S1-4「欠測データ解析の枠組みと近年の動向―NRCガイドラインを踏まえて―」: 名古屋大学の星野先生。これまではそれほど重視されてこなかった？　Eekhoutら(2012) Epidemiologyの系統的レビュー。3つのJournalの論文262本を精査して，いろいろ不足しているところを指摘。81％は完全ケース分析。たは単一代入，多重代入，逆確率重み付け，等。NRCの報告書"Panel on Handling Missing Data in Clincal Trials"による。ChairはLittle RJA (umich)。FDAの要請により招集された。"The prevention and treatment of missing data in clinical trials"という報告書（NEJMに掲載されたSpecial Report pdf）を出した（2010年，本として市販）。18の勧告。感度分析推奨。多重代入ではRubinルール，重み付き推定方程式アプローチはもっと用いられるべき。欠測発生に関連しそうな補助情報を収集すべき，等々。MCAR，MAR，MNAR/NMARという3つの欠測メカニズム。（例）2回の血圧測定（1月と2月）で両者の相関が知りたいとき。MCARでは1月の被験者の一部をランダムに選び2月に測定。MARでは1月の血圧が140を超える人だけ再検査。NMARは2月の血圧が140を超える人だけ来てしまった場合。MCARでは半数しか再診に来なくても相関にはあまり影響しない。MARやNMARでは関連が歪む（たぶん，たいていの場合小さくなる）。この例では，単純平均は大きくなり，分散は小さくなる。MARからバイアスを除いた推定ができるか？　記号の定義として，関心のあるベクトルy，そのうち観測されている部分をy(obs)，観測されていない部分をy(mis)と書くと，y=(y(obs), y(mis))。関心のある変数と欠測インディケータの同時分布のモデリング方法は３つ。選択モデル（selection model：p(y, m|θ,φ）=p(y|θ)p(m|y,φ)とする)，パターン混合モデル(pattern mixture model)，共有パラメータモデル(shared-parameter model)。最後のは潜在因子，能力母数，変量効果が「欠測するかしないか」に影響を与えているモデル。一番単純な場合，感度分析は，パターン混合モデルでは，μ0をμ1+Δとして推定，選択モデルではlogit[p(m=0|y)]=h+αyとする。αが固定されていれば解析可能。パターン混合モデルは感度分析ではわかりやすいのでよく使われる。選択モデルでの尤度は，完全データの尤度，完全尤度，観測データの尤度の３つがある。欠測への対処法は７つある。(1)完全ケース分析（リストワイズの除去），(2)利用可能なだけのデータ利用（ペアワイズの除去。推定したい母数ごとに異なる），(3)「観測データの尤度」の最大化を用いる最尤推定，(4)単一代入法（平均値代入，予測値代入，確率的代入，Hot Deck，Cold Deck）～どれも分散を過小評価する欠点，(5)多重代入法(multiple imputation)[代入ステージ→解析ステージ→統合ステージ]，(6)逆確率による重み付け(IPW)推定方程式，(7)欠測のモデリング。
昼休み: 12:10から13:30の予定。午後は，セッション2「疫学研究における統計手法の最近の展開」として4題，20分の休憩を挟んで，セッション3「疫学研究における統計家の貢献と今後の展望」の6題へと続く。若い人たちの新しい話が多くて，とても面白い。
S2-1「潜在反応モデルに基づく直接効果・間接効果の推定」: 横浜市立大の田栗先生。午前中の服部先生の話と少し関連。導入→記法と定義→識別のための仮定→……。曝露編数Aの結果編数Yに対する因果効果を推定するのが疫学研究の一つの目的。禁煙介入(A)により心筋梗塞の発症(Y)割合を減らせるのか？　など。直接効果はA→Y。中間変数M（今の例では血清コレステロール値低下）を介した間接効果がある。A→M→Y。古典的アプローチは，２つの線形回帰モデルを当てはめる。E[Y|A=a,M=m]=β0＋β1a+β2m，E[M|A=a]=γ0+γ1a→E[Y|A=a]=β0+β1a+β2E[M|A=a]。わかりやすい。異なるモデルが当てはまる場合への拡張が難しいという問題点（AとMの交互作用とか，MやYが２値のときに非線形になるなど）。交絡も問題（MとYの両方と関連する変数C）。そういうときのため，潜在反応モデル(potential outcome model)を利用。自然な直接効果と自然な間接効果を出す。Pearl (2001)。最近盛んに研究されている。潜在反応変数の期待値に基づいて直接・間接効果が定義されるのが特徴。データに対して特定の回帰モデルを仮定しないので，常に効果の分解が可能。推定のための仮定について注意深い議論ができる。潜在反応モデル(Rubin, 1974)。M(a)：A=aを受けた場合の中間変数。Y(a)：A=aを受けた場合の結果変数。Y(a, m)：A=a, M=mを受けた場合の結果変数。構成性の仮定として，Y(a)=Y(a, M(a))。観察データは(Ci, Ai, Mi, Yi), i=1, ...,n。一致性の仮定として，M=M(A)，Y=Y(A)=Y(A, M(A))。総合効果TE：E[Y(1)-Y(0)]=E[Y(1,M(1))-Y(0,M(0))]，自然な直接効果NDE：E[Y(1, M(0))-Y(0, M(0))]，TE=NIE+NDEと分解できる。期待値としても，個人についても。DEは，脂質を禁煙した場合の値に保ったときの喫煙を続けた場合(A=1)と禁煙した場合(A=0)の比較。問題は，Y(1, M(0))は反事実なので誰にも観察できないこと。データから確認できない仮定が必要になる。観察法は？　禁煙とは異なる脂質への介入法（高脂血症治療薬），喫煙の脂質への効果のみをブロックできる方法がある（脂質上昇作用のみをなくしたタバコ）。実際には困難。推定に必要な仮定は，きびしい条件でたくさんある。Cを与えたもとでは，AとYの間に未測定の交絡因子が存在しない，AとMの間に未測定の交絡因子が存在しない，MとYの間に未測定の交絡因子が存在しない，MとYの交絡因子はAの影響を受けない，という４つの条件が必要。ランダム化比較試験では最初の２つは満たされる。「未測定の交絡がない」仮定についての補足として，例えばCを与えればA-M間に未測定の交絡がないなら，E[M(1)|A=1, C]=E[M(1)|A=0, c]。一致性の仮定から，E[M|A=1, c]=E[M(1)|A=0, c]……全部測定可能。E[Y(1, M(0))]の識別が可能になる。以上の仮定がみたされたとき，NDEもNIEも表現できる。Y, Mが連続量の場合，例えば２つの線形回帰モデルを考えると，このモデルが結局は古典的モデルと一致することがわかる。NCHSから個票ベースでダウンロードできる，全米周産期死亡データを使った解析の例示。妊婦の適切なケアA，乳児死亡Y，早産Mとして。欠測のない130万人のデータに絞って分析。人種，年齢，教育歴などを交絡因子として調整。間接効果が大きい可能性があることがわかった。母乳育児に関する介入研究（Mは自己効力感）とか，遺伝子及び喫煙と肺がんに関する疫学研究にも使える。詳細は統計数理特集号参照。
S2-2「ノンコンプライアンスを伴うランダム化試験における治療効果の推定：一般化モーメント法のg-推定法への応用」: 東京大学生物統計学教室篠崎智大さん（大橋先生の弟子か？）。ノンコンプライアンスは珍しくない→補正として構造ネストモデル，セミパラメトリック推定（なかでもg-推定法）。MEGA Study。オープンラベル・ランダム化試験。プロトコルの段階で薬剤選択を医師の判断に任せるので，ランダム割り付けでない。Non-random non-complianceが問題になる。Outcome-dependent non-complianceがある。標準的な解析はITT，PP，ATなど。一般にはITTが推奨されている。AT vs PP vs ITT。標本における因果帰無仮説の検定はαレベルが担保されるのが，ITTの良いところ。反事実データは欠測データ。ITT effectは誤分類バイアス。AT effectは交絡バイアス。PP effectは交絡バイアスと選択バイアスが入ってくる。どうやってノンコンプライアンスを補正？　回帰モデル（パラメータは関連しか示さないが，交絡因子が全部含まれていれば因果を示す）と構造モデル。周辺構造モデル(MSMs)集団全体の反事実アウトカムのモデル化。通常はランダム化のみに基づく推測は不可。構造ネストモデル(SNMs)では，X=xかつ実際に治療A=aを受けたサブグループにおける効果をモデル化。仮定によって２種類の推定方法（g推定を含む）が存在し，強力。g-推定法は，尤度に基づく推定法より簡単で仮定が少ない。Randmized g-estimation（Mark and Robins, CCT, 1993)。Randmized g-estimation（ITT解析の拡張）とObservational g-estimation（共変量を用いる））がある。２つのトレードオフ。対処は，２つの推定方程式を同時に解く。一般化モーメント法(GMM)。計量経済学では古くから使われている。GMMで２つの推定関数を同時に解く。ノルムを最小に。シミュレーション中。
S2-3「ネットワークメタアナリシスの理論と応用」: 統数研の野間さん。最近，臨床疫学で流行しつつある手法。オバマ大統領。Comparative Effectiveness Research。複数の治療についてComparative Effectivenessを評価することは重要。それを効率的にするため，ネットワークメタアナリシス。骨粗鬆症の例。米国では1000万人有病，3400万人にリスクあり。1年当たり150万件の脆弱性骨折。治療の選択肢は10種類以上あって，それらの組合せもある。コストは4ドル～130ドル／月と大きくばらつく。骨粗鬆症について14のコクランレビューあり。Wells et al., 2008とか，Avenel et al., 2009とか。Effectiveness Trials??（十分な規模でHead-to-headの比較の臨床試験を行うのが理想。候補となる治療数が多く，イベント数が少ない。十分な統計的精度を達成するには巨大サンプルサイズが必要になる。Network Meta-Analysis (NMA)：システマティックレビューにおいて，複数（３つ以上）の直接比較，間接比較すべてを統合したもの。統計解析は階層ベイズとかMCMCとか。禁煙補助剤としてBupropionとPlaceboとNRT（ニコチン置換療法）の比較の例。Placeboとそれぞれの直接比較はたくさん研究あり。BupropionとNRTの比較は１論文しかない。古典的にはそれぞれの直接効果の差をとる。NMAでは直接効果と間接効果の重み付き最小二乗法。パラメータ推定は，GLMMなどベイズ流解析がスタンダード。パブリケーションバイアスが今問題。funnellプロットなどでは評価できない。スポンサーシップバイアスの場合，バイアスの方法が逆になっている研究があり，メタアナリシス困難。コクランに新しいグループができて公開されている。STATAのモジュールは使いやすい。（感想：Rだとnetmetaというパッケージがあるなあ。CRAN Task view: meta-analysis参照）
S2-4「予防接種の個人レベルの効果推定と疫学モデル」: 東京大学西浦先生。PLOS Medicineの2010年のインフルエンザのフォレストプロット。季節性インフルエンザのワクチン接種をすると，パンデミックfluにはかかりやすくなったという結果。世界中がなぜ？　となった。DHFでのエンハンスメントのようなもの？　証拠ない。いまのところ，疫学的干渉(epidemiological interference)がありうる説明。麻疹の発生と百日咳の発生がグラスゴーでは互い違いになっている。数理モデルで説明できる。風疹と麻疹とかも。（感想：これって，近海魚の三すくみモデルと一緒？）temporal non-specific immunityが数ヶ月続くことを考えると，常微分方程式を解くと説明が付く。ここから本題。Test-negative study。インフルエンザの迅速診断をして，陽性をCase，陰性をControlとする。CaseもControlもワクチン接種した人としていない人に分けられる。この解析での想定は，Epidemiological Interferenceがあるとボロボロに壊れる。ここから田栗先生の話と近づく。疫学的干渉を個体レベルの効果としてどういうものか明らかにする。Efficacy（個体レベル）とEffecgiveness（集団レベルの効果）の定義。感染症は個体間で相互に依存。dependent happening。もしそれがなければ，Efficacy=Effectivenessで，RRはp1/p0。しかし感染症では成り立たない。ワクチン接種が20％の集団と80％の集団でワクチン接種した特定の１人のefficacyは集団によって異なる。herd immunityがあると感染の起こりやすさに差が出てしまうので難しくなる。単純に解決する手段はSAP (Secondary Attack Proportion)。曝露した条件付きのリスクの尺度。発症した人に曝露した人数を曝露疑い例の総数で割ったものをSAPとする。粗い方法は，世帯レベルの二次感染割合(HSAP)。４人の世帯で，１人の患者がいて，最終的にはあと２人に感染したら，SAP=2/3。SAPを使ってワクチンのefficacyを考える。jからiに感染させると考えて，SAPijをHSAP（iかjが1だとワクチン接種済みとするVEsとVEiが推定できる（1からSAPの比を引いたものとして）。これを使えば，SEIRの予測モデルにワクチン効果を組み込める。重篤化軽減効果などは臨床データとして簡単に取れる。この考え方を使って，interferenceがefficacyに影響するのをチェックするモデルを作ってシミュレーションすると，季節性ワクチン接種者の方がパンデミックfluにかかりやすくなった現象が再現できた。この状況では，Test-negative studyではオッズ比など使えるデータが得られない。ワクチンefficacyの効果はepidemiological interferenceに高度に依存。susceptible effectは使えない。そこで前向き研究が必要。susceptibility controlled study design（香港大のグループがやっていた）。他には手はないかを現在検討中。
S3-1「社会疫学的大規模調査JAGESプロジェクトから見る生物統計学の可能性」: 日本福祉大学の岡田先生。社会疫学の概要→10年以上やっているJAGESプロジェクトの実際→本プロジェクトから見た生物統計学の可能性。Social Determinants of Healthを解明する疫学の一分野。階層構造。従来の疫学では生活習慣病モデル。社会疫学では生物・心理・社会モデル。生物医学モデルの外側に社会・心理因子（上流）を置く（感想：若干，Ichiro Kawachiが言っていた「上流」とはニュアンスが違うような）。健康格差の縮小のためには，社会環境の改善が必要（感想：「人々の健康を保つために社会にどう介入するか？」を２番目の目的としてあげていたが，Ichiro Kawachiは，それがわかれば凄いことだが，まだ誰も見つけていないと言っていた）。JAGES調査について。ポピュレーションアプローチによる介護予防（一次予防）を進めるための調査。臨床研究とは違って，介護保険者が介護保険事業計画を作ることに貢献。JAGES2010-13調査フィールドは参加自治体数約30。17万人から19.5万人送付。回収数が11万から14万人弱に増加。回収率が約7割。2003, 2006, 2010, 2013とページ数が16ページから12ページに。社会状況が変わるので，内容も少しずつ変わっている。所得段階別死亡・要介護認定割合（年齢調整）は，所得が低いほど要介護になる割合が高いことを明らかにした。GISを使って「見える化」している。「趣味がある」高齢者の割合はN市の中で31.3%しかない地区から，すぐ近くでも64%という地区もある。政策策定のための調査。30の自治体に共通の調査票を使用しているので比較できるのが強み。JAGESは2013年時点で，10年間，約10万人のパネルデータ。データマネジメント上の課題多し。欠測データが多い。サンプルセレクションの問題。粗いデータ。ID消失により縦断データを作れなくなったり。サンプルセレクションのポイントは２つ。地域診断用サインプルの確保（地域代表性，人数）＋パネル結合の可能性を最大に。解析の工夫：欠測についてはMI，マルチレベル解析，交絡調整のため傾向スコア，Instrumental Variable導入など。生物統計家に期待されることとしては，サンプリング，ポピュレーション健康介入研究のデザイン作り，欠測，多変量モデル，交絡調整：セミオープンのデータなので，関心ある人は連絡して下さい，とのこと．生物統計家は依頼者と一緒に研究を作り上げていく立場。自治体と協働，地域に飛び出すべき。依頼者と専門家が課題を共有し，解決策をfaciliateする関係性へ。調査票番号と個人IDを自治体に暗号化して貰ったものを使って個人追跡しているので，その対照表を自治体側でなくしたと言われると追跡できない。そこが問題。工夫はしているが。
S3-2「自殺対策のための自殺死亡の地域統計の活用」: 国立精神・神経医療研究センターの立森先生。山内貴史先生との共同研究。世界中で40秒に1人が自殺している＝年間80万人。日本の総死亡は年間100万人くらいなので，匹敵する数。DALYs=YLLs+YLDs。世界全体でみると，intentional injuryのDALYsは18位。日本では約20分に1人の割合で自殺が起こっている。約28000人／年。自殺死亡数は何度かのピークをもって長期的には緩やかな上昇傾向。男性が常に女性より上。1998年に急増したのはリーマンショックのせい？（突っ込み：わざとボケた？　リーマンショックは2008年。1998年は通貨金融危機ないしアジア通貨危機）。人口動態統計の目的外使用によるデータをポアソン回帰で分析。無職かつ離別の者の自殺リスクが最も高い。それまでの人間関係，社会的役割，生活手段などの喪失状態にある人が危ない（因果の向きはさておき，手をさしのべるべきマーカとして重要）。身体疾患と自殺死亡に関する疫学研究。psychooncology（精神腫瘍学）。がん診断後，1年以内の自殺が増える。1年を超えると，慣れるか，がんで亡くなるかによって下がる。未遂者は自殺者の9倍。その人たちの支援が大事。過去12ヶ月間に1000人に12人が本気で自殺を考えたことがある。自損行為による救急搬送のデータも分析した。統計家の貢献：空間統計（小地域推計，集積性など），時系列解析（季節調整，トレンド分析，変化点問題など），要因分析・因果推論。統計家が結果を行政に伝える難点（非専門家とのコミュニケーション能力が必要。お互いに相手の領域の理解が必要）。
S3-3「コクラン共同計画：根拠に基づく医療への貢献」: 成育医療研究センターの大田えりか先生。先月オーストラリアから許可を受けて，コクラン日本支部となった。ルーツ→エビデンスギャップ→……。ルーツは，17世紀天文学。量的データを統合するアイディア。最初のメタアナリシスはDuke大学心理学のESP研究だった！(Bosch et al.)。1970年代，教育学で方法論が洗練されていった。米国統計学者Gene V. Glass。メタアナリシスはアナリシスのアナリシス。1980年，Johns Hopkins大のJournalで精神科領域のメタアナリシス発表。2006 WHO LEE Jong-wook「多くの医療の臨床や政策決定がエビデンスに基づいていない」→エビデンスに基づく必要があるというのが世界の流れ。タミフルも実は科学的根拠はない。2012年イギリスでは10億の薬剤の処方が年間行われ，10年間で66%増加。病気が増えているのでも高齢化だけが原因でもなく，製薬会社の薬漬け戦略が大きな原因。Sir Muir Grayが「人々が清潔で透明な水を求めるように，潔白で透明な知見を求める権利がある」と述べ，多くの人々がエビデンスを知って，エビデンスがない薬を飲まなくて済むように勧めた。研究デザインとエビデンスレベルとして，Archibald Lerman Cochrane (1909-1988)の本"Effectiveness and Efficacy"（ここからpdfでダウンロードできる）の思想に基づく。NPO。グローバル，独立したネットワーク。3万人以上の貢献，120ヶ国。目的はRCTを中心に世界中の臨床試験のシステマティックレビューを行い，統計学的に統合。その結果を*継続的に（アップデートも必要）*医療関係者や政策決定者，消費者に届ける。ロゴマークは1991年に発表された7件の切迫早産への副腎皮質ホルモン治療RCTsに関するレビューの結果。フォレストプロットで，有意に未熟児合併症リスクが下がることが示されている。日本の著者数も増加している。150人を突破した。既に35のプロトコルが出ている。コクランレビューのプロセス：質問設定→タイトルレジストレーション（他のグループがそれを重複してやらないように）→許可→適格基準，クライテリアを計画→方法を計画→プロトコル出版（背景と方法まで。未来形で書く）＠コクランライブラリー→研究を検索（専門のライブラリアンが徹底的にやる），適格基準を適応，データを収集，バイアスのリスクを査定，結果を分析して表示→結果を解釈し結論を記述→レビュー出版→レビューをアップデートして改善→2年ごとにアップデート（新たにRCTが出たら解析追加。他のグループに譲ったり大きすぎるテーマの場合は分割したりすることも可能）。Review Manager (Rev Man 5)はフリーソフト。ダウンロードして誰でも使える。cluster RCTの統合などの治療・予防の介入研究のレビュー，診断のレビュー，ネットワークメタアナリシスが今後の展開。ワークショップも開催しているので関心のある人は連絡してください，とのこと。
S3-4「エコチル調査の現状と統計的検討の余地」: 国立環境研の竹内先生。生物統計の助教として2008年から。2012年からエコチル調査のデータセンター勤務。背景はいろいろあり，環境の変化が子供の健康に影響した可能性をみるためのコホート研究が世界でいくつも立ち上がった。環境省の予算でやっているのは日本だけ。中心仮説は化学物質曝露の影響。コアセンター，メディカルサポートセンターを中心とする体制。実施地域は北海道から沖縄まで。約300の協力医療機関。昨日までで99,500人登録。だいたい100人／日登録があるので，来週には10万人到達予定（リリースあるはず）。登録は今年で終わる。妊婦健診→出産時→フォロー。来年度くらいから生体試料の分析開始。その後で統計解析。10万人からランダムに5000人抽出してcase cohort研究で詳細調査（理由：測りたい化学物質は膨大，1人分の検体ですべての測定ができない。試料の節約が求められる）。Nested Case Control研究：時点マッチングによるハザード比推定。発症した人は全員分析。発症しなかった人はサブコホートに選ばれた人だけ分析。効率よい。サブコホートは，曝露，非曝露それぞれを代表するサンプルと考えることができる（1/5000よりはリスクが高く，かつ高すぎない疾患が対象）。欠測データの中には，曝露（化学物質）が検出限界，定量限界以下である場合がある。限界値で補完？　1/2で補完？　分布を仮定して多重代入？　打ち切りデータ扱い？　曝露もアウトカムも経時測定するため，原因と結果が経時的に入り組む。成長曲線の推定が必要。周産期パラドックス（低体重出生児だけみると，喫煙によって死亡が伝承するように見える）→「Life Course Epidemiology」専門誌ももうすぐ立ち上がるらしい。新しいテキスト"Family Matters: Designing, ..."と"Life Course Approach to Chronic disease epidemiology"。今年度途中までデータセンターは1人だった。今は2人。データ固定も順次やって言っているところ。成果発表は1月にプロトコルペーパーがJapan environment and children's study (JECS)として（エコチルでは英語圏に通用しないので）掲載された。2013年度中には統計解析ガイダンスを策定，2014-15年でブラッシュアップ。データ固定後はデータベースとして公開。将来はインターナショナルにバースコホートデータを統合して，個票レベルでのメタアナリシスをする予定。質疑：母親は毛髪，尿，血液。子供は出生時は臍帯血など。流産，死産もイベントとしている。日本は妊娠が確認された時点からリクルート。米国は妊娠自体もイベントとしてやっている。
S3-5「コホート研究におけるがん分子サブタイプデータの解析」: 国立がん研究センターの口羽文先生。2005年に大橋先生のマスター，2008年に博士修了。2010-2013にダナ・ファーバーでがんの分子サブタイプ研究。普通は部位別（臓器別）で研究されている。が，同じ部位のがんでも分子レベルは多様。遺伝子変異，メチレーションレベルなど。がんの分子的特徴による分類。臨床では分子標的薬のターゲットとか予後，治療・生活習慣介入反応性とか。疫学はそれに比べると進展遅い。原因：表現型の違いは原因の違いを反映しているだろう（メカニズム，新たなリスク因子，予後予測）。ダナ・ファーバーで関わっていたNurse's Health Study (NHS)とHealth Professional Follow-up Study (HPFS)のデータ（どちらも全米規模の前向きコホート研究）を紹介。4年ごとに食事調査，フォローアップ90％以上。NHSの12万人とHPFSの5万人のうち，これまで大腸がん3500人くらいの罹患がある。1500人分の腫瘍組織サンプルがある。研究実施は，DFCI（大腸がん分子データの収集，研究の提案・実施，論文作成），Channing（データ管理，システム管理，論文・解析プログラムレビュー），HSPH（疫学チーム，生物統計チーム）の共同。概要提出→（表ができた段階でコホートのPIから）NHS，HPFSミーティングでのレビュー→解析プログラムレビュー→Channingレビュー→論文投稿。データ管理はSASでされているので，SASのコードもレビューを受ける。生物統計チームの役割は，解析方法の標準化と管理（ドキュメンテーション，解析プログラム[SAS]），コンサルテーション，統計的課題の抽出と方法論の開発。分子サブタイプデータの解析：一つの均一な疾患とみなしていたがんを，興味のある分子変化によって分類する→別々のイベントと見なして曝露とサブタイプの関連をみる。効果のheterogeneityをみる。競合リスクデータであることが特徴（J個のサブタイプのうちどれかのイベントが起きる）。アスピリン摂取とCOX-2発現によるサブタイプ別にみると，発現ありの方は予防効果が有意にあったが，発現なしでは有意でなかった。BRAF変異によるサブタイプ別でも変異ありは有意に予防，変異なしは予防効果が有意でなかった（Nishihara et al., JAMA, 2013）。しかし分子マーカーは相互に複雑に関連している。曝露の影響を受ける重要な分子変化はどれか？　同時に考慮する必要がある。MSI statusとBRAF mutation。どちらも曝露のアウトカムと考えると，どちらが曝露の効果を直接受けているのか分離できない。こういうマーカーはもっとあるので，潜在的なサブタイプの組合せはとても多くなる。曝露が特異的に関連している分子変化はどれか？　原因の類似性，違いに基づくサブタイプの同定ができるというアイディア（Begg C et al., 2013 [これか？)。今後の統計的課題としては，欠測データ，稀なサブタイプ，測定誤差，超多変量データへのアプローチ。今後，臓器を超えた分子変化の機能や特徴付け，腫瘍内の多様性の検討。
S3-6「脳画像解析におけるBiostatistics」: 京都大学大学院医学研究科医学統計生物情報学の川口先生。脳画像解析＋共同研究紹介。脳画像統計解析の全体図：撮像（主にMRI，立方体１つをボクセルという）→前処理（縦横100個ずつのボクセルなので100万ボクセル→高次元データになる→解剖学的標準化によりボクセルの位置合わせなど）→本解析（複数の対象者をみて，萎縮などを調べる）→結果の表示。米国ではBrain Initiativeということで，2013年に脳活動マッピングの国家プロジェクトがスタート。それを受けて関連学会もいろいろ声明発表。US-ADNIが2003年からスタートしている。アメリカ，カナダの50以上の施設で脳画像をデータベース化し，登録すれば自由に使えるようになっている。アルツハイマーに関する遺伝子データ，神経心理学テスト結果，CSFのバイオマーカなども。日本でも脳画像をもちいた国内認知症研究としては脳病態統合イメージングセンターがあり，そこに川口先生は参加している。J-ADNIは最近bad newsになってしまったが，J-ADNI2というのが計画されている。MUBIG (MUltimodal Brain Imaging Genetics)：遺伝子（SNP, mRNA, microRNA）→脳の状態(MRI, PET, DTI)｜脳脊髄液・血液検査値→臨床症状。機械学習などを使う高次元データの解析が必要。間を飛ばしてSNPと直接臨床症状の関係をみる研究もあるが，見つけにくいので，途中に画像による脳の状態を入れることが行われている。ここから共同研究。軽度運動の認知機能への効果を調べる研究で，脳形態を介することを考え，GLMで交絡因子の調整のために傾向スコアを使用（利根研究の中でやっている）。iVAC (individual Voxel-based morphonetry Adjusting Covariates)：年齢や性別など，共変量調整した上で，正常値からの逸脱度をzスコアで算出するSPMのツールボックスを開発した。また，地域住民におけるamnestic MCIと脳灰白質萎縮の検討として，移動型のMRIで島根県隠岐郡海士町で縦断研究をしようとしている。解析には，PLSを発展させた方法を開発中。質疑：サンプルサイズは？　50～100名が現状。これまでは事前にデザインはしていない。最近は高次元データをとるときの必要サンプルサイズの計算方法なども紹介している。質疑２：海馬の萎縮などは単純にイベントとして解析することもできると思うが，高次元データならではの知見はあるのか？　まだない。海馬以外に脳全体を見る方が精度が上がることはいえたが，探索中。
復路: 最後の山下先生による閉会挨拶（専門は金融。新鮮に感じた点が多々あった。データベースを設計する段階からコミットしているところがとくに。金融でも見習いたい。データサイエンスの先端を行っていると感じた。リスク解析戦略研究センター長としてセンターの紹介：常勤24名，特任9名などかなり大所帯。10個のプロジェクトが平行して動いている。基礎2つと応用8つ。分野横断型リスク統計科学の方法論としては，データサイエンス，統計数理，ヒューマンサイエンスなどさまざまなアプローチがある。それを集めて諸分野のリスク分析を。医療と金融の結合も可能という提案：医薬・金融・基盤数理の共同プロジェクトの可能性として，2項判別モデルにおける欠損値補完問題をmiでアプローチするとか）を聞いてから，羽田空港へ。それにしても疲れたが，大変充実したシンポジウムだった。また，疫学・生物統計学教室の大橋靖雄先生の門下生が各地で活躍しているのが凄いと思った。人類生態も同窓会での研究報告会だけではなくて，こういう開かれた会を主催していくべきかもしれない。浜松町経由で19:00頃には羽田空港第1ビルに着いたので，SKYMARKの自動チェックインを済ませてから晩飯。半熟卵のオムライスのハヤシソース掛けとサラダとアイスラテというセットで1400円。多少割高だが，オムライスはそこそこ美味かった。19:45現在，20番ゲート近くの椅子に座ってボーディング待ち中。強風のために羽田空港が混んでいる（？）とかもあってボーディングが20分ほど遅れ，神戸着は約30分遅れで，最終バスで帰宅。

△Read/Write COMMENTS

▼前【627】（確定申告とか（2014年3月17日））　▲次【629】（シラバス入力と会議（2014年3月19日））　●Top

Notice to cite or link here | [TOP PAGE]

個別鵯記

目次

【第628回】東京日帰り出張（2014年3月18日）

個別鵯記

目次

【第628回】 東京日帰り出張（2014年3月18日）

【第628回】東京日帰り出張（2014年3月18日）