Latest update on 2018年3月7日 (水) at 15:42:47.
【第408回】 締め切り過ぎの仕事(2013年7月23日)
- 6:00起床。今日も音楽は「Awakening」。これは定番起床音楽として最高だけれども,そろそろ変えてみるか。昨夜のラジオ放送(既にSOLのサイトに放送内容が掲載されている)でフレネシ気分なので『ゲンダイ』に入っている何かにしよう。
- 朝は昨夜わさび漬けと豆腐を買ったのでベーコンライスと冷や奴。メールの返事を打っていたら直通始発バスの時刻は過ぎてしまったので,直通2番のバスで出勤。既に暑い。今日は締め切り過ぎの仕事2つを進めたい。そろそろ成績評価の入力もしなくてはいけないが……。
- タワレコで配布されているらしい『風とロック』という雑誌が,北三陸鉄道の特集をしているらしい。木曜に入手を試みよう。
- 締め切り過ぎの仕事を済ませるより先に,明日のエビデンスベーストヘルスケア特講で実施予定の最終ミニテストの問題を作った(ミニテストが終わってから,解答例付きで公開する予定)。ついでに,これまでに配った資料で公開しそびれていたものを(若干修正して)公開した。
- 結城浩さんと奥村晴彦先生のtweetで知った統計たんをフォローしてみた。必ずしも統計ネタだけつぶやいているわけではないようだが。
- 三中さんのtweetで知った産総研のプレスリリース。見出しが,「ビッグデータから新たな科学的発見をもたらす統計手法の開発」となっていて,多重検定法におけるp値の新しい調整法として,LAMP (Limitless-Arity Multiple testing Procedure)という手法を開発したということだった。Bonferroniのような多重比較法でp値を調整して表示するのは表示上の都合であって,本当は帰無仮説族レベルでの有意水準を変えているのだし,p.adjust.method="fdr"でも,p値も有意水準も調整せず,帰無仮説の下で偶然p値が有意水準未満になって棄却されてしまう確率(誤検出率)を計算し,帰無仮説ごとに有意水準に誤検出率を掛けてp値との大小を比較して検定するということになっているが,これは弱い意味で帰無仮説族レベルでの有意水準の調整を意味する,と原論文に書かれているので,統計ソフトがp値を調整した値を出してくるのはやはり表示上の都合で,本当は有意水準を調整している(see, Benjamini Y, Hochberg Y: Controlling the false discovery rate: A practical and powerful approach to multiple testing. J. Royal Stat. Soc. B, 57: 289-300, 1995.)。ついでだからBonferroni,Holm,FDRという3つの多重比較の考え方を簡単に書いておこう。k個の帰無仮説について検定して得られたp値がp(1)<p(2)<...<p(k)だとすると,有意水準αで帰無仮説族の検定をするために,Bonferroniはp(1)から順番にα/kと比較し,p(i)≧α/kになったところ以降判定保留,Holmはp(i)≧α/iとなったところ以降判定保留とする。有意水準αでfdrをするには,まずp(k)をαと比較し,次にp(k-1)をα×(k-1)/kと比較し,とp値が大きい方から比較していき,p(i)<α×i/kとなったところ以降,i個の帰無仮説を棄却する。Rのpairwise.*.test()では,Bonferroniならすべてのp値がk倍されて表示,Holmでは小さい方からi番目のp値がi倍されて表示,fdrでは小さい方からi番目のp値がk/i倍されて表示されることによって,表示されたp値を共通のαとの大小で有意性判定ができるわけだが,これは表示上の都合のはずだ。
- というわけで,p値の調整という言い方には違和感があったのだが,リリースを読んだ限りでは,LAMPもそこは同じかと思われた。LAMPのキモは,k回の比較をしても,補正にはkの代わりに,kよりずっと小さなある値を使う(その値を自動的に高速に決定するアルゴリズムも開発した)という点にあるらしい。また,「高頻度の組合せ」については,Bonferroni同様,共通する補正係数を掛けるようだから,計算量は節約できそうだ。模式図からすると,「低頻度の組合せ」は,個々の検定におけるp値が大きいもののようにも見えるが,たぶん,その組合せの転写因子などを共通してもつ人が少ないという意味だろう。だから,「低頻度の組合せ」では,サンプルサイズが小さいためにp値が大きくなりがちかもしれないが,真に疾患と関連していたら珍しい組合せであってもp値は小さいはずで,それが補正されずに有意水準と比較されるという仕掛けになっているのだろう……と思ったが,リリースをよく読むと違うようだ。低頻度の組合せは最初から無視するように思われる。それでいいのか?
- なお,最初,ビッグデータとp値の調整という言葉から,サンプルサイズが大きくなったらp値は小さくなるから有意水準を最初から小さく設定しなければならないという話なのかと思ったが,ここでいうビッグデータはサンプルサイズの話ではなく,比較する転写因子などの種類数のことだった。遺伝子Aの有無と疾病の有無の関連についてのp値と,遺伝子ABがともに発現しているかどうかと疾病の有無の関連についてのp値は当然独立ではないから多重性の調整は必要だ。例えば,もし調べた遺伝子が4つあったら,全部発現(とそれ以外の人の比較)1通り,3つ発現の組合せ4通り,2つ発現の組合せ6通り,1つだけ発現の4通り,どれも発現していない1通り,の合計16回の検定が必要になるというわけだ。なるほど確かにkベースの補正ではやりすぎになりそうだ。アルゴリズムについては論文を読んでみないとわからないが,それが納得のいくものなら,確かにProNASでも不思議はない,大きな意義のある論文だと思う。もっとも,多群間の対比較で起こる検定の多重性の調整をする目的での多重比較には使えなそうだが。
- ゼミはJournal Clubで,ウガンダのラボのQA/QCの話。
- Amazonに予約注文していた神田莉緒香『Twilight』と相対性理論『TOWN AGE』が届いた。帰宅して食事のあと,洗濯しながらリッピング。相対性理論は,いつの間にかベースとドラムが変わったようだが,さて演奏はどうだろう? 神田莉緒香『Twilight』は期待通りのポップさと切なさに溢れたミニアルバム。3曲しか入っていないのが残念。発売日の随分前に予約したのに発売日に届かなかったので,これはリコールがあったから修正後の盤が送られてくるのかと思っていたが,昨日届いたのは残念ながら青盤で,確かに2曲目の出だしが欠けていた。Amazonで予約すると,時々こういうことがあるんだよなあ……というよりも,神田莉緒香さんとかGoosehouseのCDを買う時は,特典も違うし,Amazonよりもタワレコか新星堂を使うべきということか。
- 洗濯物が溜まってきたので,夜中ではあったが洗濯。干し終わったら1:00だった。
△Read/Write COMMENTS
▼前【407】(講義と書類作り(2013年7月22日)
) ▲次【409】(昨日の続きとかミニテストとか(2013年7月24日)
) ●Top
Notice to cite or link here | [TOP PAGE]