群馬大学 | 医学部 | サイトトップ | 医学情報処理演習

医学情報処理演習:2010年度第13回課題の解答例と質問・要望への回答

課題

sample12.txtは,我が国の2005年の男女別都道府県別主要死因別年齢調整死亡率(全死因がALLM,ALLF;悪性新生物がCANCERM,CANCERF;心疾患がCARDIOM,CARDIOF;脳血管疾患がCEREBROM,CEREBROF;肺炎がPNEUMOM,PNEUMOF;不慮の事故がACCIDENTM,ACCIDENTF;自殺がSUICIDEM,SUICIDEF;老衰がSCENILM,SCENILF;腎不全がKIDNEYFM,KIDNEYFF;肝臓病がLIVERDM;LIVERDF;慢性閉塞性肺疾患がCOPDM,COPDF;糖尿病がDIABETESM,DIABETESF),2004年の世帯平均貯金額(1000円単位)(HHSAVINGS),2005年の年平均気温(AVETEMP),2005年の世帯当たり自家用車保有台数(MYCAR),2005年の工業生産額(100万円単位)(PRODUCTS),2005年人口(一般世帯人員として)(POP),2005年人口1人当たり工業生産額(100万円単位)(PRODPP)からなるデータである。データの出典は,厚生労働省のサイトと,総務省統計局のe-STATと,経済産業省の「統計から見る日本の工業」である。変数PREFは都道府県,変数AREAは東日本か西日本かを示す(東日本は最も広くとって,北海道,東北,関東,中部,北陸,三重を含む東海までとした)。

慢性閉塞性肺疾患(COPD)による都道府県別の年齢調整死亡率(男性がCOPDM,女性がCOPDF)が,東日本と西日本で有意に異なるか,ウィルコクソンの順位和検定で検定せよ。検定の有意水準は5%とする。

学籍番号・氏名とともに,下のフォームと解釈文を穴埋めして送信せよ。

A file named sample12.txt includes prefecture-based age-adjusted mortalities specific for major cause of death by males and females in 2005. Variables are: ALLM and ALLF are age-adjusted mortality by all causes, CANCERM and CANCERF are by neoplasms (cancer), CARDIOM and CARDIOF are by cardiovascular disease, CEREBROM and CEREBROF are by cerebrovascular disease, PNEUMOMand PNEUMOF are by pneumonia, ACCIDENTM and ACCIDENTF are by accident, SUICIDEM and SUICIDEF are by suicide, SCENILM and SCENILF are by scenescence, KIDNEYFM and KIDNEYFF are by kidney failure, LIVERDM and LIVERDF are by liver disease, COPDM and COPDF are by chronic occlusive pneumonic disease (COPD), and DIABETESM and DIABETESF are by diabetes. The file also contains aggregate measure of socioeconomic status of the prefecture as the following variables: HHSAVINGS is average amount of savings per household (unit: 1,000 yen) in 2004, AVETEMP is annual average temperature in 2005, MYCAR is average number of car ownership for private use per household in 2005, PRODUCTS is total industrial products (unit: million yen) in 2005, POP is total population (as ordinal household member) in 2005, and PRODPP is the ratio of PRODUCTS to POP. The sources of data are in the website of the ministry of health, labor and welfare, the e-STAT, and the "Japanese industry from the viewpoint of statistics" in the website of the ministry of economics, technology and industry. The file also includes the variables PREF (the name of prefecture in Japanese) and AREA (included either in the eastern part of Japan or in the western part of Japan in Japanese; there are several criteria to divide Japan into east and west, but here I used the most east-wide criterion, where the west-end of eastern Japan is Fukui, Gifu, Aichi and Mie prefectures).

Using the Wilcoxon's rank sum test, examine the statistical difference of the age-adjusted mortalities by chronic occlusive pneumonic disease (COPDM and COPDF) between eastern Japan and western Japan (indicated by AREA). Let the significance level (alpha-error) 0.05.

Please write the registry number and name, fill the boxes by adequate characters.


コードは以下の通り。

(The code is shown below.)

x <- read.delim("http://phi.med.gunma-u.ac.jp/medstat/sample12.txt")
layout(1:2) # グラフィック画面を上下2分割
stripchart(COPDM ~ AREA, Box A=x, vert=TRUE, Box B="jitter")
stripchart(COPDF ~ AREA, Box A=x, vert=TRUE, Box B="jitter")
Box C(COPDM ~ AREA, Box A=x, exact=FALSE) # Wilcoxon's rank sum test for COPDM by AREA
Box C(COPDF ~ AREA, Box A=x, exact=FALSE) # Wilcoxon's rank sum test for COPDF by AREA

グラフをみると,男女とも西日本に1つ,COPD死亡率が飛び抜けて高い都道府県があることがわかる(実は沖縄である)ので,東日本と西日本の分布の位置を比べるには平均値の差のt検定よりもノンパラメトリックなウィルコクソンの順位和検定の方が適している。

ウィルコクソンの順位和検定の結果から判断すると,東日本と西日本の間でCOPD死亡率には,有意水準5%で統計学的に有意差がBox D(1:男女ともある,2:男女ともない,3:男性ではあるが女性ではない,4:男性ではないが女性ではある)といえる。

According to the graph, there is a prefecture with exceptionally high COPD mortality in either of males and females (in fact, it's Okinawa prefecture). Thus, the Wilcoxon's rank sum test is more suitable to compare the COPD mortalities between Eastern and Western Japan than t-test.

Judging the results of Wilcoxon's rank sum test, we can state that the difference of COPD mortality between Eastern and Western Japan was statistically significant (at 0.05 level) Box D(1: in both of males and females, 2: neither in males nor females, 3: in males but not in females, 4: in females but not in males).

解答例

課題13解答用グラフ

項目解答
Box Adata
Box Bmethod
Box Cwilcox.test
Box D3

AとBはDATA, detach,methotなどミスタイプを除けば全員正解であった。Cはpairwise.wilcox.testという誤答がかなりあったが,それだとエラーが出て動作しないはずである。Dは1または2という誤答が何人かあった。正しく穴埋めしたコードを実行すると,右の図ができ,下の結果が出力される。

男性の結果

	Wilcoxon rank sum test with continuity correction

data:  COPDM by AREA 
W = 381.5, p-value = 0.02533
alternative hypothesis: true location shift is not equal to 0 

女性の結果

	Wilcoxon rank sum test with continuity correction

data:  COPDF by AREA 
W = 338.5, p-value = 0.1850
alternative hypothesis: true location shift is not equal to 0 

男性についてはp-valueが0.05より小さく,女性では0.05より大きいので,東日本と西日本の間でCOPDによる年齢別死亡率を比較したとき,有意水準5%で,男性では統計学的に有意な差があるが,女性では有意な差があるとはいえないとわかる。



質問・要望への回答

復習のための教科書(入門書)を購入しましたが、授業でやってる範囲が含まれていないところもありました…。やはり中級以上の内容なのですね。
違います。この演習は,医師国家試験を受ける段階でわかっていて欲しい医学統計の基礎と,医学論文を読む上でこれくらいは知っていないと困るだろうということを扱っています(テキストはコロプレス図の作り方を載せるなど,ところどころ基礎を逸脱していますが,演習の中ではそういうところは扱いませんでした)。来週は別として,この演習でやっているのは基礎的な内容です。購入された教科書に含まれていない内容を扱ったとすれば,一般の統計入門書と医学統計の入門がカバーする範囲が違うためか(例えばマンテル=ヘンツェルの要約オッズ比やROCは,疫学や医学統計では入門書でも扱うべき内容ですが,社会調査や経済学など文系の統計入門でカバーしている本はたぶん存在しないと思います),本来基礎的な内容なので入門書で扱うべきなのにその教科書に掲載されていないのか(How to的な本の中には検定の多重性の調整にさえ触れていない本もあります)のどちらかだと思います。
ヒントをいただけるのはうれしいのですが、今回の課題に登場するstripchart()についての説明があれば、より認識を深めることができたように思います。
ごめんなさい。関数一覧表に載せなかったのは中澤のミスです。W君の協力を得て補足しましたので,ご覧ください。
テストが心配です。ちなみに例年何人くらいの学生が試験を落としてしまうのですか。
出席点がメインですし,期末試験も持ち込み可なので,これまで,通らなかった学生はいません。
テストが心配です。年末で統計に関する知識などが消えてしまいました。どうしたらいいですか?
復習してください。問題を見て出題分野がわかりさえすれば,その回の課題解答例をみて,真似をすればテストには解答できると思います。

リンクと引用について