群馬大学 | 医学部 | サイトトップ | 医学情報処理演習

医学情報処理演習:2011年度第13回課題

第13回に出てきた関数と文の主なものはこちらを参照されたい。

課題

sample12.txtは,我が国の2005年の男女別都道府県別主要死因別年齢調整死亡率(全死因がALLM,ALLF;悪性新生物がCANCERM,CANCERF;心疾患がCARDIOM,CARDIOF;脳血管疾患がCEREBROM,CEREBROF;肺炎がPNEUMOM,PNEUMOF;不慮の事故がACCIDENTM,ACCIDENTF;自殺がSUICIDEM,SUICIDEF;老衰がSCENILM,SCENILF;腎不全がKIDNEYFM,KIDNEYFF;肝臓病がLIVERDM;LIVERDF;慢性閉塞性肺疾患がCOPDM,COPDF;糖尿病がDIABETESM,DIABETESF),2004年の世帯平均貯金額(1000円単位)(HHSAVINGS),2005年の年平均気温(AVETEMP),2005年の世帯当たり自家用車保有台数(MYCAR),2005年の工業生産額(100万円単位)(PRODUCTS),2005年人口(一般世帯人員として)(POP),2005年人口1人当たり工業生産額(100万円単位)(PRODPP)からなるデータである。データの出典は,厚生労働省のサイトと,総務省統計局のe-STATと,経済産業省の「統計から見る日本の工業」である。変数PREFは都道府県,変数AREAは東日本か西日本かを示す(東日本は最も広くとって,北海道,東北,関東,中部,北陸,三重を含む東海までとした)。

肝臓病(LIVERD)による都道府県別の年齢調整死亡率(男性がLIVERDM,女性がLIVERDF)が,東日本と西日本で有意に異なるか,ウィルコクソンの順位和検定で検定せよ。検定の有意水準は5%とする。

学籍番号・氏名とともに,下のフォームと解釈文を穴埋めして送信せよ。

A file named sample12.txt includes prefecture-based age-adjusted mortalities specific for major cause of death by males and females in 2005. Variables are: ALLM and ALLF are age-adjusted mortality by all causes, CANCERM and CANCERF are by neoplasms (cancer), CARDIOM and CARDIOF are by cardiovascular disease, CEREBROM and CEREBROF are by cerebrovascular disease, PNEUMOMand PNEUMOF are by pneumonia, ACCIDENTM and ACCIDENTF are by accident, SUICIDEM and SUICIDEF are by suicide, SCENILM and SCENILF are by scenescence, KIDNEYFM and KIDNEYFF are by kidney failure, LIVERDM and LIVERDF are by liver disease, COPDM and COPDF are by chronic occlusive pneumonic disease (COPD), and DIABETESM and DIABETESF are by diabetes. The file also contains aggregate measure of socioeconomic status of the prefecture as the following variables: HHSAVINGS is average amount of savings per household (unit: 1,000 yen) in 2004, AVETEMP is annual average temperature in 2005, MYCAR is average number of car ownership for private use per household in 2005, PRODUCTS is total industrial products (unit: million yen) in 2005, POP is total population (as ordinal household member) in 2005, and PRODPP is the ratio of PRODUCTS to POP. The sources of data are in the website of the ministry of health, labor and welfare, the e-STAT, and the "Japanese industry from the viewpoint of statistics" in the website of the ministry of economics, technology and industry. The file also includes the variables PREF (the name of prefecture in Japanese) and AREA (included either in the eastern part of Japan or in the western part of Japan in Japanese; there are several criteria to divide Japan into east and west, but here I used the most east-wide criterion, where the west-end of eastern Japan is Fukui, Gifu, Aichi and Mie prefectures).

Using the Wilcoxon's rank sum test, examine the statistical difference of the age-adjusted mortalities by liver disease (LIVERDM and LIVERDF) between eastern Japan and western Japan (indicated by AREA). Let the significance level (alpha-error) 0.05.

Please write the registry number and name, fill the boxes by adequate characters.


コードは以下の通り。

(The code is shown below.)

x <- read.delim("http://phi.med.gunma-u.ac.jp/medstat/sample12.txt")
layout(1:2) # グラフィック画面を上下2分割
boxplot(LIVERDM ~ AREA, BoxA=x)
boxplot(LIVERDF ~ AREA, BoxA=x)
BoxB(LIVERDM ~ AREA, Box A=x, exact=FALSE) # Wilcoxon's rank sum test for LIVERDM by AREA
BoxB(LIVERDF ~ AREA, BoxA=x, exact=FALSE) # Wilcoxon's rank sum test for LIVERDF by AREA

グラフをみると,男女とも外れ値があるので,東日本と西日本の分布の位置を比べるには平均値の差のt検定よりもノンパラメトリックなウィルコクソンの順位和検定の方が適している。

ウィルコクソンの順位和検定の結果から判断すると,東日本と西日本の間でLIVERD死亡率には,有意水準5%で統計学的に有意差がBoxC(1:男女ともある,2:男女ともない,3:男性ではあるが女性ではない,4:男性ではないが女性ではある)といえる。

According to the graph, there were some outliers in both males and females. Thus, the Wilcoxon's rank sum test is more suitable to compare the LIVERD mortalities between Eastern and Western Japan than t-test.

Judging the results of Wilcoxon's rank sum test, we can state that the difference of LIVERD mortality between Eastern and Western Japan was statistically significant (at 0.05 level) BoxC(1: in both of males and females, 2: neither in males nor females, 3: in males but not in females, 4: in females but not in males).

(参考)データをxに読みこんだ後,画面を4行6列に分割し,各死因の男女別年齢調整死亡率の分布を比較するため,東日本と西日本別々に箱ひげ図を描画する操作を一括して行うコードは下記の通り。これによりCOPDとLIVERDが男女とも外れ値があることがわかる。

layout(matrix(1:24, 4, 6))
sapply(3:26,function(y) { boxplot(x[,y] ~ x[,1],main=paste(names(x)[y])) })

解答フォーム (Answer form)

項目入力欄
学籍番号(数字のみ,半角で)(Reg.No.)
氏名(Name)
Box A
Box B
Box C
感想・要望・質問など(Comments)


リンクと引用について