Top

個別鵯記

Latest update on 2018年3月7日 (水) at 15:42:47.

目次

【第909回】 大阪へ(2015年2月1日)

移動
日曜も6:30起床。古紙回収の集積場所に古新聞やダンボールを出しに行って,いろいろやってから昼飯に豚汁を作り,娘と一緒に食べてから長野駅へ。14:15のバスで大阪に向かっている。
院生対応
途中で車体故障の点検が入ったりしたので,新大阪着が予定より遅れ,JRも大阪駅で線路に物を落とした客がいたとかで更に遅れたので,神戸駅に着いたのが21:40近かった。21:30に院生と待ち合わせていたのだが,少し遅れてしまい,申し訳なかった。ともあれ,無事にサインして捺印することができ,バスの中で修正してきたファイルをUSBに入れて渡すこともできたので,何とか明日の締め切りには間に合うだろう。
食事準備
冷凍ライスバーガーを電子レンジで加熱して食べ,風呂に入って,米を研いでタイマーセットしてから眠った。
週刊ダイヤモンドの特集へのコメント
■「統計学」自由自在!というどこかの学参のような特集テーマの週刊ダイヤモンド1月31日号を金曜日に飛行機に乗る前に買って,電車などで読んだのだが,冒頭,社長が純米大吟醸を作る方針で杜氏と喧嘩してしまった結果,杜氏がいなくなってしまい,製造経験の無い若手社員4人と社長が徹底したデータ管理に基づいて「獺祭」を作り上げた話は,統計学というよりも,データによって経験の壁を乗り越えるという話だったが,掴みとしては面白かった。
■次の西内氏が特別指導という体裁の架空のストーリーは,そこまで全部エクセルでやらなくても……とまず思ったが,層別に平均や合計を出すことをクロス集計と呼ぶのに違和感があったとか,重回帰モデルで「補正R2」と書いてある自由度調整済み重相関係数の二乗の値をまるっきり無視していた(0.11しかない)とか,変数の相対的影響の強さを比べるのに標準化していない偏回帰係数を見ていたとか(偏回帰係数の値を,変数が1単位増えるときの効果として説明していたので,それ自体は間違ってはいないが),「何回目の訪問か」と「訪問先従業員数」を除けば独立変数がすべてカテゴリ変数をダミー変数化して投入したものなので,「これらが1増えるごとに『飛び込み』と比べて増える売上高」は妙な表現で,「他の変数が同じ値だったときに,これらの初回訪問事由では『飛び込み』と比べて売上高がどれだけ多いか」と書くべきだとか,「何回目の訪問か」は有意な効果がなかったので,それを除いた回帰モデルを作ってAICを比べてみるとかした方がいいんじゃないかとか,営業担当者の能力をみるところで,既に売上高に影響するとわかっている初回訪問事由などの変数を入れないのはおかしいんじゃないか,むしろ傾向スコアを使った回帰モデルにした方がいいんじゃないかとか,月次変化のデータをいきなり月を独立変数にしたり何ヶ月前かを独立変数にした重回帰モデルに投入するのは乱暴すぎるんじゃないか(このデータの解析はかなり難しいと思うが,普通なら時系列解析するだろう)など,いろいろ気になる点があった。
■その後の記事は,コラムも含めて,統計学というよりもデータマイニングだったが,まあ「ダイヤモンド」の読者層はその方が関心高いのだろう。
■コラム3は,がん死亡率に限らず,粗死亡率にも当てはまることだが,年齢調整の説明は,「ある時点の年齢別人口構成がそのまま推移した前提で比べる」と書くよりも,提示されているデータは直接法の年齢調整だから,「共通の年齢別人口を重みとする年齢別死亡率の重み付き平均を取る(ことで,高齢者割合の増加による全体の死亡率上昇への影響を除く)」と書く方が意味が明確になるだろう。
■次の「世の中の数字を疑え!」は,平均貯蓄残高が実感とずれている原因が富裕層という外れ値によって平均値が高い方に引っ張られて,中央値と大きく異なるという,統計学の基本的な話から始まっていたが,後は公式統計などで使われている指標の中身を考えようという話が大半だった。
■ただ,最後の自治体別人口推計のところは,社人研推計を紹介しているのだが,あたかもGageが途上国用に提案した2 census methodで単純にやっているかのような根本的な勘違いをしていて,大変まずい記事だった。社人研サイトにあるI. 推計の方法の3ページのフローチャートを見ればわかるように,「直近のたった2回の国勢調査の結果を反映しているにすぎない」のではない。国勢調査結果は2010年のものを推計の出発点における人口として使っているだけで,生残率に使っているのは2回の都道府県別と市町村別の生命表から何ステップもの手順を踏んだ推計値なのだ。きっと,この記事を書いた記者は,国勢調査結果と生命表の違いがわかっていないのだろう。社人研はクレームを入れた方がいいと思う。
■その次の,p.68-69の統計の情報源のURL付き一覧は見やすかった(もっとも,統計APIが入っていないのは残念だったが)。
■その次の「達人」の話はかなり眉唾。擬似相関では? 時系列だし,せめて表じゃなくて散布図にして推移を矢印で示すくらいはしようよ。最後の「達人」佐藤朋彦さんのインタビュー記事は大変真っ当でいいことが書かれていただけに,その前の記事が残念だった。一般雑誌だから,ある程度は仕方ないかもしれないが。

Read/Write COMMENTS

前【908】(人口学の非常勤講義の後で長野へ(2015年1月31日) ) ▲次【910】(締め切りとかミーティングとか(2015年2月2日) ) ●Top

Notice to cite or link here | [TOP PAGE]