サイトトップ | 書評

書評:石田基広『新米探偵、データ分析に挑む』(ソフトバンククリエイティブ)

最終更新:2015年11月10日

書誌情報

書評

共立出版から出ている,「とある弁当屋」シリーズ(当サイトでの書評:第1巻第2巻)に続いて石田先生が投入された,Rによるデータ解析とラノベを融合させた新シリーズ。ご恵贈いただいた(ありがとうございます)。RjpWikiの管理者である岡田さんの紹介記事など,多くの方が既に感想を書かれている。

キャラやストーリーは,『なれる!SE』シリーズのデータ解析版的な雰囲気で楽しめる。もちろん,『なれる!SE』の方が,スキルは低い新人でありながら絶体絶命の危機に陥ると超絶的に冴えたひらめきと実行力を発揮してしまい,なぜかモテる若い男性が主人公で,上司は闇を秘めているけれども見かけはツンデレ少女で,しかもスーパー技術者であるといった,ラノベにありがちな濃さを鮮明に出しているが,本書も,主人公はスキルはないけれどもノートにメモを取りながら難しい内容にも食らいついていくgritさを発揮するし,上司2人はツンデレ美人な社長の「天羽さん」(モデルは偽科学批判クラスタで有名な水商売ウォッチャーさんか? 名前は違うが)と,ミニスカートに素足の「見た目はほとんど高校生」なんだけれども事務処理能力が高くてRを使いこなしている庶務課長の「いっ子さん」という,ラノベにありがちなベタな造形になっている。「探偵」だから,日常の謎系のネタも多少は投入されるが,松岡圭祐作品ほど露骨なギミック(gimmick)はなくて,あっさりしている。データ解析にも関心を持って貰おうという本としては,ちょうどいいバランスかもしれない。

この部分,もう少し説明しておくと,大卒新人がほとんど事前知識なしに就職していきなり変人上司から強烈なOJTを受けるというプロローグは『なれる!SE』を彷彿とさせ,豆知識っぽいところは松岡圭祐の万能鑑定士や特等添乗員シリーズを思い出させるという意味である。ただ,事件ファイル01に入って,データ処理の必要性からいきなりRStudioを使うところに持って行く展開が豪腕で独自。若干強引だが,入門書と小説のmixtureという狙いだとすれば,こういう持って行き方しかないかもしれない。ぼくがかつて夢想した「統計探偵」企画は,入門であることはまったく目指していないので,あれとはちょっと違うテイストだが,これはこれで面白いし,弁当屋シリーズよりも小説としての納得はいく。関連して,最近本屋で見かけて衝動買いしてしまった,『占い処・陽仙堂の統計科学 』は,データ処理の中身にはまったく触れていないものの,易学(四柱推命)を科学にしたいヨーセンさんが何日もコンピュータに計算させ続けないとできないくらいのデータ処理をしているという描写があり,ビッグデータからの機械学習によるデータマイニングなのだろうなあと思わせてくれたところが個人的にはツボだった。途中からの展開はほとんど統計と関係ないので,タイトルから期待した方向ではなかったのだが,小説としてはそれなりに楽しめた。

閑話休題。統計学というよりは,読者を実務のデータ分析の入口に引っ張り込むための本だと考えれば,説明の厳密さをある程度犠牲にしているのは,まあ良いのだろう。だから,以下の突っ込みはかなり野暮かもしれないが,一応書いておく。

事件ファイル01
△離散値の度数分布図をヒストグラムと呼ぶことには抵抗を感じた。
△作図もhist()に生データを与え,breaksを1刻みの整数にしてやっているが,せっかくtable()で度数分布を数字として求めるところまで説明しているのだから,table()の結果である度数分布表をそのままbarplot()に渡す方がいいと思う。
△hist()の区切りがデフォルトでは「以上,未満」でなくて「~を超えて~以下」であることは明記すべき。せっかく物語形式なのだから,新人くんに横軸の疑問として問わせれば良かったんでは?
事件ファイル02
△pp.77の「Excelのワークシートを手慣れた様子で操作して」の部分は,A1:K2を選択してカットし(A1の上でCTRLとSHIFTを押しながら右矢印1回,CTRLを放して下矢印1回,次いでCTRL+X),シート2のA1に移ってから「形式を選択して貼り付け」で「行と列を入れ替える」にチェックを入れてから値を貼り付け,シート1に戻ってA3:K4をカットしてからシート2に行ってA11で「形式を選択して貼り付け」,「行と列を入れ替える」がチェックされているのを確認してOK,最後に再びシート1に戻ってA5:K6をカット,シート2のA21で「形式を選択して貼り付け」,以下同様という手順は短いので書いて欲しかったし,Rでやったならコードを載せて欲しかった。
△pp.78-79でbreads.csvが出てくるときにcsv形式がどういう形式なのか,Excelでどうすると保存できるのかが説明されていないが,ここはExcelがわかる人なら説明不要ということか?
△pp.92-93では,仮説検定で有意差がなかったことから「慎重を期していえば,重量が減っていると疑う根拠はない」という台詞があるが,慎重を期していえばもなにも,それしか言えないはず。
事件ファイル03
△p.113のコメント部分で,read.csv("file.choose()")となっているけれども,当然ダブルクォーテーションは不要。もちろんコメントだからエラーは出ないが。
△p.122は積み上げ棒グラフよりもモザイクプロットの方が描くのも簡単だし(何せ,2次元のクロス集計表がtable1に付値されているなら,mosaicplot(table1)だけで良い)わかりやすいのでは?
△p.127は,「ごくごく簡単な目安だが」と書いてあるのでいいのかもしれないが,カイ二乗検定における近似が正しくない可能性があるのは,「分割表のどこかに5未満の頻度がある場合」ではなくて,「期待度数が5以下のセルが全体の20%以上あるとき」である。
事件ファイル04
△pp.143-144での,sakurada.csvからmenus.csvへの変換過程のコードも示して欲しかったところ。Perlか何かで書く方が楽そうだが。
△pp.158の相関係数の判断基準の目安表は誰が提案した基準なのだろう?
△回帰を相関の延長として説明するのは違和感がある。
事件ファイル06
△台詞だからいいのだが,pp.252でオッズ比が競馬で使われているというのは違っていて,競馬で使われるのは「オッズ」であって「オッズ比」ではない。
△glm()の結果からオッズ比を出すときにさりげなくexp()を取っているのだが,そこに触れていないのも気になった。
△pp.254からロジスティック回帰分析の計算練習用に取り上げられている例がMASSパッケージ内のbirthwtだが,説明がざっくりしすぎなので,この部分に関してはぼくの大学院修士課程用のテキストのp.121からを読んで貰う方が良いと思った。表紙イラストの背景に使われているのも,birthwtのロジスティック回帰分析の出力なのだが,本書の特徴を出すには,図05-09とか図05-10の方が良かったんじゃないだろうか。

以上,いろいろ突っ込みを入れてしまったが,そうはいっても,事件ファイル05でMecabを使ったテキストマイニング入門を扱っているのは石田先生の面目躍如といったところだと思うし,openairパッケージのcalendarPlot()など,ぼくが知らない関数も紹介されていて,それらがすべて1つのストーリーの中に凝縮されているわけだから,やはり凄い仕事というべきと思う。

【2015年11月10日記】


リンクと引用について