Latest update on 2024年2月14日 (水) at 23:36:03.
6:00起床。レトルト十六穀米ご飯とレトルトカレーを電子レンジ加熱して朝食。今日は食材を買いに出なくてはいけないが、在宅で書類づくりがメインの仕事。
院生からの問い合わせに答えてtruequantile()という関数を書いてみた話の関連で、そもそも連続量が正規分布していない場合に分位数で区切ってカテゴリ化することの是非はどうなのかも書いておく。
2012年に出たBennette C, Vickers A: "Against quantiles: categorization of continuous variables in epidemiologic research, and its discontents", BMC Med Res Methodol, 12: 21はデメリットを強く訴えていて、著者の一人は2020年にも、本人のアカウントかどうか知らないがGreenland大先生への@tweetとして分位数を巡るカテゴリ化は昔から論争の的であったと書いていて、それについているコメントで知ったこのスライドなど見ると、怖くて連続量のカテゴリ化などできなくなりそうではある。もっと新しいものをみても、Busch EL (2021) Cut points and contexts. Cancer, 127: 4348-4355.というコメンタリーは、連続量をカテゴリ化する方法は一長一短で、どれか1つのカテゴリ化が正しいというようなものは存在しないと論じている。
一方、このSASのブログ記事は、(解決策の一案として分割するカテゴリ数を減らすことを提案しているだけで、根本的な問題解決にはなっていないが)まさに丸めによって整数値になっていたり、元々整数値だったものを分位数によってカテゴリ化する際に同順位が多くなることで生じる問題を指摘している。結局、同順位のデータがちょうど分割したい分位数になっている場合に、その数値を上の区間に含めても下の区間に含めても歪んでしまうので、truequantile()のような方法で実数の分位数を見つけて、ちょうど分位数になっている同順位の人数を上と下に按分して、どの人を上の区間に割り当て、どの人を下の区間に割り当てるかを乱数で決めるという動作を1000回くらい繰り返して仮想データセットを作り、必要な統計解析をした後でそれを統合するという方法を試した先人は見つからなかった。欠損値への多重代入法で似たようなことは許されているので、これも理屈の上ではできると思うが、仮想データで試してみたいところではある。そのためにも、小説や漫画の登場人物を想像して作る統計教育サンプルデータプロジェクトは何とか実現したい。
本戦出場12チームが発表されたが、最大の驚きはRabbit Catが通らなかったこと。もっとも、3/2の生出演が条件だから、スケジュールの都合で辞退したのかもしれない(追記:辞退ではなく落選とのことで謎すぎる……と思ったが、可能性としては、いくらプロアマ問わずといっても、例えばゴスペラーズとかINSPiとかリトグリが参戦したら? と考えると、上手すぎるプロが出てしまってはコンテストとして興醒めするからかもしれない。しかしスケジュールが空いているのなら、むしろプロなのだからゲストとして出演という可能性ならあるのではないか)。もう1つ絶対に通ると思っていたが落ちたカメレ音楽隊はハモネプの短い時間にはあまり向いていないということかも。
韓国2チームは両方通るかと思っていたがNarinだけだったか。25チーム発表動画では大人気だったあでくんのチームや背徳の薔薇やSMELLMANも通らなかったか。うたかるたに満月の夕を歌ってほしかったし、和佳奈さんのHo-opも通ってほしかったがなあ。それでいて芸人のドルフィンズや声優のうたミルが通っているのは、まあテレビ番組だからかなあ。
神戸大学教員としては、ハヰカラ使節団が通ったのは嬉しい。バズくんのくじらの逆襲やたかたかさんのトコハルも通っていたし、夜にワルツ、JETS、8Lawが通っていたのは順当と思う。しかしやっぱり12チームに絞るのは無理があったよなあ。
読谷組が沖縄電力と練習試合をして8-8の引き分けだったらしい。先発した仲地投手が少し心配だが、打つ方は好調そうだ。
▼前【1552】(今日も名谷で書類仕事(2024年2月9日) ) ▲次【1554】(実写化して欲しいがたぶん無理だろうという作品(2024年2月11-12日) ) ●Top