Top

鐵人三國誌・アーカイヴ

Latest update on 2024年2月2日 (金) at 16:34:57.

目次

【第1542回】 統計教育サンプルデータ作成アイディア(2024年1月30日)

7:00に起きたのでテレビ体操はできなかった。豚肉野菜炒めと納豆掛け玄米ご飯とトマト1個で朝食を済ませ、シャワーを浴びて髪を洗ったら9:00過ぎたので急いで出勤。

このところ保健学研究共通特講IV, VIIIにおける統計教育の改善方法についてつらつら考えていて(というか結果的には無駄になってしまった某業務のため、強制的に内容の再整理を考える必要があったのだが)、自由に使える適当なデータが欲しいと思うようになった。作図の説明のためには、量的なデータと質的なデータが混在している何百人規模のものが適していて、これまではMASSパッケージのsurveyという、アデレード大学の統計関係の学生のデータを使ってきた。自分のデータを公開するのは、匿名化したとしても倫理審査関係のクリアが難しいなあと思って、そこで思考が停まっていたが、ふと、架空の人物について想像したデータをバザール形式で作ってしまえば良いのではないかと思いついた。

質問紙はウェブのフォームで作り、完全匿名で(何の登録も必要ないゲストとして)ボランティアを募って(botに入力されないような仕組みは必要だと思うが、メール認証までしなくても、良くあるCAPTCHA、例えばPerlのcgiならこのモジュールを使うとか、あるいはTurstileで十分だろう)、自分が好きな小説や漫画の登場人物について作品中で明らかになっている情報や、性格的には読者が想像した情報で、登場人物の気になって埋めてもらうのだ。そうすれば、個人情報にも抵触しないし、倫理的な問題も生じないはずだ。データやプロジェクトのタイトルを読者が勝手に想像した架空人物の社会心理的特徴、とでもするか。

たぶん架空人物も成長するので、何歳時点のデータというのを想像した場合は何度でも入力できるようにしたい。例えば20代のシャーロック・ホームズと、ライヘンバッハの滝から生還後の40代のシャーロック・ホームズでは別データとなる。高村薫『李歐』の李歐や吉田一彰は、22歳の時と再会後では別データとなる。名前、年齢、身長、体重(を入れるためには、人間に限るとしなくてはデータにならないが、明らかに定量的なデータとしては身長と体重くらいしか想像で入力できるものが思いつかない)、性別(架空人物の場合は、新井素子『二分割幽霊奇譚』の主人公のようなインターセックスの登場人物は珍しくないので、それ以外と不明というカテゴリは必須だな)、同居世帯構成(ワンピースのサニー号乗組員のような場合もあるので、血縁関係なしが何人、というカテゴリが実在する人物とは大きく違ってきそうだ)、親しい友人の数(ワンピースのルフィだと大変な数になりそうだが、最上位のカテゴリを200人以上、とかの順序カテゴリにすれば良いか?)、といった基本情報に加えて、自己効力感とかBig5とか使用許可をとらなくてはいけないが、PHQ-9とかPHQ-15とかGAD-7とか、ソーシャルサポートとかソーシャル・キャピタルに関する尺度の質問紙を加える。入力されたデータは随時csvでダウンロードできるようにする。詳細は後で詰めるとして、基本仕様はこんなものか。

プラットフォームとしては、自分が個人契約しているこのレンタルサーバに設置するのは簡単だが、それだとアクセスしづらい場合もあるようなので、例えばGithubとかにプロジェクトを作ると良いかも。

うーん、何か先人がいそうな気はするが、もし先人がいないなら、時間ができたらやってみたい。もちろん誰か他の人がやってくれても良いのだが。どうです、おひとつ?

ここまでをアップロードした後で、Xにスマホからポストしたように、日本語がだいぶ変であることに気づいたので修正した。あと、ハイファンタジー以外は架空の入力時点や居住地情報も欲しい。デフォーのペストの登場人物と川端くんのエピデミックの登場人物では集団レベルで違いが出そうだ。あと、bot入力を防ぐ仕組みが必要と書いたが、考えてみればどうせ架空なのだからAIに自動生成させても良いのか? できるかどうか知らないが。問題は、実存する原作(小説や漫画)の設定にちゃんと合ったデータをAIが作ってくれるかどうかだな。それ以上に、「実存する原作が存在する架空人物に限る」という縛りがAIには難しそうな気もするが。


ご恵贈御礼。衣笠智子『少子高齢化と農業および経済発展:世代重複モデルを用いた理論的計量的研究』勁草書房、ISBN 978-4-326-54648-0(Amazon | honto | e-hon)をいただいた。人口と農業というとボゼラップやギアーツのモデルを想像したが、少子高齢化フェーズの話であり全然違うスコープだった。国際比較や日本のデータを使った計量経済的な実証分析がなされているようだ。

(list)

前【1541】(会議とか(2024年1月29日) ) ▲次【1543】(LaTeXやRにlintってあるのだろうか(2024年1月31日) ) ●Top

Notice to cite or link here | [TOP PAGE]