Latest update on 2022年12月20日 (火) at 20:31:22.
【第1249回】 R研究集会にオンライン参加(2022年12月17日)
- 7:15起床。83.05 kg。
- シャワーを浴びてから目玉焼きを作って冷奴と玄米ご飯とで朝食を済ませ、メールの返事を打っていたら10:25となり、R研究集会にオンライン参加開始。以下適当なメモ。
- 最初の発表はYamakawaさんで、circularというパッケージとgstatというパッケージとrglというパッケージとQGIS(プラグインも含めて)を使った神戸市の風ベクトルの極座標系及び直交座標系によるクリギングという話。MacだがRはclang/LLVM + gfortranで野良ビルドとのこと。マニアだ。数学とGISでは角度表記の意味が違う(GISは方位角)。たしかにそれは盲点だな。場合分けしてatan()するのはatan2()でできる。circular statisticsについて、時間や場所によって風向きが変わるときは層別化するか多変量版のcircularを使うとのこと。
- 次は樋口さんで食品オントロジーの構築とRでの利用というタイトル。BDHQはFFQの1つで、国民健康・栄養調査は食事記録法なので、FFQや24時間思い出し法への批判は国民健康・栄養調査には当たらないと思ったが、今年度からFFQや24時間思い出しへの検討も始まっていたのは知らなかった。栄養素に関して、NutrienTrackeRパッケージとの接続は考えられていますか? と質問してみたところ、今回のデータベースとは繋がらないが別途利用を検討するとのことであった。
- 次は関西学院大の地道さんたちによる、探索的財務データ解析の話。非対称分布の利用。個体を企業、20年のパネルデータ。tibbleとして読み込み。いろいろな国の会社を含む。日本は530社。まずは時系列のプロット。縦軸を対数軸にすると、逆に左裾を引くので対数正規でもない。plotlyパッケージで3次元時系列プロットを対数軸でやっても、あまり良くわからない。対数をとってプーリングモデルを当てはめるならlm()でもできる。plmパッケージを使うと楽。決定係数は91.2%。残差は正規分布に従っていないが、異なる年次を通して残差の分布の形は似ている。非対称正規誤差を想定したプーリングモデルでやってみると良くなるが微妙に違う。そこで非対称t分布に従う誤差を想定すると良くなった。しかしそれって、lmerTestパッケージのlmer()で混合効果モデルでやったら良くないか? それ以上にperiodicalな効果があるはずだから、年次をブロックにする方が良くないか?
- ここで昼休み。野菜シュウマイの電子レンジ加熱と玄米ご飯とみかんで昼食を済ませる。
- 午後のセッションは阪大・鈴木さんのR/StanとWAIC/WBIC(渡辺澄夫ベイズ理論)の数理というタイトルの発表から。渡辺澄夫『ベイズ統計の理論と方法』がよく参照されている。鈴木さんはこのネタで書籍執筆中とのこと。共立出版100問シリーズで。Stanコードの書き方。AICとWAIC、BICとWBICの比較。正則ならそれぞれほぼ一致する。Facebookのファンページから申し込むと年明け早々の連続セミナーを受講できるとのこと。
- 次は谷村さんのRを用いたGIS公開データの取得、という話。地理空間データ処理は、普通はGIS専用のソフトを使うが、Rにはさまざまなパッケージがある。主要情報源は、WorldClim、GADM、SRTM、DIVA-GIS、OpenStreetMap、GeoNames(要登録)など(国内のものは今日は触れない)。cshapeパッケージは過去からの国境の境界線データが入っている。公開データを読み込むのは、rasterパッケージのgetData()関数、GADMToolsパッケージ、geodataパッケージなど、いろいろある。GADMだと日本の市区町村界データが簡単に取れてplot()で白地図が書けるんだな。marmapパッケージでNOAAの水深測量データを取るなど、さまざまな例示が興味深かった。GPWはgeodataパッケージのpopulation()関数で取れる人口メッシュデータ。2020年まで5年毎に5回分入っている。問題はデータの正確さが公開サーバ依存であること。geodataパッケージのgadm()関数で三重県の市町村を抜き出すと28行しかなく、木曽岬町が愛知県に誤分類されていたとのこと。郵便番号や市外局番が愛知県の弥富市と同じなので誤分類されたかも? というのが谷村さんの読み。パッケージの関数は機能しなくなったりdeplicatedになったりdefunctedになったりすることがよくあるので要注意。誤りを見つけてもサーバには報告していないとのこと。ぼくも10年くらい前にDIVA-GISでNagasakiであるべきところがNaoasakiとなっているのを見つけたが報告しなかったからなあ(ちなみに現在でもadm_1としてはNaoasakiのままで、varnameとしてNagasakiが入っているので、誰かが報告しても変えなかったのだろう。後方互換性を保つことを重視したということか)。報告フォームとかあったら良かったのだが。
- 次は瓜生さんのarrowパッケージによる大きなデータ(数GB/ファイル、全部で100GBくらいのもの)の処理の話。Apache Arrowというプラットフォーム。カラム型(列指向)のデータに特化。通常のデータベースは行指向なので大量データを扱うのに大きなメモリを食う。duckdbパッケージとも連携。Apache Parquetが大規模データを扱う標準形式。read_parquet()でas_data_frame=FALSEとすればarrow形式になる。パーティショニングの決め方が大事とのこと。この辺の話はeitsupiさんがいろいろ試されているそうだ。自分ではせいぜいDHSの一部くらいのデータしか扱わないので、データの大きさで困ったことはないのだが、いつか扱わねばならない時が来たら参考になりそうな話。っていうか、例えばどこかの国のDHSデータ全部をオンメモリにおいて串刺しで計算するといったことができるわけか?
- ここで休憩。「程よい時間」って表現良いなあ。
- 次は徳島大の服部さん。関西地方と中国地方の方言の分析。方言学(dialectology)という学問があるのか。日本では機械学習による方言の区分のようなことはあまりされてこなかった。発声またはカタカナ表記→発音記号→ALINE距離という形で語彙間の類似度を計算。2011-12年に800人くらいの高齢者から返答。語によってばらつきは違う。9単語に絞ってHDBSCANで普通に主成分分析をするとパラレル分析で8主成分、でも同じ単語が複数の主成分に出てくるので、minPtsでやり直し。3-4クラスタ。北側、紀伊山脈の東、それ以外と分かれるが、それ以外はバラバラ(とはいえ、北側クラスタといっても別の場所にも話者がいるので、移住や水平伝播の影響が大きいのだろう)。themisパッケージを使ったブートストラップでrandom forestもしたという感じの話をされていたがフォローしきれなかった。その後は中国地方の話。こちらはHDBSCANは最初からしなかったが、関西ほどROCの結果は良くなかった。方言というと、単語の発音以上に語尾変化が大きいように思うが、この分析は単語が対象なんだな。広島や岡山というと「……じゃろ」が思い浮かぶが。
- 次は和田さんによるデータクリーニングの話(GitHub上の資料)。2017、8年に報告したStatistical Data Cleaning(Wiley)の翻訳をして2022年2月に刊行された。原著の著者たちはuRos2019など活動。retailersデータセット(60レコード11項目、validateパッケージに入っている)を使って、validateパッケージのcheck_that()、validator()、confront()でチェック。変数ごとに条件を満たさないレコードがどこにいくつあるかを可視化できる。YAML形式でルールセットは外部ファイルとして読み書きできる。validatetools::detect_boundary()で値域の制限確認ができる。ルールの実行可能性はvalidatetools::is_infeasible()でチェックできる。validatetools::detect_redundancy()で冗長性チェックもできる。validatetools::simplify_conditional()で単純化もできる。dcmodifyパッケージにより、modifier()とmodify()を使ってデータ修正もできる。VIMパッケージによる欠測の可視化も便利。欠測値の決定論的補完はsimputationパッケージがおすすめとのこと。rspaパッケージで補完後のルール適合再確認ができる。でも普通はmiceやAmeriaとかでMIするよなあ。それはユーザサイドでする話だが、そういう意味では欠測は欠測のまま公開してくれる方がありがたい。
- 次は藤野さんのneo4rとvisNetworkによる科目間の関連度指標の計算とカリキュラム評価の可視化という話。データベースNeo4j 3.5.32を利用。neo4rがバージョン4系に未対応なため。科目担当教員による関連度の評価データをネットワーク分析。多段階の影響を評価可能なのが鍵(ステップ数が多い経路は重みが小さくなるような重み付けになっているが)。成績データによる重回帰とかパス解析とかじゃないんだ。科目担当教員や学生からの主観的関連度評価ってどれくらい妥当なんだろうか? と思うが。
- ということで終了。今年も大変面白かった。ありがとうございました。
- 来年からは世話役が藤野さんから瓜生さんにバトンタッチするとのこと。藤野さん、長い間お疲れ様でした。
- RStudioが12月になってから新バージョンが出たという話があったのでインストールしてみたら、デフォルトのインストールでは、実行ファイルがこれまでのC:\Program Files\RStudio\bin\rstudio.exeから、C:\Program Files\Rstudio\rstudio.exeになったのだな。Claunchに登録してある起動アイコンのプロパティの起動パスを変える必要があった。
(list)
▼前【1248】(名谷キャンパスで院生対応など(2022年12月16日)
) ▲次【1250】(原稿直しと散歩(2022年12月18日)
) ●Top
Notice to cite or link here | [TOP PAGE]