外見がよい人は得をする…誰もが感じることと思います. スタイルがよい人ほど高収入を得ることがディープラーニング(深層学習)によって証明されたそうです. 例えば男性なら身長の1cmは年収1000ドルに相当するんだとか. 本当かなぁ?
Deep machine learning study finds that body shape is associated with income
あらまし
身長や体重と収入の関係を調べた従来研究は多いが, 以下の問題があった:
- 自己申告による身長や体重の数値は不正確(下図)
- 千差万別な体型の表現として, 身長と体重(またはBMI)の2変数は不十分
本研究では, 米国政府のプロジェクト(CAESAR, 1998~2000)で収集された欧米2,383人のデータを利用. このデータは人体の15,178点における3次元座標, および人種, 年齢, 世帯年収などのデモグラフィック情報からなる. これを用いて, 客観的に計測された体型と年収の関係を線形回帰分析により調べた.
体型の表現には, ニューラルネットワークの一種, オートエンコーダを利用. 被験者1人当たり15,178点の体型データから2~3個の特徴量を抽出(下図).
男性のデータから抽出された特徴量P1およびP2の性質を調べたところ, それぞれ身長およびBMIとの相関が確認された.
また, 訓練されたオートエンコーダを用いてP1およびP2から体型を再構成した結果が下図.
女性のデータからは3つの特徴量P1, P2, P3を抽出. P1およびP2では男性と同様の傾向がみられた. P3については, 下図が示すように腰のくびれ(hip-to-waist ratio)を表しているようだ.
これらの特徴量(男性P1, P2; 女性P1, P2, P3)を用いて世帯年収に対する線形回帰分析を行ったところ, 男性のP1 (身長に相当)と女性のP2 (BMIに相当)で有意な回帰係数が得られた. これは従来の身長やBMIでは得られなかったものである.
オートエンコーダによって抽出された体型の特徴量P1, P2, P3と世帯年収の線形回帰(右図)において, 男性のP1 (身長に相当)は正の相関, 女性のP2 (BMIに相当)は負の相関がそれぞれ有意に確認された.
図はすべて以下の論文から引用: S. Song & S. Baek, "Body shape matters: Evidence from machine learning on body shape-income relationship," PLOS ONE, July 2021.
コメント
面白いデータを使った研究. しかし見過ごせない疑問点がいくつかあります.
- 深層学習によって得られる特徴量には解釈性がない
- そもそも深層学習を用いる必然性が薄い
- Graphical autoencoderと称するモデルがグラフオートエンコーダではない
1について, よく知られているようにニューラルネットワークは典型的なブラックボックスであり, その中間表現である特徴量が何を表すのかは基本的にわかりません. 本論文では特徴量P1, P2と身長や体重の関係を散布図として提示して, P1は身長, P2はBMIなどと主張していますが, まさにその散布図が示す通り, P1, P2はいずれも身長, 体重, BMIすべての要素の複合体であり, 「P1は身長」などという結論には無理があります. P3の腰のくびれに至っては, こんなびみょ~な絵が根拠だと言われてもね….
2について, おそらく同業者の多くが思うのは, 「主成分分析(Principal Component Analysis; PCA)で同様のことはできるのではないか?」です. 大掛かりな非線形モデルである深層ニューラルネットワーク(DNN)を持ち出す前に, PCAのようにシンプルかつ解釈可能な線形モデルでまず検証して, それでは不足だからDNNという段取りを踏んで初めて, 健全で真っ当な研究といえます.
3は技術的な誤りです. グラフ構造のデータを扱うニューラルネットワークはGraph Neural Network (GNN), Graph Convolutional Network (GCN)などと呼ばれ, 任意の構造のグラフを入力できるように「グラフ畳み込み」という特有の処理ユニットを備えます. 対して本論文のそれは, 確かにグラフデータを入力としていますがその構造が一定(15,178×3次元)なので, 筆者らがいうgraphical autoencoderはおそらくただのautoencoderです.
ここまで来ると, この論文を掲載するジャーナル(学術雑誌)は何者なんだという疑問が生ずるわけですが, 掲載誌のPLOS ONEは, 論文筆者から掲載料(1500ドル程度)を取る一方で, 購読料をフリーにするオープンアクセス方式により, 年間数万件に上る論文を掲載する巨大オンラインジャーナル. いわゆるメガジャーナルの草分けです. かつては, 出来の悪い論文を査読もせずに掲載して著者から掲載料を取るハゲタカジャーナル(predatory journal)と噂されたこともあるようですが, 50%程度の採択率で査読を行うプロセスが存在するまともなジャーナル(ハゲタカではない)というのが世間の認識のようです.
Is Plos One considered as a predatory journal? - Quora
ハゲタカジャーナルについては, どんなふざけた論文でも受理されるという信じられないエピソード(例えば"Get me off Your Fucking Mailing List")がたくさんあって論外ですが, ハゲタカでなければ真っ当かというとそうでもありません. 査読の厳格度はまちまちで, 上述したようなレベルの論文が掲載されるPLOS ONEの査読はかなり緩そうです.
しかし, だからといってPLOS ONE (あるいはその競合であるScientific Reports)に論文を投稿すべきではないとは言えません. なぜなら, 電子情報通信学会などの国内主要学会の論文誌だって, PLOS ONEと大差ない額の掲載料を取ります. 論文の採択率はPLOS ONEの方が若干緩いかなという感じでしょう. 一方でImpact Factorなどを比べると, 読者へのリーチはPLOS ONEの方が圧倒的に高いです. つまり, 国内学会の英文論文誌に投稿するくらいなら, PLOS ONEやScientific Reportsに投稿した方がはるかに多くの読者の目に触れます. 本稿で取り上げた論文のようにニュースサイトの目に留まって紹介されたりすれば, 宣伝としては大成功ではないでしょうか. もう一つ言うなら, 国内学会の論文誌の未来は非常に暗いです. いずれその役割を終えて消滅するでしょう.

0 件のコメント:
コメントを投稿