2023年8月16日水曜日

AIと人間は区別できません

前期の講義やゼミに追われていたら, もう夏休み. 企業研究者から大学教員に転身してもうすぐ3年になりますが, なぜかいまだに学期中は毎週が自転車操業. 最初の1年を回せば2年目以降は楽になるはず…と思ったのは甘い見通しでした. (苦笑)

青空と緑のコントラストが映える, 夏真っ盛りの金沢八景キャンパスのイチョウ並木. 今から3か月もすれば, 昨年のようにまた美しく色づくはず.

さて, 昨年11月のChatGPTの登場以降, 業界では激震が続いています. 専門家が集まる学会も例外ではなく, ことあるごとに緊急討論が企画されて様々な議論がなされています.

企業はこの波に乗り遅れまいとChatGPTの自社導入を積極的に進めているし, 何より, 一般紙やテレビが連日のようにChatGPTの話題を取り上げているのがすごいです. この分野の研究者にとっては初めての経験ではないでしょうか.

驚きのニュース

で, 本題ですが, 先日の一般紙1面トップに載ったこの記事はさすがにびっくりです.

人間、それともチャットGPT? 「文章の指紋」で判別可能に 目白大准教授が発表 (8月11日付 産経新聞)

主著者の財津亘先生は犯罪心理学がご専門で, 元は富山県警科学捜査研究所(科捜研)の主任研究官. 脅迫や誹謗中傷などの文章を書いた人物を特定する鑑定業務に従事されたそうです. なるほど, そういう非機械学習方面からのアプローチは確かにありですね.

発表された論文がこちら. "stylometric"は聞き慣れない言葉ですが, 日本語では計量文献学といって, まさに犯罪捜査における鑑定に応用できる学問分野です.

Zaitsu W, Jin M (2023) Distinguishing ChatGPT(-3.5, -4)-generated and human-written papers through Japanese stylometric analysis. PLOS ONE 18(8): e0288453.

何がびっくりなのか? 簡単に言えば, 「このような実験からよくその結論(人間とChatGPTは区別可能)が出せましたね」.

どんな実験をしたのか

ざっくり説明するとこんな感じです.

  1. テキストデータを収集
    • 心理学分野の和文論文誌3誌から72本の論文を選択 (各1000字程度)
    • 各論文のタイトルをGPT-3に与えて似た内容の論文72本を生成 (同)
    • GPT-4でも同様に論文72本を生成 (同)
  2. 各論文から計量文献学に基づく4種類の特徴を計算して, 原論文(人間)とGPT-3, GPT-4を比較. 例えば隣接する2語の品詞の組合せ(品詞bigram, 955種)の出現頻度を数えて2次元で可視化すると, 下図のように人間とGPT-3, GPT-4の間に差異が認められた.


    多次元尺度法による可視化結果 (論文Fig. 1を転載)

  3. 前出の特徴に機械学習の手法(Random Forest)を適用したところ, 人間とChatGPT (GPT-3, GPT-4)を正確に分類できた. 例えば前述の品詞bigram (1論文を955次元ベクトルで表現)を用いた場合, 90.3%を正しく分類できた.

どうでしょう? 「分類精度90.3%なら, 人間とChatGPTはある程度は区別できるってことじゃないの?」と思った人も多いかもしれません. しかし…

何が問題か

この実験はそもそも高い精度が出るように設計されており, 申し訳ないですが突っ込みどころ満載です.

(1) 二択問題である
人間 or ChatGPTの二択なので, ランダムに答えても50%は正解です. 今回の場合, 人間の論文が72本, ChatGPTの論文が144本(72×2)なので, 論文の中身を見ずに常に"ChatGPT"と答えておけば66.6%は当たります. 分類精度90.3%はそれほど高くありません.

(2) 原論文がすべて心理学分野
トピックを限定すれば, 72本の原論文はある程度コンパクトな範囲に分布します. 外れ値のようなのがいないので, 分類問題としては容易になります.

(3) ChatGPTに与えるプロンプトが一定
「○○というタイトルの論文を書いてください」という画一的な指示で論文を書かせると, 生成された論文は同様に画一的になるので, これも分類問題としては容易になります.

(4) 短い文章がない
各論文が1,000字程度になるようにデータを整形しているのも重要なポイントです. この種の問題では短い文章の判断が本質的に難しいので, これによってさらに問題が容易になります.

(5) その他
正味のデータが論文72本分で規模が小さいのも, 実験の信頼性の観点でマイナス. 参考文献として引用されている arXiv:2301.07597arXiv:2304.11567などは英語や中国語で同様の実験を行った類似研究ですが, それぞれプロンプト4万件と医療文書2,200件で, はるかに大規模です. 論文を書くならこれくらいの時間とコストをかけるのがふつうなのでは….

こんな具合なので, 実験はかなりコントロールされた条件下で行われたと言えます. これくらいコントロールされた小規模実験で, 品詞や句読点の出現頻度のような単純な特徴で「AIと人間は区別できる」と言われても, まあそういう実験をすればそうなるんじゃないですかという感じで, 驚きはありません. 

現実世界でChatGPTはどう使われているかというと, ご存知の通り世界中の人々が様々なトピックについて, 工夫を凝らした様々なプロンプトで文章を生成しています. また, 生成された文章を人間が編集した上で使う「AIと人間の合作」も広く行われています. 最近の研究では, 生成された文章に言い換え(rephrasing)を施すことによってAIと人間は区別できなくなることを米メリーランド大学の研究チームがかなり強力に証明しました. 

現実の問題は極めて複雑であり, コントロールされた実験室実験とは違います. そもそもChatGPTの開発者であるOpenAI社が, ChatGPTと人間を区別するAI classifierを今年1月にリリースしましたが, 半年もたたず, 精度が低いことを理由にAI classifierの提供を止めています.

もう一つの驚き

実は, 論文の中身以上にびっくりしたことがあります. 本論文の参考文献には20の文献が記載されていますが, そのうちの4つは日本語でした. こんな感じ:

tekisuto mainingu …見慣れない英単語が続くなと思ったら, ローマ字表記の日本語だと気づいて, 「えーっ!?」です. 国際誌でこんなの許されるの? これでは査読ができないはずですが, 査読者はどうやって論文のクオリティを評価したのでしょうか?

本論文の掲載誌, PLOS ONEについては以前の記事でも少し書きましたが, 掲載される論文の中には品質の疑わしいものが少なくありません. 一方で, 全世界に広がる読者人口はそれなりに多く, 必然的に論文の被引用件数も高くなるので, 研究成果を世に広める手段としては有効なのだろうと思います. 少なくとも, 国内学会の論文誌に投稿するよりははるかに.

追記: 世間にほとんど知られていない当ブログで他人様の研究をディスるのは, 陰口を叩いているようで少々申し訳ないです. マスコミが素人と同レベルでは困るのでもう少しリテラシーを高めるべきではないか…というのがこの記事を書こうと思った動機です.

0 件のコメント:

コメントを投稿

家系ラーメン王道 @杉田