ゴールデンウィーク. 暑くも寒くもない, 実に快適な一週間がまるまる休みであることは, 神様が日本人に与えた最大のギフトでしょう. もっとも, 公立大学の仕事は基本的に暦通りで, 私が以前いた民間企業のように全社的に9連休になったりはしないのですが.
さて今回の話題は, data-centric AI, 日本語で言うと「データ中心のAI」.

若くして計算機科学者の世界ランキング61位, Google Brain創設はじめ輝かしい経歴を有する機械学習界のスーパースター, Andrew Ngが提唱するこの言葉は, 機械学習(あるいはAI)技術が進むべき方向をクリアに示しています.
参考記事:
対義語はmodel-centric
機械学習の世界は長年, モデル中心でした. 「モデル中心のAI」では, 例えば画像認識では畳み込みニューラルネットワーク(CNN)モデルが優れているとか, いやいや画像でも何でもTransformerモデル最強! とか, そういうことを議論します. 新しいモデルとその学習アルゴリズムを考案することに研究者たちは力を注いできました.
一方で昨今明らかなのは, 大量のデータと大きなモデルを用意すれば, モデルの細部の違いなど関係なく優れた予測ができるということ. その道のプロである研究者が知恵を絞って新しいモデルを考えるより, データをせっせと集める方が楽で, 誰でもできて, 何なら予測精度も高い.
この流れで出てきたのが「データ中心のAI」. AIシステムはデータとコード(プログラム, つまりモデルとアルゴリズム)でできているのだから, コード偏重の技術開発は間違っていて, もっとデータの量や質を高める努力をすべきであると.
新しい概念ではない
「データが大事」という事実は, 業界ではだいぶ前から周知でした. グーグル音声検索(Google Voice Search; GVS)がローンチされた2008年以降, 多くの研究者はそのことに気づき始めたと思います. まだ深層学習が登場していない10数年前のこと. 当時, 音声認識は役に立たない技術の代表みたいな立ち位置にいましたが, 誰にも真似できないレベルで大量の音声データを集めると, 標準的な技術でも音声認識がネット検索でちゃんと使えることをGVSは証明しました. さらに言えば, 世界中からデータが自然に集まる仕組みであるグーグル検索は世紀の大発明でした.
グーグルの音声認識技術--進歩の歴史と新たな挑戦 - CNET Japan (2010年の記事)
それから長い年月が過ぎ, 深層学習も登場して, さて現状はどうなっているかというと, 実は意外と変化はなく, 研究の最前線は今でもモデル中心です. そりゃそうです. 研究者の腕の見せ所はモデルでありアルゴリズムなので. 「ただデータを集めたら課題が解決できました」では研究論文が書けません😕
しかしながら, AIシステムの力の源がいよいよモデルからデータに移っていることは, 昨今の巨大言語モデルの研究成果を見ても明らかです. 研究者が長い年月(と高い人件費)をかけて地道にモデルを改良するよりも, データを集める仕組みを考える方がたぶん得策かもしれないのです. 研究者の役割も, そのような仕組みを考える方向にシフトすべきというのが, data-centric AIの意味するところです. Andrewは正しい.
まあそうは言っても, ある一つのテーマについて昼も夜もひたすら考え続けてその道を極めたのが研究者なのであって, 「明日から頭を切り替えなさい」と言ってできるような簡単な人たちではないのですけどね. 将棋の藤井聡太竜王に明日から囲碁をやりなさいというようなものです😂 (たぶんやればできるし, 囲碁も相当強いだろうけれど…)
データ中心のAI研究とは
「データ中心のAI」における主要な研究テーマを3つ挙げます.
一見へんてこな方法でも試してみたら案外効果があり, 深層学習の登場以降, 画像, 音声, テキストなどのデータを拡張する種々のアイディアが考案されています. 大半は理論的な裏付けのない思いつきで, それでも実験結果がよければ許されるのが深層学習時代の研究…なのかなと.
ガートナー社の調査によると, 2024年にはAIモデルの訓練データの6割が人工的に作られているのだとか. ご存知のようにガートナー社の予想はしばしば外れますが, 会社の偉い人は, 自分の部下の言うことは信じないのにこういう調査会社(実態は素人と変わりないと思う)のレポートは盲目的に信じるので, 会社の偉い人を納得させるためにこの種のレポートは有用です😛

もっともSVMのサポートベクトルは, サポートベクトルに選ばれなかったその他大勢のサンプルとの位置関係によって選ばれるので, その他大勢がいなくなるとサポートベクトルもサポートベクトルにはなり得ないのですけどね. いずれにせよ, グーグルをはじめとする巨人企業によって深層学習モデルの巨大化が進む近年, 小規模(だが良質)なデータから低コストでモデルを作ろうという研究は注目されています.
最後に
この業界に10年以上いる方はグーグルの猫を覚えているでしょう. AIブームの初期の頃の有名な研究成果で, Angrew Ngはこの研究プロジェクトに関与した一人です. YouTubeから収集した大量の画像を深層ニューラルネットワークに提示して再構成させる訓練を行ったところ, ネットワーク内に猫の画像に強く反応するニューロンが形成され, さらにそのニューロンがもっとも強く反応するように入力画像を最適化した結果, 以下のようなぼんやりとした猫の画像が得られました. 猫の他に, 人の顔や上半身に強く反応するニューロンの存在も確認されました(詳しくは論文参照).
今思えば, グーグルの猫は「データ中心のAI」でした. ニューラルネットワークの学習が終わってからはそのモデルは一切いじらず, モデルから所望の結果が得られるようにデータ(画像)をいじりました. その結果, あのぼんやりとした猫の画像が得られたわけです.
Andrew Ngが提唱するdata-centric AIは, AIの産業応用に重点を置いた工学的なアプローチと見られがちですが, その根幹には, グーグルの猫のように, どのようなデータを与えればモデルが期待通りに振舞うのかを丹念に調べる基礎研究の下支えがあるべきかなと思います.
最後までお読みいただきありがとうございました.

.png)


0 件のコメント:
コメントを投稿