大学の長い夏休みもあっという間に終わり, 学生も教員も気分はブルーです(笑) 夏休み中, 大学教員は研究に専念できるかというとそうでもなくて, 前期の成績評価, 大学院入試, 学位審査, その他いろいろな学内業務があります. まあ給料もらってるんだから仕事するのは当たり前ですけどね😌 この夏は私に代わって4年生たちが卒業研究をコツコツと進めてくれました.
物議を醸した論文
本日の話題. 少し前に掲示板redditのMachine Learningコミュニティにこういう投稿があり, 論争を呼んだようです.
槍玉に挙がったのは, 1つのモデルで機械学習の様々なタスクを段階的に学習する継続学習(continual learning)と呼ばれる技術に関するGoogleの論文. 投稿をざっくり要約すると,
- CIFAR-10 (画像分類の基本的なタスクの一つ)のSOTAを99.40%から99.43%に更新. たった0.03ポイント
- そんな0.03ポイントのために高価なTPUを17,810コア時間も使用. 一般人のTPU利用料を$3.22/hとすると$57,348 …4人家族が5年暮らせる金額!
- 論文に書いてあることはおそらく正しいし信用できるだろうが, こんな大規模な実験, ふつうの研究者には再現も検証もできない
- OpenAIは最悪だがこいつも似たようなもんだ. 機械学習コミュニティはこんなんでいいのか!?
最後のOpenAIが最悪というのは, 投稿者(以下OP)の論理では確かにその通りです. 有名な言語モデルGPT-3はトレーニングに10億円以上を費やしたという予想もあるくらいで, 桁違いです.
Google's new model is more than 9x the size of OpenAI's GPT-3, which, by various estimates, took between $4.6 and $12 million to train. You can extrapolate from there what that means for Google's—how much money it cost, and its carbon footprint.
— Karen Hao 郝珂灵 (@_KarenHao) January 13, 2021
Reading the OpenAI GPT-3 paper. Impressive performance on many few-shot language tasks. The cost to train this 175 billion parameter language model appears to be staggering: Nearly $12 million dollars in compute based on public cloud GPU/TPU cost models (200x the price of GPT-2) pic.twitter.com/5ztr4cMm3L
— Elliot Turner (@eturner303) May 29, 2020
どんな論文?
話をGoogleに戻して, 物議を醸した論文がこちら.
An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale Multitask Learning Systems
ニューラルネットワークの構造(深さ, 幅, 各層のタイプなど)をタスクに応じて自動最適化するNeural Architecture Search (NAS)というジャンルがあって, 近年様々な研究がなされているわけですが, ざっくりいえば, NASを複数タスクの継続学習でやりましたというのがこの論文. もっと古い言葉で言い換えれば, 遺伝的アルゴリズム(genetic algorithm)あるいは進化計算(evolutionary computing)の考え方で, いろんなモデルを作ってみてタスクに合った良いモデルを探すという話. OPはあえて後者の古い言い方を使っています.
論文筆者らが公開する動画を見ると理解しやすい. 3つのタスクを順番に学習する継続学習で, 最初は青のタスクでモデル構造を最適化. 次に緑のタスク, 最後に赤のタスク. 新しいタスクに出会うたびに, モデルの一部をコピーしてネットワーク構造を拡張する”layer cloning”が行われます.
上述の3タスクの例は, 実は予備実験. この前座だけでも相当ヘビーな計算が想像されますが, 本実験ではCIFAR-10を含む69種類の画像分類タスクを順次学習. それはそれは壮大なスケールで, 17,810 TPUコア時間はさもありなん. その継続学習の様子が, 同じく筆者らが公開したこちらの動画. もはや先端技術というより幾何学模様のアート作品でしょうか😝
Jeff Dean降臨
RedditでのOPの主張に対して, 論文の著者の一人, あのJeff Deanが登場して反論します. 説明の必要はないでしょうが, Googleの卓越した研究者であり, 現在の同社研究開発部門のトップ. Google独自のビッグデータ処理基盤でありその後のプログラミングシステムの標準となったMapReduceの開発者としても知られる, 生ける伝説のような人物です. これはOPも予想していなかったようで, "Oh holy shit it's Jeff Dean"と驚きつつ, 果敢に自身の主張を展開します. 必見😂
Jeffの反論は大きく2点:
- CIFAR-10でSOTAを達成することがこの研究のゴールではない. マルチタスクの問題設定においてみられる破滅的忘却のような重要な課題を克服し, 単一モデルで多数のタスクの学習に成功したことは重要な貢献である. 過去に学習したタスクの知見を活かして, 少しのパラメタの追加で新しいタスクを効率的に学習できることも示した.
- $3.22/hで総額$57,348というOPのコスト計算は過大評価だ. 急いで結果を出す必要がない場合の単価はもっと安く, さらにTPUv4に安価なTPUv3を組み合わせるなどすればコストは下げられる. $13,960程度で実行できる計算だ.
どうでしょう? 1はその通りですが, 2はGoogleの人々の金銭感覚を物語っているような気もしますね. どう低く見積もっても200万円はかかるということであり, 大多数のふつうの研究者には手を出せない領域かと….
厳しい現実
機械学習分野では, 深層学習の登場以降, アルゴリズムやモデルの工夫に加えて, 大規模なデータと, それを処理する計算リソースの確保が重要です. 計算リソースについては, 汎用GPU搭載の高額なコンピュータ(and/or クラウドサービス)をある程度確保しないと, トップカンファレンスに採択される優れた研究はなかなかできないというのが実情です. 資金力のある米国企業の存在感が高まるのも当然です. 近年相次いで発表されている大規模な言語モデル(いわゆるfoundation model)はすべて, Google, OpenAI, DeepMind, Microsoft, Metaといった企業から出ています.
これらの企業の資金力は絶大です. 例えば今年5月のニュース
日本のNECが研究開発のために大規模なスーパーコンピュータを導入するとのこと. その規模はどれくらいかというと, NVIDIA A100 (最新鋭の汎用GPU)を8基搭載したサーバが116台ということなので, GPUが全部で928基ということでしょうか. さすが我が国を代表するIT企業の一つ, 先頭を走っています.
しかし, 現実は厳しい. 今年1月にMetaが発表した同社の研究用スーパーコンピュータ, AI Research SuperCluster (RSC)はA100 GPUが6,080基! 国内最大を謳うNECも, MetaやGoogleのような巨人企業たちと比べると大人と子供くらいの隔たりがあるわけです. もっとも, 彼らとNECは事業ドメインがまったく異なる, つまり競合関係にないので, NECが巨人に勝つ必要は必ずしもないのですが. いずれにせよ, GPUのみならずあらゆるリソース(ヒト・モノ・カネ)が一握りのグローバル企業に集中しているのは事実です.
業界の現状を憂う?
冒頭のredditの投稿で問題提起されたように, 一握りのグローバル企業に支配される現在の機械学習(あるいはAI)コミュニティはいびつであり, 多くのふつうの研究者はその将来を危惧しています. しかしながら以前の記事でも述べたように, 深層学習以降のこの分野は, アルゴリズムやモデルを一所懸命考える「モデル中心」から「データ中心」にパラダイムが移っています. ひたすら「データをかき集めて計算機をぶん回す」ことがもしかすると機械学習の本質かもしれません. もしそうであれば, 今後グローバル企業による寡占はさらに進行するでしょう. それが機械学習の進むべき道です. 本質に逆らってもよいことはありません. 多少の延命はできるでしょうが行き着く先は同じです.
機械学習が「データをかき集めて計算機をぶん回す」に行き着く…そんな未来は, 私も含めてふつうの研究者にとってはもちろん明るくありません. 機械学習が学問の対象ではなくなるということなので. しかしこの10年の深層学習の破壊的ともいえるイノベーションをみていると, もしかしてそうなるのかな…という気持ちは正直あります. もちろん, 汎用人工知能のような当分実現しそうにないテーマもあるので, 学問ではなくなるという極端な話にはなりませんが. 未来がどうなるにせよ, 機械学習の本質を見極めたいと思っています.
最後までお読みいただきありがとうございました.
0 件のコメント:
コメントを投稿