2021年8月21日土曜日

万物は共通の文法で記述されている…かもしれない

UCB, Facebook AI, Google Brainから今年の春に発表された論文. 

Pretrained Transformers as Universal Computation Engines (事前学習されたTransformerは万能計算エンジン)

あらまし

大量のテキストデータで事前学習されたTransformer言語モデルは各種の自然言語処理タスク(質問応答, 要約, 読解など)で有効性が確認されている. そんな言語モデルの一つ, GPT-2の中身はほぼそのままに, 入力層と出力層だけ付け替えて, 画像認識, 論理演算, タンパク質分類など, 言語とはまったく異なるタスクをこなすように訓練した(Frozen Pretrained Transformer; FPT).

"Multi-Head Attention"と"Feed Forward"を固定して残りの"Positional Embeedings", "Imput Embeddings", "Output Layer", "Add & Layer Norm"を更新.  更新されるパラメタはモデル全体の0.1%未満.

結果, 驚くべきことに, 最初からそれらのタスク専用として訓練されたモデルと同等, ときにはそれを上回る性能を示した.

例えば画像物体認識のタスク(CIFAR-10)では, 画像データ(ImageNet)でみっちり訓練された専用モデル(Vision Transformer; ViT)の認識精度70%に対して, FPTは72%. 乱数で初期化したモデルでは62%まで落ちることから, 事前学習を通して獲得したテキストの情報が画像認識能力に寄与していることは間違いない.

コメント

にわかには信じ難いですが, テキストと画像のようにまったく異なるモダリティの間に何らか共通するデータ構造(いわば文法)があることを示唆する興味深い結果. 事前学習に使うテキストデータが膨大であることが重要な前提条件という気がします.  昨年登場したGPT-3の驚異的な能力や, 学習理論方面で昨今話題になっている二重降下現象(double descent)など, データ量無限大の極限には私たちがまだ見ぬ世界があるのかもしれません.

この論文の結果が正しいとすると, 当然の帰結として, 英語で学習した言語モデルをそのまま日本語にも適用できることになります(英語⇔日本語はテキスト⇔画像よりもはるかに近いはずなので).  実際のところどうなのか? …気になります.

0 件のコメント:

コメントを投稿