2024年3月28日木曜日

OpenAI Soraは実際すごいのか?

旅立ちの季節, 本学では今年も3月25日に卒業式が行われ, 学部・大学院の卒業生に学位記が授与されました. いや~, 毎年のことながら本当にめでたい!!

八景キャンパスの体育館で行われる卒業式. 学生による混声合唱や管弦楽の生演奏も素晴らしい.

以前にも書いたかもしれませんが本学八景キャンパスは女子率が高く(6割くらいが女子), 卒業式で見られる色とりどりの袴姿は実にかわいらしく, 大変華やかでおめでたい雰囲気です.

正門で記念写真を撮る卒業生と保護者の皆さん, 誠におめでとうございます🎉 

当研究室も学部5人, 修士2人がそれぞれ学業を修めて卒業していきました. 卒論&修論, 辛かったけど(先生も辛かったけどw)皆よく頑張ってくれた. ちなみに今年は2018年のデータサイエンス学部設置から6年で, 学部1期生が修士2年まで到達して初めて生え抜きの大学院修了生が出た記念すべき年でもありました.

さて, 先月の発表から1か月以上が過ぎましたが, 動画生成(text-to-video)技術SoraによってOpenAIはまたもや世間を驚かせました. 

「スタイリッシュな女性が, 暖かく輝くネオンとアニメーションの街の看板で満たされた東京の通りを歩いています…」. 秋葉原? 新宿? 界隈の雰囲気が確かに出ている. (openai.comより)

上の代表作"A stylish woman walks down a Tokyo street"を見る限り, 最長1分という驚異的な長尺コンテンツを実にリアルに, 特に破綻なく生成できています. OpenAIのサイト, openai.com/sora にはリアルなものから空想的なものまであらゆるジャンルの動画が掲示され, 圧倒的です.

サングラスに映る街の風景までリアル.

Googleもすごいのに…

2月中旬のSoraの発表の少し前, 1月下旬にGoogleも動画生成技術Lumiereを発表しました. これだってものすごくリアルで, かなりびっくりです. 動画のスタイル変換(video stylization)なんかもとても面白いです.

グーグル、超リアルな動画生成AI「Lumiere」を発表--画像の一部を動画化する機能など - CNET Japan

Lumiereの数々の能力をまとめたYouTube動画. クールで印象的なプレゼンテーション.

ただし, Lumiereが生成する動画の尺は5秒程度. 長尺のコンテンツを一貫性を保ちつつ生成するには高度な技術が必要です. これは動画生成や音声生成の分野では公知の事柄なので, OpenAIがあっさりと60秒の動画を生成してみせると, 「やっぱOpenAIすげー」となります. GoogleはまたしてもOpenAI (+Microsoft)にマウントを取られたわけです. 

急速すぎる進歩

動画生成の始まりは2年前, 2022年9月にMeta AIが発表したMake-a-Videoだったように思います.

2022年にMeta AIが発表した初期の動画生成技術, Make-a-Video: スーパーヒーローのマントを着て空を飛ぶ犬 / A dog wearing a superhero cape flying through the sky

2021年12月, 拡散モデル(diffusion model)によって素晴らしく高品質な画像生成ができることがOpenAIから報告され, 2022年4月にはそのプロダクトに相当するDall-E 2が登場. だったら2次元の画像を時間方向に並べた系列である動画も同じ要領で作れるよねという話で, Make-a-Videのような動画生成技術が出てくるのは自然な流れでした.

ただ当時の技術は, 上の空飛ぶ犬のように「面白いけど完成度はそれなり」でした. それから1年ちょっとの間に, LumiereやSoraのように本物かと思うような動画が生成できる水準に到達してしまうのが, AI分野の現状を象徴的に表していますね.

動画生成技術

動画は2次元の画像を時間方向に並べた3次元データなので, ざっくり言えば2次元の画像生成を3次元に拡張すれば動画生成になります. Lumiereは, 画像生成の拡散モデルで標準的なU-Netアーキテクチャを時間方向に拡張した時空間U-Net (STUNet)アーキテクチャを提案しました. 畳み込みニューラルネット(CNN)でおなじみの畳み込み機構をベースとするアーキテクチャです. 一般に拡散モデルは, データに含まれるノイズを軽減(デノイズ)する能力をもつので, ランダムなノイズでできた動画をモデルに入力して, 出力された動画をまたモデルに入力して…を数100回くり返すと, クリアで意味のある動画が生成されるという仕組みです. Lumiereではこのような3次元拡散モデルを5秒(80フレーム)のビデオクリップ3000万件でトレーニングしたと論文では述べられています.

Lumiereの拡散モデル. 画像の2次元と時間の1次元でそれぞれ畳み込みを行う時空間U-Net (STUNet)アーキテクチャを採用. (arXiv:2401.12945より)

一方Soraは, 技術情報を開示していないので中身の詳細が不明ですが, 大枠はLumiereと同じと思われます. 一点違うのは, 畳み込み(convolution)に基づくU-Netアーキテクチャを廃して, 注意(attention)に基づく拡散トランスフォーマ(Diffusion Transformer; DiT)なるアーキテクチャを採用している点です.   

Soraは動画の各フレームをさいの目にカットして一列に並べて, テキストのトークン列のように扱う. Vision Transformer (ViT)と同じノリ. (openai.comより)

DiTはU-Netに比べてスケーラビリティが高い, つまりトレーニングデータを増やしてモデルを大きくすれば性能が順調に向上することがDiTのオリジナル論文(ICCV2023)で報告されています. 画像認識で起こったこと(畳み込み→注意)が動画生成でも起こっている? そういえば画像生成のStable Diffusionも, 先月リリースされたSD3でDiTを採用しました. まさに注意こそすべて(All You Need)です.

SoraはAGI?

Soraの動画生成能力があまりにも素晴らしく, 実世界の様々な現象を動画で再現できるので, 「Soraは優れた物理シミュレータだ」, 「Soraは世界モデルを獲得した」などと言う人もいます. 世界モデル(world model)とは, 物理法則に代表されるような, 私たちの世界に関する直感的な常識(例えば, 物を落としたら壊れる, 人が物陰に隠れたらその人は消えるわけではなくそこにいる等)で, コンピュータに世界モデルを理解させることは汎用AI (AGI)の実現に向けた重要なステップです.

実際, 冒頭で触れた「東京の通りを歩く女性」の動画では, 一度フレームの外に出た人々がまたフレーム内に戻ってくる(別人にすり替わったりしていない)ように見えるシーンがあり, 「おっ」と思わせられます. また, 上のツイートが引用する「コーヒーカップの中で戦う2隻の海賊船」では, 海原の波の動きをリアルに再現しています. コーヒーカップの中という非現実的な設定にも関わらず, 実にそれっぽい. 

ただ, よく見ると多くの動画に明らかにおかしい点が見つかります. 例えば上述の「海賊船」. カメラがズームして「カップのふち」がフレームの外に出た後, 驚くべきことにコーヒーの中から新たな「カップのふち」が出現します. 現実世界では起こり得ないことが起こっています.

よく見ると明らかな欠陥がある:コーヒーカップの中で戦う2隻の海賊船 / Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee (openai.comより)

もう一つ, サム・アルトマンCEOがフォロワーのリクエストに応じて生成した「おばあさんインフルエンサーのクッキング」. タネも仕掛けもなさそうな手からスプーンが現れたり, そのスプーンが消えたり, マジシャン顔負けです.

このようなSoraの欠陥事例は数多く指摘されています.

人間の脳は騙されやすい

人間の情報処理能力には限りがあります. 人間が何かを見るとき, すべてに注意を払うことはできない(処理速度が現実世界のスピードに追いつかない)ので限られた範囲を注視します. また, この世界について自分が知っている知識(前出の世界モデル)を動員して理解しようとします. そんな知識は同時に先入観でもあるので, 見たものの理解を誤ることはよくあります. 錯視はその極端なケースですが, 現実でも, 犯罪の目撃者の証言が意外と当てにならないことが知られています.

有名な錯視の一つ, チェッカーシャドウ (illusion-forum.ilab.ntt.co.jpより)

ぱっと見では非常によくできているSoraの映像世界にも, 私たちの世界の常識に反する出来事が実はたくさん起こっています.

ハルシネーション

ChatGPTに代表される大規模言語モデル(LLM)が大量のテキストデータを学習して言語を理解する能力(本当に理解しているかどうかは別として理解できているようには見える)を獲得したように, 膨大な量の動画データをSoraのような動画生成のモデルに学習させると, 私たちの現実世界を視覚的に理解する高度なAIが作れるでしょう. OpenAIもそのような野望をもってSoraを開発しているはずです. 反面, LLMが明らかに誤った受け答えをするハルシネーション(幻覚)は, 動画生成モデルでも当然問題になると考えられます. それが見える形で発現したのが, 前出のコーヒーカップのふちのようなあり得ない現象です. LLMのハルシネーションを抑制する方法は目下世界中で研究されていますが, 動画生成でも同様の研究が今後重要になるでしょう. もちろん, 本物と見分けがつかなくなりつつあるディープフェイクの悪用を防ぐ研究も.

今回も長くなりましたが💦 最後までお読みいただきありがとうございました.

0 件のコメント:

コメントを投稿

家系ラーメン王道 @杉田