創造性の意味を変えた 「生成AI革命」は どこに向かうのか?

オープンAI(OpenAI)が、何かを掴んだのは明らかだった。2021年末、サンフランシスコにあるオープンAIのオフィスで、小さな研究者チームがあるアイデアで遊んでいた。彼らは、オープンAIのテキストから画像を生成するモデル「DALL-E(ダリー)」の新バージョンを構築していた。それは、ゴッホが描いた狐や、ピザでできたコーギー犬といった、短い記述による説明を画像に変換する人工知能(AI)だ。研究者チームは、これをどう使うかを考えなければならなかった。

オープンAIの共同設立者であるサム・アルトマン最高経営責任者(CEO)は、MITテクノロジーレビューの取材に、「ほとんどの場合、何かを作ったら、それをしばらく使ってみなければなりません」と話している。「私たちは、それが何なのか、何に使えるのかを見つけ出そうとします」。

だが、この時は違った。モデルをいじくり回すうちに、関係者全員がこれは特別なものだと気づいたのだ。「これだ、このモデルこそが製品なのだと、はっきりと分かったのです」とアルトマンCEOは言う。「議論はありませんでした。会議さえ、一回もしませんでした」。

しかし、アルトマンCEOも、DALL-Eのチームも、この製品がどれほど大きな反響を呼ぶかは予想できなかった。「このモデルは、一般の人々が熱狂した最初のAIテクノロジーなのです」とアルトマンCEOは言う。

DALL-E 2は、2022年4月に一般向けの提供が始まった。5月、グーグルはImagen(イメージェン)とParti(パルティ)という独自のテキストから画像を生成するモデルを発表した(リリースはしなかった)。その後、アーティスト向けの同様のモデル「ミッドジャーニー(Midjourney)」が登場した(提供元は同名の企業)。8月には英国を拠点とするスタートアップ、スタビリティAI(Stability.AI)が、オープンソースのモデル「ステーブル・ディフュージョン(Stable Diffusion)」を無料で公開した。

こうしたモデルの始まりは、大成功だった。オープンAIは、わずか2カ月半で100万人のユーザーを獲得した。ステーブル・ディフュージョンは、その半分以下の期間で、有料サービスのドリーム・スタジオ(Dream Studio)を通して100万人以上に使われ始めた。さらに多くの人が、サードパーティのアプリを通じてステーブル・ディフュージョンを利用し、自分のコンピューターに無料版をインストールした(スタビリティAIのエマッド・モスターク創業者は、10億人のユーザーを目指していると語っている)。

そして10月には第2ラウンドがやってきた。グーグルやメタなどが、テキストから映像を生成するモデルを相次いで発表したのだ。これらのモデルは、静止画を生成するだけでなく、短いビデオ・クリップ、アニメーション、3D画像を創造できる。

開発スピードには目を見張るものがある。わずか数カ月の間に、生成AIテクノロジーは新聞の見出しや雑誌の表紙を次々と飾り、ソーシャルメディアはミームで溢れた。大げさな宣伝はさらに加熱し、ついには激しい反発をも引き起こしている。

「このテクノロジーの衝撃と畏怖は驚くべきものです。楽しいことであり、新しいテクノロジーのあるべき姿です」。キングス・カレッジ・ロンドンでコンピューターによる創造性(computational creativity)を研究しているマイク・クック上級講師は言う。「しかし、あまりにも進歩は速く、そのアイデアに馴染む前に、最初の印象が過去のものになってしまいます。社会として消化するのには、しばらく時間がかかると思います」。

アーティストたちは、短期間で最大の激変に巻き込まれた。ある者は仕事を失い、ある者は新たな機会を見つけた。自らの代わりになるモデルを訓練するために作品が不正に利用されたと訴え,法廷闘争に突入した人もいる。

カリフォルニアを拠点とするデジタル・アーティストで、ドリームワークスなどの視覚効果スタジオでの勤務経験があるドン・アレン・スティーブンソン3世は、クリエイターたちは油断していたのだと話す。「私のような技術的な訓練を受けた人間にとって、これはとても恐ろしいことです。『何てことだ。全部、私の仕事をやっているじゃないか』と。DALL-Eを使い始めて最初の1カ月は、自分の存在意義に危機感を持ちました」。

まだ衝撃から立ち直れない人もいる一方で、スティーブンソンをはじめとする多くの人が、これらのツールを使って仕事をし、次に何が起こるかを予測しようとしている。

実際のところ、今後どうなるのかは、私たちにはまったく分からない。エンターテインメント・メディアからファッション、建築、マーケティングなど、クリエイティブ業界が最初にその影響を受けるだろうが、この技術はすべての人に創造性に対する偉大な力を与えてくれるのだ。長期的には、新薬から衣服や建物に至るまで、ほとんどあらゆるものを生成するために使われる可能性がある。

「生成(ジェネレーティブ)革命」が始まったのだ。

魔法のような革命

ビデオゲームやテレビ番組で活躍するデジタル・クリエイター、チャド・ネルソンにとって、テキストから画像を生成するモデルは、一生に一度と言ってもいいほどのブレークスルーだ。「この技術によって、頭の中で閃いてから最初のスケッチを描くまでに、ほんの数秒しかかからなくなりました」とチャド・ネルソンは言う。「創造と探求のスピードは、私がこの30年間に経験したことのない革命的なものです」。

生成AIのデビューから数週間のうちに、雑誌のイラストやマーケティング資料のレイアウトから、ビデオゲームの背景作成、映画のコンセプトに至るまで、あらゆるもののプロトタイプ作りやアイデア出しにこれらのツールが使われるようになった。ファン・アート(元の作品のファンが描く二次創作)や、マンガ本まるまる一冊までも作られ、ネット上には膨大な数の作品が共有された。アルトマンCEOはDALL-E を使ってスニーカーをデザインし、それをツイートすると、誰かがそのスニーカーを実際に作ってくれた。

ロンドン大学クイーン・メアリー校のコンピューター科学者で、タトゥー・アーティストでもあるエイミー・スミス(博士課程学生)は、DALL-Eをタトゥーのデザインに使っている。「顧客と一緒に座って、一緒にデザインできます。私たちは、メディアを生成する革命の中にいるのです」。

カリフォルニアを拠点に活動するデジタル・ビデオ・アーティストのポール・トリロは、このテクノロジーによって、視覚効果のアイデアをより簡単かつ迅速に練り上げられるようになると考えている。「人々は、映像効果作成アーティストの死、ファッション・デザイナーの死と言っています。私は、そういった何かの死だとは考えていません。深夜や週末に働く必要がなくなることだと考えています」。

写真素材を取り扱う企業の立場は、アーティストとは異なる。ゲッティは、AIが生成した画像を禁止した。シャッターストックは、DALL-EをWebサイトに埋め込む契約をオープンAIと結び、モデルの訓練に作品が使われたアーティストが報酬を得られるようにする基金を立ち上げるという。

デジタル・アーティストのスティーヴンソンは、キャラクターや背景のデザインなど、アニメーション・スタジオが映画を制作する際のあらゆる工程でDALL-Eを試したと話す。DALL-Eを使うことで、複数の部門の仕事を数分でこなすことができた。「これまでお金がかかりすぎたり、技術的な理由で創造できなかった人た …

Generative AI is changing everything. But what's left when the hype is gone?