すさまじい勢いで世界を変えている画像生成AI

ASCII.jp / 2022年10月6日 16時0分

　普段メタバースのトレンドを時評的に解説する「メタバース・プレゼンス」を連載していますが、画像生成AIがすごいことになっているので、今回は番外編としてそれをお話させてください。今年8月、画像生成AI「Stable Diffusion」が公開された影響がすさまじい勢いで出てきているんです。いま起きているのはStable Diffusionの派生技術が大量に出てきていること。大きく分けて2つのポイントがあるなと感じています。

Windows向けソフトで誰でも使えるStable Diffusion

　1つのポイントは、Windowsローカル環境で使える、GUI形式の扱いやすいソフトが出てきたことです。

NMKD Stable Diffusion GUI 作者：N00MKRAD OS：Windows 10/11 64bit 推奨環境：最新版NVIDIA GPU（RTXシリーズ推奨）、メモリ16GB以上など https://nmkd.itch.io/t2i-gui

　いま個人的に使ってるのがこのソフト。ありがたいのは、プロンプト周りを含めたローカルの環境構築をすべてやってくれること。これまでStable DiffusionはPythonを使ったり、Google Colabを使ったりと専門知識がない人にはそれなりに技術的なハードルが高かったんですが、そこそこのビデオカードを搭載したゲーミングPCにソフトをインストールすれば、誰でもStable Diffusionが使えるようになります。

　バージョン1.2.0のときは重くて使いものになりませんでしたが、バージョン1.4.0で様々な改善がなされたことで劇的に軽くなり「ヤバい！」という感覚になりました。プロンプトを作成、もしくはコピペして生成量を設定し、「Generate」ボタンを押して、待つだけで画像が生成されます。GPUはNVIDIA GeForce RTX 3070で動かしていますが、10〜30秒単位で画像が次々に生成されていきます。本当に軽くて簡単です。

　もちろんローカル環境なので生成した画像のプロンプト（呪文）はすべて非公開ですし、公開前提のサービスと違ってアダルト画像を出すこともできます（笑）。ただし、これはAI作成者の制限事項としてアダルト画像について「追加の安全機構や考慮なしに製品使用するには適しません」としているので、不用意に公開したりすることはしないようにしてくださいね。

学習パッケージ追加で「アニメ絵」も強化

　もう1つのポイントは、Stable Diffusionの学習パッケージを拡張する流れが出てきたこと。Stable Diffusionの公開された情報を元に、別の画像セットを追加で数十万枚学習させたデータセットを別途ダウンロードして、別データパッケージとして追加できるようになったんですね。

　たとえば、Stable Diffusionは日本のアニメっぽい画像に強いわけではなかったのでグシャッとした画像になりがちでした。そこに8月に発表された「Waifu Diffusion」という学習パッケージを追加することで、いわゆる「アニメ絵」が出せるようになります。

Waifu Diffusion https://huggingface.co/hakurei/waifu-diffusion

　「Waifu Diffusion」は日本のアニメが好きなエンジニアが開発している学習パッケージで、継続的なアップデートが続けられています。いま一般に使われているVersion 1.2では30万枚のイメージ画像が学習データとして使われています。アニメ風の画像を出すにはそれだけでもかなり強力です。現在進められている開発はVersion 1.3なのですが、60万枚から最大200万枚の画像を学習データとしてより高度なものになろうとしています。10月8日に大型アップデートをすることが公式Discordで明らかにされています。

夕陽と黒ドレス#stablediffusion#WaifuDiffusionpic.twitter.com/AaezGyOyWb
— raum (@raum9) October 2, 2022

Middle of the night #WaifuDiffusion#stablediffusionpic.twitter.com/PyTqpcJMM1
— Stuffy (AI Art) (@StuffyAi) October 3, 2022

　見てもらうとわかるかと思いますが、本当にすごいですよね。画像を生成するためのプロンプトはツイッターのALTタグで公開している人が多い印象です。それを元に様々なワードを追加したり、減らしたりすることで自分の好みの絵柄を追求していくことができます。

　ほかにもアニメっぽい顔の描写に強い「TrinArt」などの学習パッケージがあり、それを追加することもできます。

TrinArt https://huggingface.co/naclbit/trinart_stable_diffusion_v2

#trinart 「きれいな絵を出すにはどうしたらいい？」という方のためにいくつかプロンプトのタネをご紹介しますッ！ ALTをご覧ください。これは俗にソシャゲ風といわれるような感じ。 pic.twitter.com/wSWWNPksxT
— Bit192 Labs 【AIのべりすと / Tone Sphere】 (@_bit192) October 5, 2022

　学習パッケージは1つあたり3～7GBくらいあるのですが、それをフォルダーの中に放り込んでいくだけで使えます。ツールによっては複数の学習パッケージを混ぜて使うこともできます。基本のシステムはStable Diffusionなので、どの学習パッケージの影響力をもたせるかという混合が可能なんですね。

image2imageでラフや写真が画像になる

　Stable Diffusionの強みは画像から画像を生成する「image2image」が使えること。たとえば私の近影を使って「巨乳」「美少女」「サイバーパンク」などのプロンプトを入れて処理すると、こんな画像が生成されます。冗談のようですが、それでもメガネや着ている黒い服の影響が残り続けているのがわかると思います。

#stableDifusion#WaifuDiffusion のimg2imgで遊んでいたのですが、絶対巨乳の女性が出てくるプロンプトを公開されている @Muacca 様のデータを試しに自分のプロフィールデータに使ってみました。重みを軽くするに連れて、私がどんどん別人になっていく…ｗ pic.twitter.com/DCkxDFq8qj
— 新清士『メタバースビジネス覇権戦争』発売中 (@kiyoshi_shin) September 29, 2022

　ソフト上でマスクもかけられるので、「flower」などのプロンプトを使って前景に花を配置するといったこともできるようになっています。

　Stable Diffusionと同時期に話題を作った画像生成AI「Midjourney」にも同機能は搭載されているのですが、いま最もきれいな画像を出すにはテスト機能であるプロンプト「--test」の使用が必須です。ところがimage2imageとこのテスト機能は10月5日時点で共用できず、より複雑な画像を追求できません。今後のアップデートスケジュールも明確に示されていない状態です。アート的には優れたものが出ますが、一旦image2imageに慣れると物足りなくなってしまいます。

　一方、画像生成AIにはまだ複雑なポーズが苦手という課題が残っているようです。描きたいポーズを指定してimage2imageで画像にしている人もいますが、やや不自然です。何度も生成していると、腕が何本も発生したり、指も何本も生まれたりということが起きる傾向があります。これらをどうすれば発生させないようにできるのかは、今後の技術発展の着目点だと言ってもいいでしょう。

お花畑でわきあいあい#stablediffusion#trinart#AIお絵描き#kawaiipic.twitter.com/z0ONfxAjiW
— tamezo ushiyama (@tameushi) September 29, 2022

　実際に、そうした弱点を克服しようという企業も出てきています。10月3日に商用サービスとして発表されたNovel AI Diffusionは、腕が自然になるようにアルゴリズム的な工夫をしているようです。指はまだ不自然なようですが、それでも他の学習パッケージより改善されてるように見えます。特定のキャラクターの再生産に対応できるようで、まだサービス開始直後で多くのユーザーが模索をしているところですが、遠からず画像生成AIだけで漫画が描けるようになってしまうかもしれません。

Waifu Diffusion だと一瞬で崩壊した寝そべってる構図も NovelAI なら平気で生成できる...#NovelAIDiffusionpic.twitter.com/LFl2Nt66rR
— Plat 🖼️ (@p1atdev_art) October 3, 2022

世界はこの数ヵ月で変わってしまった

　image2imageを使っていて思うのは、画像生成AIをめぐる著作権の扱いがどんどん難しくなりそうだということです。重みづけを変えて出力していくと、生成される画像は元絵とどんどん類似性がなくなっていくわけですが、そのときに生成された画像の著作権はどう判断されるのか。写真でも同じことが起きるんですが、たとえばアイドルの写真をもとに画像を生成した場合、その権利はどうなってしまうのかというのは、今後の課題だと思います。重み付けが低いうちは元の写真だと判断がつくのですが、ある一定の線を超えると、もう元の写真が何であるのかはまったくわからなくなってしまいます。

　いずれにしても、これだけのことがわずかこの数ヵ月で起きてしまうというのが本当におそろしいですね。深津貴之さんが「世界変革の前夜は思ったより静か」と書いていましたが、本当に想像以上にすさまじい変革が起きています。

　今起きていることは、絵画史のなかで、19世紀後半に写真が一般の人にも手に入るようになり、急激に普及が起きた時期に近い歴史的な転換点に当たると思います。肖像画という存在が写真に取って代わられる時期です。しかし、それにより印象派などの新しい絵画表現方法の登場が促されることになります。画像生成AIは人類にとって、それが登場する以前と以後とで大きく時代に差をつけるものであることは間違いありません。しかし、だからといって絵を描くという営みが消えることはないでしょう。むしろ、人間の創造性の幅を広げる可能性が高いと私は考えています。

筆者紹介：新清士（しんきよし）

1970年生まれ。「バーチャルマーケット（Vket）」で知られる株式会社HIKKY所属。デジタルハリウッド大学院教授。慶應義塾大学商学部及び環境情報学部卒。ゲームジャーナリストとして活躍後、VRゲーム開発会社のよむネコ（現Thirdverse）を設立。VRマルチプレイ剣戟アクションゲーム「ソード・オブ・ガルガンチュア」の開発を主導。著書に8月に出た『メタバースビジネス覇権戦争』（NHK出版新書）がある。