連載◎画像生成AI入門／第３回

　画像生成AI入門の連載も今回で3回目です。第1回「画像生成AIとは何か？種類と特徴を解説」では、主要な画像生成AIと、その概要を紹介しました。そして、第2回の「想像以上に使える!?画像生成AIが役立つビジネスシーンとは」では、画像生成AIがビジネスシーンでどのように役立つかのか、DALL-E 3による作例と共に紹介しました。

　イメージ写真や似顔絵の作成、ロゴのデザインなど、幅広い用途で画像生成AIを活用できることが理解いただけたのではないでしょうか。

　今回は、画像生成AIでイメージ写真を作成するプロセスを紹介します。「最低限の指示で生成された画像から修正を重ねていく方法」と「箇条書きにした条件を一度に与える方法」を取り上げ、双方の違いを比較していきましょう。

画像を生成する時の2つのアプローチ

　イメージ写真に限りませんが、画像生成AIに与えるプロンプト（指示）を考える時には大きく分けて2つの方向性があります。ひとつは、最初は多くの指示を与えずに出てきた画像を見ながら修正を繰り返すやり方（反復型）です。もうひとつは、一度で望んだ画像を得るために最初から練り込んだプロンプトを与える方法（単発型）です。

画像生成AIで成果物を得る際に用いるプロンプトの２つのアプローチ

　この二つには、それぞれ特徴があります。反復型は、細かなイメージが定まっていない場合にたたき台となる案を手っ取り早く示してもらえるという点で優れています。単発型の場合は、プロンプトを練る手間はかかりますが、一度で理想の画像を手に入れられる可能性が高まります。

反復型：まず、たたき台になる画像を生成

　生成したい画像の明確なイメージを持っている場合は、最初から詳細な指示を書けるでしょう。できるなら一度の生成で作ってしまいところですが、そうしたケースは意外に少ないものです。

　そこで、まずは最低限の指示からたたき台になる画像を出力してもらい、修正を繰り返す方法（反復型）でいきましょう。DALL-E 3の場合、１枚の画像出力に要する時間は10秒前後です。反復しながら完成形に近づけるといっても、それほど時間はかかりません。

ここでは、最低限の指示として、「親子3人が正面を向いて笑っている写真を描いてください」というプロンプトを与えます。彼らの人種や着ている服、背景など、細かい情報は一切抜き。この指示から生成された画像が以下です。

DALL-E 3に「親子3人が正面を向いて笑っている写真を描いてください」というプロンプトのみを与えて生成された画像

　プロンプトでは確かに「写真」と指示したのですが、なぜかイラストが出てきました。画像と同時に出力された文章には「こちらが親子３人が正面を向いて笑っているイラストです」とあり、指示を誤認していることが読み取れます。プロンプトにあった「描く」という文言に、DALL-E 3が引っ張られたのかもしれません。

　このように、AIが指示に従ってくれないことは往々にして見られ、珍しいことではありません。寛大な心で向き合うことが必要です。

　なお、特に指示をしていない場合、画像のサイズは1024ピクセル四方の正方形で出力されます。DALL-E 3は、縦長または横長の長方形の画像を作ることもできるので、そうしてほしい場合はプロンプトに書いておきましょう。

反復型：たたき台の画像をブラッシュアップ

　いずれしても、生成された画像からほしい写真のイメージを持つことができたのではないでしょうか。ここからは、先ほど得られた親子３人の画像をブラッシュアップしていくプロセスを見ていきます。

　最初に行うべきは、写真ではなくイラストにされてしまったので、それを修正することです。DALL-E 3に、「ありがとうございます。でも、私がお願いしたのはイラストではなく写真です。同様の条件の写真を作ってください」と指示を与えました。

写真にするよう指示したところ、DALL-E 3が生成した画像

　指示した通り、写真になりました。しかし、東洋人風だったルックスが欧米人風に変化してしまいました。DALL-E 3が米国で開発されたツールであるためか、人種を指示せずに人物の写真を生成させると、欧米人風のイメージとなる傾向が見受けられます。

　日本人を対象にしたビジネスを展開している企業としては、イメージ写真に映る人物も日本人にしたいところでしょう。さらに年齢設定も付け加え、「日本人の親子３人として描いてください。年齢は、父親は40歳、母親は38歳、男の子の子どもは10歳でお願いします」と指示しました。

日本人への修正指示により生成された画像。正面を向いて笑う日本人親子となった。指定した年齢を考慮しても、違和感のないルックスだろう

　再び、指示通りの修正結果が得られました。次に、男の子の服装を修正してみましょう。「男の子が着ている服は、白地のTシャツにしてください。その柄は、ライオンのイラストにしてください」と指示します。

男の子の服が、ライオンのイラストが入った白地のTシャツに変化しました

　指示したように、男の子の服が変化しました。父親がジャケットを脱いでいるなど両親の服も微妙に変わっていますが、このまま進めます。

　さて、次が最後の指示です。画像を横長の長方形にして、背景を家のリビングにしてもらいます。テキストボックスには、「画像を横長の長方形にしてください。写真の背景は、家のリビングにしてください」と入力しました。

「画像を横長の長方形にしてください。写真の背景は、家のリビングにしてください」との指示により生成された画像

　生成された画像は長方形となり、日本家屋らしいリビングが背景になりました。ただし、母親と父親の配置が逆になり、男の子のTシャツに描かれているライオンの柄が以前と変わるなど、特に指示していない部分も修正されています。先の両親の服装変化もそうですが、画像生成AIは指定した以外のところにも変更を加えてくる場合があります。

　これを避けるには、何度か言及しているように「指示した箇所以外は修正しないでください」といった文言をプロンプトに加えることがポイントです。

　ひとまずこれで、この写真は完成とします。次は、ここまで積み重なった条件を箇条書きにし、画像生成AIに一度に与えてみましょう。

単発型：積み重なった条件を箇条書きにして一括指示

　一度で完成形に近い画像を生成させる方法（単発型）では、プロンプトを作り込む必要があります。反復型で最終画像を得るまでに指示した条件を箇条書きにすると、以下の通りになります。

・正面を向いて笑っている３人の日本人親子の写真。子どもは男の子・父親は40歳、母親は38歳、子どもは10歳・男の子の服は白地のTシャツで、ライオンのイラストが描かれている・写真の背景は家のリビング・写真の形は横長の長方形

　これらの項目を、「以下の条件に合致する写真を出力してください」のメッセージとともに、DALL-E 3に与えました。この際、「新しいチャット」を選び、先ほどのAIとの会話とは別の会話として立ち上げています。

具体的な条件を一括して与えた場合に、DALL-E 3が生成した画像。反復型で生成したものにかなり近い

　生成結果は、リビングがより洋風なイメージになるなど多少の違いは見られますが、ほぼ先ほどの画像と変わりません。

　条件をまとめて箇条書きにした場合でも、意図した通りの画像が得られることを理解できたのではないでしょうか。このように、「指示を小出しにする（反復型）」と「まとめて与える（単発型）」のいずれの場合でも最終的には同じような画像にたどり着けるわけです。

　筆者の所感として述べると、AIの気まぐれによる新たなアイデアを得られることがあるため、最初から細かすぎる指示をせずに画像生成AIとの触れ合いを楽しみながら修正を重ねるのがおすすめです。

　ある程度のイメージが固まっていれば、細かい指示を与えて一気に完成型に近づけて、そこから修正を加えていく方法もよいかと思います。

　ただし、何度も修正を繰り返していると、DALL-E 3の制限によって一定時間画像を生成してくれなくなってしまいます。それを考えると、指示は小出しにし過ぎないほうがよさそうです。このあたりのさじ加減は、実際に使いながら把握していくのがよいでしょう。

　また、DALL-E3は画像認識にも対応しています。このため、特定の写真に似た画像が欲しい場合など具体的なイメージがあるのであれば、DALL-E 3にそれを与え、「あなたに渡した写真を参考に、これに似た別の写真を出力してください」と指示することもできます。なお、参考画像は複数枚を与えることもできます。人物の似顔絵やイラストを作成する際、このやり方が使えます。

ここがポイント！

●AIで画像を生成する場合、指示を小出しにして修正を繰り返す「反復型」と一度にまとめて指示を与える「単発型」がある。

●作成したい画像の具体的なイメージが薄いなら、まず最低限の条件を与えてたたき台を作る。

●画像生成AIは指示に従ってくれないこともあるので、寛大な心で向き合うことが必要。

●指示を小出しにしても、まとめて指示をしても、同じような画像に行き着ける。

一覧へもどる

BCN WEB会員は登録無料で情報満載！