連載◎画像生成AI入門／第５回（最終回）

　画像生成AI入門の連載は、今回で最終回となります。これまでは、第1回で主要な画像生成AIを紹介し、第2回からはDALL-E 3で生成した画像の作例や生成プロセスについて解説してきました。

　これまで本連載で取り上げてきたDALL-E 3の作例のほとんどは、テキストのプロンプト（指示）によって生成した画像です。しかし、DALL-E 3を搭載しているChatGPTは画像認識に対応しており、既存の画像をもとにして新たな画像を生成することができます（※）。

　そこで、連載の第５回となる本稿では、人物や動物の写真をDALL-E 3に与えて新たな画像を描いてもらうプロセスを紹介します。テキストによるプロンプトとは異なる成果物の生成を見ていきましょう。

※本稿では、テキストではなく画像認識により新たな画像を生成させる方法を「画像プロンプト」と呼称しています。

ChatGPTに画像を認識させる方法

　ChatGPTの画像認識機能を使うには、画像ファイルをアップロードする必要があります。テキストプロンプトとは異なり、画像を認識させるにはChatGPTの会話画面上でテキスト入力フォームの左下にある「+」をクリックし、「コンピューターからアップロードする」を選択します。

ChatGPTを開き、テキスト入力フォームの左下にある「+」ボタンをクリックすると表示されるメニュー

　ファイルを選択するウィンドウが表示されるので、任意の画像ファイルを選びます。そうすると、ChatGPTに送るプロンプトに画像が添付された状態となります。なお、画像のアイコンをChatGPTのウィンドウにドラッグ＆ドロップすることによっても、添付が可能です。

　プロンプトに画像を添付した状態で、例えば人物写真なら「この画像の人物の似顔絵を描いてください」とテキストを打ち込めば、ChatGPTの画像認識が機能し、似顔絵を描いてもらえます。画像は最大10ファイルまで添付できるので、多くの画像を一度に認識させることも可能です。

　一般論でいえば、多くの画像ファイルを認識させてから画像を生成させた方が、成果物の精度は上がります。実際にどうなるかは、本稿の後半で検証してみましょう。

　なお、ChatGPTでは画像ファイル以外にも、PDFファイルやWordファイル、Excelファイル、動画ファイルなどをアップロードして認識させることができます。例えば、PDFファイルやWordファイルをChatGPTにアップロードして、内容を要約してもらうといった使い方が考えらます。

　以降は、画像プロンプトにより、人物と動物の写真を用いて新たな画像を生成するプロセスを実際に見ていきます。

人物写真をイラスト化してみよう

　以下は、筆者が旅行中に撮影した写真です。今回はこの画像を素材としてイラスト化してもらいましょう。

タイ旅行中に撮影した筆者の写真

　先に解説した方法により、ChatGPTに同画像をアップロードし、「この写真を水彩画風のイラストにしてください」とテキストで指示したところ、以下の画像が生成されました。

　なお、今回は水彩画風にしましたが、アニメ風や浮世絵風など多彩なテイストのイラスト生成が可能です。

最初のプロンプトに対して生成された画像。人物の体型が写真より明らかに細くなっている

　正直なところ、写真の人物とはあまり似ていないように見受けられます。「眼鏡をかけている」「Tシャツとズボンの色が写真と一致している」「車道にかかった歩道橋の上に立っている」といった要素は合っているものの、さすがにこれは美化され過ぎでしょう。

　この生成結果に対しては、「ありがとうございます。ですが、もとの写真に写っている人物はこれほど細い体型をしていません。もう少々ふくよかな体型にしてもらえないでしょうか」と伝え、修正を依頼しました。

修正後の画像。修正前とほとんど変わっていない

　残念ながら、修正前とほぼ同様の画像が出力されてしまいました。ここまでご覧になってなんとなくお察しかと思いますが、DALL-E 3の画像プロンプトに対する精度は、現時点ではあまり高くありません。

　また、生成AIを使っていると、今回のような修正指示を無視してくるケースにしばしば遭遇します。寛大な心で接する必要があるでしょう。

　先ほどのプロンプトで「ふくよかな」という言葉を使った結果、同じような画像になってしまったので、もっと直接的な表現を使ってみます。次のように指示しました。「まだ細いです。もっと太った体型にしてください」と。

実物に近づいた印象がある。髪型などを調整していけば、より近しいものになりそうだ

　素材とした写真のイメージに近づきました。まだ髪型などを調整する必要はありますが、明らかな進歩です。

　続いて、髪型の修正を試みます。「いいですね。この人物の体型はそのままに、髪をもっと長くしてください」と指示しました。以下はその結果です。

髪は確かに長くなった。しかし、「そのままに」と指示していた体が若干細くなり、顔と体型がアンバランスになっている

　一歩進んで一歩下がった印象です。そこで、「髪型はいい感じです。体型をもう少し太めにしてください。特に、顔の肉付きをよくしてください」と指示。修正を試みます。

修正前より若干スリムな体型になってしまった

　画像生成AIは、またもや筆者の指示に従ってくれませんでした。画像生成AIとの付き合いは、このようなやりとりの連続になることは少なくありません。目指すゴールにたどり着くには、とにかく試行回数を増やしていくしかないのです。今回の検証では、14回の修正を経て以下の画像となりました。

もとの写真にかなり近づいた。顔も多少は似ているのではないだろうか

　ここまで要した時間はおおよそ10分強。途中苦戦もしましたが、このクオリティのイラストを10分程度で得られると思えば、一定の実用性はあるといえるでしょう。

複数枚の写真素材から新たな写真を生成する

　続いては、複数枚の写真を用いて、新たな画像を生成するプロセスを検証していきます。以下は、編集部のスタッフが飼育していた犬の写真です。

　この犬はすでに亡くなってしまっています。そこで、今回は犬が写った複数枚の異なる写真を画像プロンプトの素材として用いることで、亡き愛犬の新たな画像を生成できるかどうかを試してみました。

編集部スタッフの愛犬の写真。顔のアップや寝ている姿、成犬時だけでなく子犬時代なども含めて、さまざまな写真を画像プロンプト用の素材として用意した

　これらの写真を画像生成AIに与えたうえで、「これは、私が飼っていた犬の画像です。この子が芝生の上を走り回っている写真を作ってくれませんか？」と指示します。

「写真」と指示したが、イラスト感の強い画像が出力された。また毛の色も若干異なっている

　「芝生の上を走り回っている」点は正しいものの、とても写真とはいえない画像が生成されました。修正の必要があるので「より写実的な、写真らしい画像にしてください」と指示します。

先ほどと同様、写真には程遠い。やはりイラストに見えてしまう

　犬のポーズや毛の色具合など細部のイメージは修正されたものの、全体として変化はあまり見受けられません。毛の色については、むしろ本物から遠ざかってしまった印象です。

　そこで、ここからは「写真らしくしてください」という指示を繰り返すと同時に、「鼻の周囲の毛を黒くしてください」といったような、カラーリングの修正も試みます。

　しかし、結論としては、20回もの修正を重ねても満足のいく画像にはたどり着けませんでした。途中で、新たな3枚の写真を素材として追加して、「子犬らしく見えるので、成犬をイメージして描いてください」などの指示を重ねましたが、以下のような画像が限界でした。

当初より若干写真らしくなったようにも見える。だが試行錯誤しても、毛の色は修正できなかった

　最初に生成されたものより、多少の進歩はありました。しかし、このあたりがDALL-E 3の限界のようです。これは筆者の所感ですが、DALL-E 3は他の画像生成AIと比べて、生々しい写真の生成が苦手なように感じます。

　今回、写真を1枚だけ与えるパターンも試してみました。最もバランスがよく見える成犬時の写真1枚を与え、複数枚を素材として使用した時と同じプロンプトで、犬が走り回っている写真を出力させます。

1枚の写真を素材として、単発で生成した画像

　これまでと似たような画像が生成されました。ただし、複数枚の写真を用いて出力させた画像では正しかった鼻の形が違うようにも見えます。画像を多く与えることによる効果は、ゼロではないということでしょう。

　前半で言及したように、与える写真の枚数を増やすことで生成の精度は上がるはずです。しかし、今回の検証では微妙な違いはあったものの、顕著な差は見られませんでした。素材とする写真の種類や所望の成果物によって異なりますが、DALL-E 3に画像を与える時は、無理に枚数を増やす必要はないのかもしれません。

　いずれにしても、画像生成AIで望み通りのイメージを出力させるには試行錯誤が重要だと筆者は考えています。テキストプロンプトにせよ、画像プロンプトにせよ、プロンプトを微妙に変えるだけでも変化が起きることは多々あります。画像生成AIに与える言葉や画像を変更しながら色々と試し、成功例を蓄積することをおすすめします。

　「前のプロンプトではAIに指示を無視されたけれど、言葉を変えてみたらうまくいった」といった小さな成功体験を楽しみながら、画像生成AIとうまく付き合っていきたいものです。

ここがポイント！

●ChatGPTでは、画像認識（画像プロンプト）によりイラストなどを出力させることが可能。

●画像プロンプトとして、ChatGPTでは複数枚の画像（最大10ファイル）を同時に添付できる。

●修正プロセスにおいて、プロンプトの単語や文章を微妙に変えるだけで、生成結果に変化が生じることがある。

●画像生成AIに習熟するためには、試行回数の積み重ねによる経験が重要。

一覧へもどる