画像生成AI入門の連載は、今回で最終回となります。これまでは、第1回で主要な画像生成AIを紹介し、第2回からはDALL-E 3で生成した画像の作例や生成プロセスについて解説してきました。
これまで本連載で取り上げてきたDALL-E 3の作例のほとんどは、テキストのプロンプト(指示)によって生成した画像です。しかし、DALL-E 3を搭載しているChatGPTは画像認識に対応しており、既存の画像をもとにして新たな画像を生成することができます(※)。
そこで、連載の第5回となる本稿では、人物や動物の写真をDALL-E 3に与えて新たな画像を描いてもらうプロセスを紹介します。テキストによるプロンプトとは異なる成果物の生成を見ていきましょう。
※本稿では、テキストではなく画像認識により新たな画像を生成させる方法を「画像プロンプト」と呼称しています。
ChatGPTに画像を認識させる方法
ChatGPTの画像認識機能を使うには、画像ファイルをアップロードする必要があります。テキストプロンプトとは異なり、画像を認識させるにはChatGPTの会話画面上でテキスト入力フォームの左下にある「+」をクリックし、「コンピューターからアップロードする」を選択します。
ファイルを選択するウィンドウが表示されるので、任意の画像ファイルを選びます。そうすると、ChatGPTに送るプロンプトに画像が添付された状態となります。なお、画像のアイコンをChatGPTのウィンドウにドラッグ&ドロップすることによっても、添付が可能です。
プロンプトに画像を添付した状態で、例えば人物写真なら「この画像の人物の似顔絵を描いてください」とテキストを打ち込めば、ChatGPTの画像認識が機能し、似顔絵を描いてもらえます。画像は最大10ファイルまで添付できるので、多くの画像を一度に認識させることも可能です。
一般論でいえば、多くの画像ファイルを認識させてから画像を生成させた方が、成果物の精度は上がります。実際にどうなるかは、本稿の後半で検証してみましょう。
なお、ChatGPTでは画像ファイル以外にも、PDFファイルやWordファイル、Excelファイル、動画ファイルなどをアップロードして認識させることができます。例えば、PDFファイルやWordファイルをChatGPTにアップロードして、内容を要約してもらうといった使い方が考えらます。
以降は、画像プロンプトにより、人物と動物の写真を用いて新たな画像を生成するプロセスを実際に見ていきます。
人物写真をイラスト化してみよう
以下は、筆者が旅行中に撮影した写真です。今回はこの画像を素材としてイラスト化してもらいましょう。

先に解説した方法により、ChatGPTに同画像をアップロードし、「この写真を水彩画風のイラストにしてください」とテキストで指示したところ、以下の画像が生成されました。
なお、今回は水彩画風にしましたが、アニメ風や浮世絵風など多彩なテイストのイラスト生成が可能です。

正直なところ、写真の人物とはあまり似ていないように見受けられます。「眼鏡をかけている」「Tシャツとズボンの色が写真と一致している」「車道にかかった歩道橋の上に立っている」といった要素は合っているものの、さすがにこれは美化され過ぎでしょう。
この生成結果に対しては、「ありがとうございます。ですが、もとの写真に写っている人物はこれほど細い体型をしていません。もう少々ふくよかな体型にしてもらえないでしょうか」と伝え、修正を依頼しました。

残念ながら、修正前とほぼ同様の画像が出力されてしまいました。ここまでご覧になってなんとなくお察しかと思いますが、DALL-E 3の画像プロンプトに対する精度は、現時点ではあまり高くありません。
また、生成AIを使っていると、今回のような修正指示を無視してくるケースにしばしば遭遇します。寛大な心で接する必要があるでしょう。
先ほどのプロンプトで「ふくよかな」という言葉を使った結果、同じような画像になってしまったので、もっと直接的な表現を使ってみます。次のように指示しました。「まだ細いです。もっと太った体型にしてください」と。

素材とした写真のイメージに近づきました。まだ髪型などを調整する必要はありますが、明らかな進歩です。
続いて、髪型の修正を試みます。「いいですね。この人物の体型はそのままに、髪をもっと長くしてください」と指示しました。以下はその結果です。

一歩進んで一歩下がった印象です。そこで、「髪型はいい感じです。体型をもう少し太めにしてください。特に、顔の肉付きをよくしてください」と指示。修正を試みます。

画像生成AIは、またもや筆者の指示に従ってくれませんでした。画像生成AIとの付き合いは、このようなやりとりの連続になることは少なくありません。目指すゴールにたどり着くには、とにかく試行回数を増やしていくしかないのです。今回の検証では、14回の修正を経て以下の画像となりました。

ここまで要した時間はおおよそ10分強。途中苦戦もしましたが、このクオリティのイラストを10分程度で得られると思えば、一定の実用性はあるといえるでしょう。
複数枚の写真素材から新たな写真を生成する
続いては、複数枚の写真を用いて、新たな画像を生成するプロセスを検証していきます。以下は、編集部のスタッフが飼育していた犬の写真です。
この犬はすでに亡くなってしまっています。そこで、今回は犬が写った複数枚の異なる写真を画像プロンプトの素材として用いることで、亡き愛犬の新たな画像を生成できるかどうかを試してみました。
これらの写真を画像生成AIに与えたうえで、「これは、私が飼っていた犬の画像です。この子が芝生の上を走り回っている写真を作ってくれませんか?」と指示します。

「芝生の上を走り回っている」点は正しいものの、とても写真とはいえない画像が生成されました。修正の必要があるので「より写実的な、写真らしい画像にしてください」と指示します。

犬のポーズや毛の色具合など細部のイメージは修正されたものの、全体として変化はあまり見受けられません。毛の色については、むしろ本物から遠ざかってしまった印象です。
そこで、ここからは「写真らしくしてください」という指示を繰り返すと同時に、「鼻の周囲の毛を黒くしてください」といったような、カラーリングの修正も試みます。
しかし、結論としては、20回もの修正を重ねても満足のいく画像にはたどり着けませんでした。途中で、新たな3枚の写真を素材として追加して、「子犬らしく見えるので、成犬をイメージして描いてください」などの指示を重ねましたが、以下のような画像が限界でした。

最初に生成されたものより、多少の進歩はありました。しかし、このあたりがDALL-E 3の限界のようです。これは筆者の所感ですが、DALL-E 3は他の画像生成AIと比べて、生々しい写真の生成が苦手なように感じます。
今回、写真を1枚だけ与えるパターンも試してみました。最もバランスがよく見える成犬時の写真1枚を与え、複数枚を素材として使用した時と同じプロンプトで、犬が走り回っている写真を出力させます。

これまでと似たような画像が生成されました。ただし、複数枚の写真を用いて出力させた画像では正しかった鼻の形が違うようにも見えます。画像を多く与えることによる効果は、ゼロではないということでしょう。
前半で言及したように、与える写真の枚数を増やすことで生成の精度は上がるはずです。しかし、今回の検証では微妙な違いはあったものの、顕著な差は見られませんでした。素材とする写真の種類や所望の成果物によって異なりますが、DALL-E 3に画像を与える時は、無理に枚数を増やす必要はないのかもしれません。
いずれにしても、画像生成AIで望み通りのイメージを出力させるには試行錯誤が重要だと筆者は考えています。テキストプロンプトにせよ、画像プロンプトにせよ、プロンプトを微妙に変えるだけでも変化が起きることは多々あります。画像生成AIに与える言葉や画像を変更しながら色々と試し、成功例を蓄積することをおすすめします。
「前のプロンプトではAIに指示を無視されたけれど、言葉を変えてみたらうまくいった」といった小さな成功体験を楽しみながら、画像生成AIとうまく付き合っていきたいものです。
ここがポイント! |
●ChatGPTでは、画像認識(画像プロンプト)によりイラストなどを出力させることが可能。 |
●画像プロンプトとして、ChatGPTでは複数枚の画像(最大10ファイル)を同時に添付できる。 |
●修正プロセスにおいて、プロンプトの単語や文章を微妙に変えるだけで、生成結果に変化が生じることがある。 |
●画像生成AIに習熟するためには、試行回数の積み重ねによる経験が重要。 |

無料会員のメリット
- Merit 1 -
企業向けIT活用事例情報のPDFデータをダウンロードし放題!
- Merit 2 -
本サイト「中小企業×DX」をはじめ、BCNのWEBメディア(「週刊BCN+」「BCN+R」など)の会員限定記事が読み放題!
- Merit 3 -
メールマガジンを毎日配信(土日祝を除く)※設定で変更可能
- Merit 4 -
イベント・セミナー情報の告知が可能!自社イベント・セミナーを無料でPRできる
- Merit 5 -
企業向けIT製品の活用事例の掲載が可能!自社製品の活用事例を無料でPRできる
無料会員登録で自社製品の事例をPR!
企業向けIT製品の活用(導入)事例情報を無料で登録可能!
新規で会員登録される方は会員登録ページ、(すでに会員の方は、会員情報変更ページ)より、会員登録フォーム内の「ITベンダー登録」欄で「申請する」にチェックを入れてください。
未会員の方はこちら
