DALL-Eに「AIっぽくない画像」を生成させるコツ

ChatGTPでDALL-Eが利用できるようになってから、ニュースサイトやブログなどでDALL-Eを使った画像が掲載されているのを目にするようになりました。ただ、AIが作った画像は見ただけで「あ、これDALL-Eだな」と気付くようなものが多く、なぜか残念な気持ちになってしまいます。

そこで、DALL-Eっぽくない画像を生成する方法はないか、試行錯誤を重ねてみました。

なぜDALL-Eの画像はAIっぽく感じるのか
AIっぽくない画像をDALL-Eに生成させるコツ
縦横比を指定する
色を減らす
1. DALL-E特有の色
背景を消して主題を明確にする
1. 情報過多は違和感を増やす
強調する色を指定する
1. 食べ物は難しい
光の陰影を意識する
1. 「AI感」を薄められる画像の種類
どうしても「AIっぽい」と感じるジャンル
3D構造は得意
まとめ

なぜDALL-Eの画像はAIっぽく感じるのか

これらは、DALL-Ｅで生成した画像です。一般にAIっぽいと感じる画像がどんなものかを考えてみると、以下のような傾向があります。

色の種類が多い
情報量が多すぎる
実物に似ていない

これらを総合して、我々はDALL-Eの画像を見て「なんか違和感がある」と感じるようです。

AIっぽくない画像をDALL-Eに生成させるコツ

DALL-EにAIっぽくない画像を生成させるために、筆者が考えるコツは以下の通りです。

縦横比を指定する
色を減らす
背景を消して主題を明確にする
強調する色を指定する
光の陰影を意識する

これをプロンプトにすると

「横長の形式で」
「白黒で」
「背景なし」
「トマトには色を付けて」
「光の陰影を意識して」

文字で書いてもわかりにくいので、以下で画像を示しながら紹介します。

縦横比を指定する

縦横比を指定することで、DALL-Eっぽさを減らすことができます。

DALL-Eで生成する画像の縦横比を変えることができます。デフォルトでは正方形（1024×1024ピクセル）の画像が生成されますが、ワイド画像（1792×1024ピクセル）や縦長のポートレート形式（1024×1792ピクセル）など、異なる縦横比での画像生成も可能です。

画像ごとに、適切な縦横比は変わります。風景は横長の方が自然ですし、人物は縦長画像であることが多いです。それぞれに合わせた向きの画像を生成することでよりリアルに近づきます。

色を減らす

色をすべて無くして白黒にすると、DALL-Eの特有のスタイルが目立たなくなります。

白黒の画像は、色の選択よりもテクスチャーやコントラストに焦点を当てるため、画像の主題に視線を集めやすいのも特徴です。DALL-E特有の色彩処理よりも、シェーディングや形状の正確さが前面に出で「DALL-Eっぽさ」を抑えられます。

DALL-E特有の色

DALL-Eっぽいと感じる最も大きな原因は「色」にあります。DALL-Eが使用する色は独特で、色を多めに使い、RGBがすべて広域に使われることが多いので、なんとなく「ぬめっとした」、DALL-Eだと見分けやすい色になりやすいです。

背景を消して主題を明確にする

背景を消しました。

主題が明確なものは、背景を消した方が「DALL-Eっぽさ」を抑えた絵が得られます。同じようなイラストでも、背景をなくし情報をそぎ落とすことで、リアルさを感じられるようになります。

情報過多は違和感を増やす

背景の情報過多も、リアルさを下げます。

AIっぽい絵になる一つの要因が、画像中の情報量の多さです。情報が多いほど違和感を感じてしまい「AIっぽい」と思うようになります。

強調する色を指定する

ありがとう。横長の画像で、地球を描いて。白黒で、少しだけ青色はつけてほしい。あと写真風にして。

色を減らすだけでなく、残す色を指定することで「奇妙にバランスの取れた色彩豊かなAI画像」を、「我々の思うそこまで綺麗でもないけどリアルな写真ってこんな色だよね」に近づけることができます。

植物も、ただ白黒にするだけでなく、色を少し加えるだけでリアルな画像になります。

食べ物の画像を生成する際は、「トマトを赤色にして」よりも「トマトに色を付けて」といったように、「一般的にトマトとはこういう色だよね」というのをDALL-E側に考えさせた方が上手くいくことが多いです。

食べ物は難しい

食べ物のリアルな描画は難しいです。「おいしそうに見えない」のです。

上のミートパスタの画像も、パッと見てパスタということは分かりますが、麺の光沢や、ミートソースの質感に微妙に違和感があり、あまりおいしそうに見えません。食べ物は難しいです。

光の陰影を意識する

横長の画像で、赤いドレスのブロンドの髪の毛の女性を描いて。光の陰影を意識して。背景はグレー。

写真のような画像を生成したい場合には、影の表現も重要です。

DALL-Eには、意図的にライティングを調整して陰影を出すようには作られていないため、「光の陰影を意識して」と指示することで写真に近い印象を与えることができます。

全体に影を意識して描かせることで、体の細部に立体感が生まれ、より実際に近い印象を与えることができます。陰影によって「肌が綺麗すぎる」違和感も薄れるため、より実写に近い印象を与えることができます。

「AI感」を薄められる画像の種類

普段頻繁に目にすることが少ないものや、空想のものは、多少ディテールが実際と異なっていても違和感を感じにくい傾向にあります。

風景や景色
無機質な人工物
SFなど実際に存在しないもの

などは、比較的AIでの画像生成に向いているジャンルと言えます。

どうしても「AIっぽい」と感じるジャンル

ここまで紹介したコツを活用して工夫して生成しても、どうしても「人間が見ると違和感を感じやすい」のは以下のような画像です。

人間や人物
実在するもの
食べ物

特に違和感が生じやすいのは、何かに似せて描かせるときです。

ドラえもんをイメージして「猫型ロボット」を描かせると、上のような画像が生まれます。当然「猫型ロボット」なので何も間違いではないし、むしろドラえもんより猫型ロボットに近いと言えます。

しかし、我々の考える「猫型ロボット」とは違います。

温かいテクノロジーの著者林要氏は、ペットロボットのLOVOT開発において、ペットロボットを実際の動物に似せることは非常に難しいことを「不気味の谷」と呼んで、以下のように説明しています。

「不気味の谷」と呼ばれる現象です。

ぼくらは、本物に近づけば近づくほどむしろ、ささいなちがいに違和感を持つようになってしまうのです。身近でよく知っている存在であるほど、違和感は強くなります。模擬のレベルが低いうちはいいのですが、本物に近づけようとすると、はからずもこの違和感への挑戦になっていきます。理由はわからないけど「なにかがちがう」という違和感は、ぼくらの不安を呼び覚まします。

たとえば、いかにも無機質で、人類とはかなり異なる形質や素材感を持つヒト型ロボットには不安を抱きませんが、人類にそっくりな肌を持つロボットを目の前にすると、首の動きやまぶたの開け閉めといったわずかな異常を検知して、警戒することがあるのです。

「不気味の谷」は人類が直感的に感じるものですが、その直感が発達した理由を考えてみると、たとえば太古の時代に、仲間の状態がわずかに変化したときの「異常検知」という本能に由来するのかもしれません。
林要　温かいテクノロジーより

猫型ロボットの例は極端な例ですが、人間の意識の中には「自分の思い描くモノ」と異なる点を見つけると、「コレは本物ではない」と感じてしまうようです。