Stable DiffusionのWEBUIの使い方
Stable Diffusionのユーザインタフェースでもっともメジャーなのが、Automatic1111。ブラウザから操作できるのでクセがないのが特徴。
とりあえず、インストールから、モデル入れて使えるようにするまでをざっくり解説してみたい。
Automatic1111のインストール
Automatic1111は、GoogleのCorabo環境(実験用のプログラム実行環境。ウェブからある程度無料で利用できる)のユーザインタフェースとしても使える。
が、ここでは自分のパソコンのWindows11上で動かす前提でインストールしていきたい。課金せずに、延々とAIで画像を生成したい!という人向けだ。ただし、ある程度のグラボのスペックやメモリ、ディスク空き容量が必要となる。
まずは、ファイルをダウンロードする。
>Tags · AUTOMATIC1111/stable-diffusion-webui · GitHub (50MBくらい。Automatic1111のダウンロード)
以下の画面が開くので「zip」というちっちゃい文字をクリック。
なお、この「Tags」というページは、今後今後バージョンがあがっていくとページが増えていくので、最新バージョンのzipをダウンロードしよう。2023年3月時点では、v1.0.0-preが最新だった。
ここでダウンロードできるzipファイルは、Windows10用に作られてて、こんなふうに書かれてた。
webui.zip は、python と git をインストールできない人向けのバイナリ ディストリビューションです。
すべてが含まれています – run.bat をダブルクリックして起動するだけです。
Windows 10 以外の要件はありません。NVIDIA のみ必要。
一度実行した後、インストールを別のコンピューターにコピーして、オフラインで起動できるはずです。
展開先は、パス名に日本語が含まれていない場所が無難だ。
私はd:\stablediffusionというフォルダを作って、そこに展開した。
すべてが含まれています、とはいうものの、画像生成のコアとなる「モデル」は含まれていない。ダウンロードしてこよう。
Automatic1111のアップデート方法
Automatic1111は、次々に新機能を搭載したりバグフィックスしたりと、ものすごいスピードでバージョンアップしている。
しかし、最新版へのアップデートが超簡単にできるようになっているので安心だ。
まず、Automatic1111が動作していたら(動作していたら、ログメッセージがワーッと表示されるDos窓が起動しているはず)、Automatic1111をいったん終了させる。(Dos窓の右上のバツボタンクリックでOKだ)
で、Automatic1111インストールフォルダのupdate.batをダブクリする。これでアップデートは完了。
なんという簡単。以前はgitコマンドをどうこうする手順が必要だったみたいだが、とても簡単になっている。
Automatic1111にモデルをダウンロード
モデルというのは、AIが学習結果を1ファイルに保存したもので、画像生成のコアになるものだ。
モデル次第でいろんな画像を生成できる。アニメ系が得意なモデルもあれば、実写系が得意なモデルもある。指定したプロンプトが効かないなーというときにも、モデルを差し替えるだけであっけなく欲しい画像が出てくることもある。
プロンプトをいろいろ研究するよりも、良いモデルを探すのを優先したほうがいいくらいだ。
モデルファイルのサイズはデカくて、7G~10Gくらいはある。(その後、2Gくらいの縮小版?も出てきた)まあ最近は、内蔵ハードディスクも大容量になってきているので、新しいパソコンなら気にならないかな。私も使うわけねーよと思ったけど、4TBのハードディスクつけといて良かった。
StableDiffusion用のモデルは色々あるけど、私が普段使っている2つのモデルを紹介しよう。
なお、モデルのダウンロードには「Hugging Face」というサイトへの登録が必要になる。このサイトは、AIのモデルをクラウド上で実行したり学習させたりできるサービスを提供している。画像生成以外にもさまざまなモデルがアップロードされているのだ。まあ、一応怪しいサイトじゃないので安心してほしい。
Pricingがどうこう書いてあって、お金取られんのかと身構えるかもしれないが、モデルをダウンロードするだけなら無料だ。
Abyss Orange Mix
こちらは、アニメ・イラスト調で描いてくれるモデル。
▲「beautiful girl, tokyo street」で生成
ページを開くとどれダウンロードすればいいの?って迷う。
>WarriorMama777/OrangeMixs at main (Abyss Orange Mix 2ダウンロードページ)
4種の違いは上の通り。激エロなやつは、プロンプトに反応してすぐエロ画像になる。たぶん。
拡張子が「safetensors」「ckpt」というのはファイル形式の違いで、どちらも使える。いちおう「safetensors」拡張子のほうが、変な情報を混入させにくい分安心、ということになっているらしい。
私は当時そんなの知らなかったので、ckptの方をダウンロードしてしまった。
モデルは、webuiの展開フォルダの「sd.webui\webui\models\stable-diffusion」以下に保存しよう。
basil mix
こちらは、basil mix。アジア系&実写系をうまく描いてくれるモデル。(一般のモデルは、外国人をたくさん学習しているため、日本人の顔はなんか変になってしまう…)
▲「beautiful girl, tokyo street」で生成
>basil mix.ckpt · nuigurumi/basil_mix at main (basil mixの直ダウンロードページ)
クリックすると以下の画面がでるので「download」のちっちゃい文字をクリックする。
なんでdownloadの文字ちっちゃくすんだよ…。
サイズは7.7GB。ハードディスクの容量を空けてのぞもう。
さらに、basil mixは「VAE」という別ファイルが必要になる。なんだよバエって。私の理解では、VAEというのは、特定分野を強化するための補助ファイル…だと思う。
以下のファイルを指定すると、「人間の顔生成」が向上するっぽい。basil mixではこのvaeファイルを指定することが推奨となっているのだ。
stabilityai/sd-vae-ft-mse-original at main(ダウンロードページ)
ダウンロードしたら、モデルと同じフォルダに「basil mix.vae.pt」にリネームしておいておこう。
このリネームして置いておく、というのが最新のやり方なのかどうかは不明。でもいちおう動いてる。
この時点ではStableDiffusion1.5ベースのモデルが主流だったが、そのあとSD2.0ベースのものが出てきて、さらに1.5よりも大きい1024×1024画像を学習することで超絶品質アップしたSDXLモデルが出てきた。
Automatic1111の基本的な使い方
これで準備は整った。いちおう動作テスト的に動かしてみよう。
Automatic1111をzip解凍したフォルダで、run.batをダブクリして実行する。
run.bat実行後は、それなりに時間がかかる。Dos窓が開いてなにやらファイルチェックっぽいことと必要ファイルやモデルのロードなどを始める。
で、「Running on local URL」のとこに出てる「http://127.0.0.1:…」をCtrl押しながらクリックするとブラウザ画面が勝手に開く。(URLの末尾の数字は起動ごとに変わるので、ブックマークしてもだめだ)
開いた画面の「Prompt…」と書いてある欄に適当な指示ワードを入れて、Generateをクリックで画像生成される。簡単だ。
が…、出てきたのはなんかぼやけた画像…?
最低限「Smpling steps」は50くらい、CFG Scaleは12くらいにしておこう。私はパラメータの意味ははっきりわかってないけど、経験則的にここの数値を上げるとぼやけ画像が改善する。
くっきりした。
なお、生成ごとに違う画像が出てきてしまうので、「さっきの画像をSampling Steps変えて再生成したい!」という場合は、seedという値を固定すれば可能だ。seedは生成画像に書き込まれているので、メモるのを忘れちゃっても大丈夫。
seedの欄の-1は毎回違う画像を出すという意味。ここにseedの値を入力しておけば、生成画像が固定される。同じプロンプト入れれば、毎回同じ画像が出力されるということだ。
Automatic1111にネガティブプロンプトを入れる
プロンプト入力欄のすぐ下の「Negative promptなんちゃらかんちゃら」と書いてある欄に、ネガティブプロンプトを入力する。これはいうなれば禁則事項というか、こういうことしちゃダメっ!っていうことを示すワードを打ち込んでおくのだ。
例えば、ネガティブプロンプトに「nude」を入れると、脱がなくなるし、「anime」と入れるとアニメ調の画像が出なくなる。
AIはネガティブプロンプトで縛らないと、ありとあらゆる可能性を試してくる。例えば「顔を変形させてみたよ!」とか「腕をたくさんはやしてみたよ!」とか「変な影をつけてみたよ!」とか子供みたいにやってくるのだ。
結果として、生成される可能性のクォリティのバラツキがものすごいことになる。ネガティブプロンプトで、「明らかにダメ」っていうやつをあらかじめ教えておくということだな。
それにしても下手くそに描かれた顔はダメ(poorly drawn face)なんてことも、いちいち指定しないといけないなんてなぁ。
ネガティブプロンプトは、例えばこんな感じ。基本的に、変な人体生成やどぎついエロ描写はしちゃだめ、みたいなことを記述している。当然、エロい画像作りたいんだよ!っていう人はエロ禁止部分を削除する必要あり。
(((deformed))), blurry, bad anatomy, disfigured, poorly drawn face, mutation, mutated, (extra_limb), (ugly), (poorly drawn hands), fused fingers, messy drawing, broken legs censor, censored, censor_bar, multiple breasts, (mutated hands and fingers:1.5), (long body :1.3), (mutation, poorly drawn :1.2), black-white, bad anatomy, liquid body, liquidtongue, disfigured, malformed, mutated, anatomical nonsense, text font ui, error, malformed hands, long neck, blurred, lowers, low res, bad anatomy, bad proportions, bad shadow, uncoordinated body, unnatural body, fused breasts, bad breasts, huge breasts, poorly drawn breasts, extra breasts, liquid breasts, heavy breasts, missingbreasts, huge haunch, huge thighs, huge calf, bad hands, fused hand, missing hand, disappearing arms, disappearing thigh, disappearing calf, disappearing legs, fusedears, bad ears, poorly drawn ears, extra ears, liquid ears, heavy ears, missing ears, fused animal ears, bad animal ears, poorly drawn animal ears, extra animal ears, liquidanimal ears, heavy animal ears, missing animal ears, text, ui, error, missing fingers, missing limb, fused fingers, one hand with more than 5 fingers, one hand with less than5 fingers, one hand with more than 5 digit, one hand with less than 5 digit, extra digit, fewer digits, fused digit, missing digit, bad digit, liquid digit, colorful tongue, blacktongue, cropped, watermark, username, blurry, JPEG artifacts, signature, 3D, 3D game, 3D game scene, 3D character, malformed feet, extra feet, bad feet, poorly drawnfeet, fused feet, missing feet, extra shoes, bad shoes, fused shoes, more than two shoes, poorly drawn shoes, bad gloves, poorly drawn gloves, fused gloves, bad cum, poorly drawn cum, fused cum, bad hairs, poorly drawn hairs, fused hairs, big muscles, ugly, bad face, fused face, poorly drawn face, cloned face, big face, long face, badeyes, fused eyes poorly drawn eyes, extra eyes, malformed limbs, more than 2 nipples, missing nipples, different nipples, fused nipples, bad nipples, poorly drawnnipples, black nipples, colorful nipples, gross proportions. short arm, (((missing arms))), missing thighs, missing calf, missing legs, mutation, duplicate, morbid, mutilated, poorly drawn hands, more than 1 left hand, more than 1 right hand, deformed, (blurry), disfigured, missing legs, extra arms, extra thighs, more than 2 thighs, extra calf,fused calf, extra legs, bad knee, extra knee, more than 2 legs, bad tails, bad mouth, fused mouth, poorly drawn mouth, bad tongue, tongue within mouth, too longtongue, black tongue, cracked mouth, bad mouth, dirty face, dirty teeth, dirty pantie, fused pantie, poorly drawn pantie, fused cloth, poorly drawn cloth, badpantie, yellow teeth, thick lips, bad camel toe, colorful camel toe, bad asshole, poorly drawn asshole, fused asshole, missing asshole, bad anus, bad pussy, bad crotch, badcrotch seam, fused anus, fused pussy, fused anus, fused crotch, poorly drawn crotch, fused seam, poorly drawn anus, poorly drawn pussy, poorly drawn crotch, poorlydrawn crotch seam, bad thigh gap, missing thigh gap, fused thigh gap, liquid thigh gap, poorly drawn thigh gap, poorly drawn anus, bad collarbone, fused collarbone, missing collarbone, liquid collarbone, strong girl, obesity, worst quality, low quality, normal quality, liquid tentacles, bad tentacles, poorly drawn tentacles, split tentacles, fused tentacles, missing clit, bad clit, fused clit, colorful clit, black clit, liquid clit, QR code, bar code, censored, safety knickers, beard, furry,
Automatic1111の生成画像から、Seed値を知る方法
「PNG Info」というタブをクリックして、生成画像をドラッグ&ドロップすると、右側に生成時のプロンプトと「Seed:…」という情報が出てくる。これをコピーして使う。
txt2imgタブに戻して、プロンプトとSeedをコピペ。パラメータを好きにいじって、GenerateをクリックすればOKだ。
Stable DiffusionのWebUIのまとめ
- StableDiffusionの有名なウェブインタフェースは、Automatic1111
- Automatic1111は、簡単インストール。モデルだけ別途ダウンロードして入れる
- インストールフォルダのrun.bat実行後、メッセージ中のURLをCtrl+クリックで画面が開く
Automatic1111以外に、精度が抜群に高いモデル、SDXL専用のFooocusというWebUIもある。メモリ使用効率が良いので、Automatic1111でSDXLが動かない…という場合に試してみるといいかも。