Automatic1111の使い方 Stable DiffusionのWEBUI

Stable DiffusionのWEBUIの使い方

Stable DiffusionのWEBUIの使い方

Automatic1111の特徴

Automatic1111は、StableDiffusion用のウェブユーザインタフェース。

StableDiffusionの操作は、WEBUIないとムリかも

テキストから画像生成してくれるStable Diffusionは素の状態だと、コマンドで処理を実行するというスタイル。私のような一般人にはメンド臭いものとなってる。ブラウザからマウスでポチポチと手軽に操作できるようにするのがWEBUI(ウェブユーザー・インタフェース)だ。

いちおう「ウインドウズのアプリ」という位置づけのインタフェースもあるけど、最近はWEBUI型が主流っぽい。

Stable DiffusionのWEBUIにはいろんな物が出回っており、もっともメジャーなのが、Automatic1111。ブラウザを通じて手軽に画像生成を行える無料のWEBアプリケーションである。

StableDiffusionWebUIは、Google Chromeなどの主要なブラウザで利用でき、プログラミングの知識は必要ナシ。そして、LoraControlnetなど便利機能のほとんどがextensions(拡張機能)として使えるのが特徴だ。

拡張機能(プラグイン)をどかどか足していく方式なので、最終的には重くてめちゃめちゃ複雑になっていくのがデメリットとも言えるかも知れない。バージョンが上がっていくにつれて、動かないときのどのプラグインが悪いのか?みたいな犯人探しをすることも増えていくかも。

とりあえず、インストールから、モデル入れて使えるようにするまでをざっくり解説してみたい。

Automatic1111のインストール

Automatic1111のインストール

Automatic1111は、GoogleのCorabo環境(実験用のプログラム実行環境。ウェブからある程度無料で利用できる)のユーザインタフェースとしても使える。

Google Colaboratory(Colab)を使用する場合、Googleが提供しているブラウザからJupyter notebook形式でPythonを実行できる。

副作用的なメリットとして、関連モジュールのインストールを自動で入れてくれるというものがある。全部最新版モジュールにするとダメで、手動だと「動くバージョン」を見極めて1つ1つインストールしないといけないのだが、そこをおまかせインストールしてくれるのだ。これは相当大きな時短になると言えよう。

StableDiffusionWebUIは、ローカルPCにインストールして使用することも、クラウドサーバーにインストールして使用することもできる。

StableDiffusionWebUIのインストールは、Windows(ローカルPC)、Mac(ローカルPC)、Ubuntu(ローカルPC)、Google Colab、GPUSOROBANにそれぞれ対応している。GPUSOROBANは、ハイスペックなNVIDIA GPUを使用できる。

GPUクラウドサービス「GPUSOROBAN」を使用する場合、1時間50円から利用できる業界最安値のGPUクラウドサービスだ。

関連 【業界最安級】GPUクラウドサービス| GPUSOROBAN

ここでは自分のパソコンのWindows11上で動かす前提でインストールしていきたい。課金せずに、延々とAIで画像を生成したい!という人向けだ。ただし、ある程度のグラボのスペックやメモリ、ディスク空き容量が必要となる。

ローカルPCのスペックは、GPUメモリ16GB以上で、NVIDIAのGPUが推奨となっている。

まずは、ファイルをダウンロードする。

Tags · AUTOMATIC1111/stable-diffusion-webui · GitHub (50MBくらい。Automatic1111のダウンロード)

以下の画面が開くので「zip」というちっちゃい文字をクリック。

なお、この「Tags」というページは、今後今後バージョンがあがっていくとページが増えていくので、最新バージョンのzipをダウンロードしよう。2023年3月時点では、v1.0.0-preが最新だった。

ここでダウンロードできるzipファイルは、Windows10用に作られてて、こんなふうに書かれてた。

webui.zip は、python と git をインストールできない人向けのバイナリ ディストリビューションです。
すべてが含まれています – run.bat をダブルクリックして起動するだけです。
Windows 10 以外の要件はありません。NVIDIA のみ必要。
一度実行した後、インストールを別のコンピューターにコピーして、オフラインで起動できるはずです。

「python?がどうとかわかんないけど美女生成したい、ってヤツはこれ使えよ」というような意味である。

なお、zipの展開先は、パス名に日本語が含まれていない場所が無難だ。(Windowsのマイドキュメントとかは、ユーザ名を日本語にしてると、パスに日本語が入ってしまう)

私はd:\stablediffusionというフォルダを作って、そこに展開した。

すべてが含まれています、とはいうものの、画像生成のコアとなる「モデル」は含まれていないのでダウンロードしてくる必要がある。

Automatic1111のアップデート方法

Automatic1111のアップデート方法

Automatic1111は、次々に新機能を搭載したりバグフィックスしたりと、ものすごいスピードでバージョンアップしている。

しかし、最新版へのアップデートが超簡単にできるようになっているので安心だ。

まず、Automatic1111が動作していたら(動作していたら、ログメッセージがワーッと表示されるDos窓が起動しているはず)、Automatic1111をいったん終了させる。(Dos窓の右上のバツボタンクリックでOKだ)

で、Automatic1111インストールフォルダのupdate.batをダブクリする。これでアップデートは完了。

なんという簡単。以前はgitコマンドをどうこうする手順が必要だったみたいだが、とても簡単になっている。

Automatic1111にモデルをダウンロード

Automatic1111にモデルをダウンロード

モデルというのは、AIの学習結果を1ファイルに保存したもので、画像生成の最重要パーツとなるものだ。

StableDiffusionでは、モデルに基づいて画像が生成される。

モデル次第でいろんな画像を生成できる。アニメ系が得意なモデルもあれば、実写系が得意なモデルもある

指定したプロンプトが効かないなーというときにも、モデルを差し替えるだけであっけなく欲しい画像が出てくることもある。

プロンプトをいろいろ研究するよりも、良いモデルを探すのを優先したほうがいいくらいだ。

モデルファイルのサイズはデカくて、7G~10Gくらいはある。(その後、2Gくらいの縮小版?も出てきた)まあ最近は、内蔵ハードディスクも大容量になってきているので、新しいパソコンなら気にならないかな。私もそんなに使うわけねーよと思いながらも、4TBのハードディスクつけといて良かった。

StableDiffusion用のモデルは色々あるけど、私が普段使っている2つのモデルを紹介しよう。

なお、モデルのダウンロードには「Hugging Face」というサイトへの登録が必要になる。このサイトは、AIのモデルをクラウド上で実行したり学習させたりできるサービスを提供している。画像生成以外にもさまざまなモデルがアップロードされているのだ。まあ、一応怪しいサイトじゃないので安心してほしい。

Pricingがどうこう書いてあって、お金取られんのかと身構えるかもしれないが、モデルをダウンロードするだけなら無料だ。

StableDiffusionのモデル 1.5系やSDXL系

※以下のモデルは、もうだいぶ「古い」とされるようになってきたかも。

Abyss Orange Mix

こちらは、アニメ・イラスト調で描いてくれるモデル。


▲「beautiful girl, tokyo street」で生成

ページを開くとどのファイルダウンロードすればいいの?って迷う。

WarriorMama777/OrangeMixs at main (Abyss Orange Mix 2ダウンロードページ)

4種の違いは上の通り。激エロなやつは、プロンプトに反応してすぐエロ画像になる。たぶん。

画像生成AI用語でnsfwは「not safe for working」(職場で開くとヤベェぞ!)とsfwは「safe for working」(職場で開いても安心)という意味になる。まあ、職場で美少女絵開くだけで、エロくなくてもヤベェことになる気はするけど、ポロリもナシなのがsfw、くらいの認識でいいんじゃないだろうか。

拡張子が「safetensors」「ckpt」というのはファイル形式の違いで、どちらも使える。いちおう「safetensors」拡張子のほうが、変な情報を混入させにくい分安心、ということになっているらしい。

私は当時そんなの知らなかったので、ckptの方をダウンロードしてしまった。

モデルは、webuiの展開フォルダの「sd.webui\webui\models\stable-diffusion」以下に保存しよう。

basil mix

こちらは、basil mix。アジア系&実写系をうまく描いてくれるモデル。(一般のモデルは、外国人をたくさん学習しているため、日本人の顔はなんか変になってしまう…)


▲「beautiful girl, tokyo street」で生成

basil mix.ckpt · nuigurumi/basil_mix at main (basil mixの直ダウンロードページ)

クリックすると以下の画面がでるので「download」のちっちゃい文字をクリックする。

なんでdownloadの文字ちっちゃくすんだよ…。

サイズは7.7GB。ハードディスクの容量を空けてのぞもう。

さらに、basil mixは「VAE」という別ファイルが必要になる。なんだよバエって。私の理解では、VAEというのは、特定分野を強化するための補助ファイル…だと思う。

以下のファイルを指定すると、「人間の顔生成」が向上するっぽい。basil mixではこのvaeファイルを指定することが推奨となっているのだ。

stabilityai/sd-vae-ft-mse-original at main(ダウンロードページ)

ダウンロードしたら、モデルと同じフォルダに「basil mix.vae.pt」にリネームしておいておこう。

このリネームして置いておく、というのが最新のやり方なのかどうかは不明。でもいちおう動いてる。

この記事を書いている時点ではStableDiffusion1.5ベースのモデルが主流だった。が、そのあとSD2.0ベースのものが出てきて、1.5よりも大きい1024×1024画像を学習することで超絶品質アップするというSDXLモデルが出てきた。

SDXLは、めちゃめちゃメモリを食うのでちょっとやそっとの環境では動かない…と思っていたが、メモリを上手にやりくりしてくれるWEBUIも出てきた。

Automatic1111でSDXLが動かないな…という人は、下記のWEBUIを試してみよう。

関連)fooocusの使い方・インストール SDXLのwebui

SDXLモデルは一度使うと、もう1.5ベースとかに戻れないほどのクォリティ。新しく始めるなら、SDXLモデルを使うのがいいだろう。

Automatic1111の基本的な使い方

Automatic1111の基本的な使い方

これで準備は整った。いちおう動作テスト的に動かしてみよう。

Automatic1111をzip解凍したフォルダで、run.batをダブクリして実行する。

run.bat実行後は、それなりに時間がかかる。Dos窓が開いてなにやらファイルチェックっぽいことと必要ファイルやモデルのロードなどを始める。

で、「Running on local URL」のとこに出てる「http://127.0.0.1:…」をCtrl押しながらクリックするとブラウザ画面が勝手に開く。(URLの末尾の数字は起動ごとに変わるので、ブックマークしてもだめだ)

開いた画面の「Prompt…」と書いてある欄に適当な指示ワードを入れて、Generateをクリックで画像生成される。簡単だ。(ただし、プロンプトはモデルによって効いたり効かなかったりする)

関連)Stable Diffusionのプロンプト集

「txt2img」は、テキストから画像を生成する機能である。テキストをプロンプト(呪文)と呼ばれる入力に使用し、生成したい画像の内容を指示する感じ。

が…、出てきたのはなんかぼやけた画像…?

最低限「Sampling steps」は50くらい、CFG Scaleは12くらいにしておこう。私はパラメータの意味ははっきりわかってないけど、経験則的にこれらの数値を上げるとぼやけ画像が改善する。

くっきりした。

なお、生成ごとに違う画像が出てきてしまうので、「さっきの画像をSampling Steps変えて再生成したい!」という場合は、seedという値を固定すれば可能だ。seedは生成画像に書き込まれているので、メモるのを忘れちゃっても大丈夫。

seedの欄の-1は毎回違う画像を出すという意味。ここにseedの値を入力しておけば、生成画像が固定される。同じプロンプト入れれば、毎回同じ画像が出力されるということだ。

他にも画像を入力に使う「img2img」という機能があり、元画像をベースに新しいイラストを生成することができる。img2imgでは、より細かなニュアンスを反映させることができ、自分の理想に近いイラストを作成することが可能だ。

Automatic1111にネガティブプロンプトを入れる

Automatic1111にネガティブプロンプトを入れる

プロンプト入力欄のすぐ下の「Negative promptなんちゃらかんちゃら」と書いてある欄に、ネガティブプロンプトを入力する。これはいうなれば禁則事項というか、こういうことしちゃダメっ!っていうことを示すワードを打ち込んでおくのだ。

例えば、ネガティブプロンプトに「nude」を入れると、脱がなくなるし、「anime」と入れるとアニメ調の画像が出なくなる。

AIはネガティブプロンプトで縛らないと、ありとあらゆる可能性を試してくる。例えば「顔を変形させてみたよ!」とか「腕をたくさんはやしてみたよ!」とか「変な影をつけてみたよ!」とか子供みたいにやってくるのだ。

結果として、生成される可能性のクォリティのバラツキがものすごいことになる。ネガティブプロンプトで、「明らかにダメ」っていうやつをあらかじめ教えておくということだな。

それにしても下手くそに描かれた顔はダメ(poorly drawn face)なんてことも、いちいち指定しないといけないなんてなぁ。

ネガティブプロンプトは、例えばこんな感じ。基本的に、変な人体生成やどぎついエロ描写はしちゃだめ、みたいなことを記述している。当然、エロい画像作りたいんだよ!っていう人はエロ禁止部分を削除する必要あり。

(((deformed))), blurry, bad anatomy, disfigured, poorly drawn face, mutation, mutated, (extra_limb), (ugly), (poorly drawn hands), fused fingers, messy drawing, broken legs censor, censored, censor_bar, multiple breasts, (mutated hands and fingers:1.5), (long body :1.3), (mutation, poorly drawn :1.2), black-white, bad anatomy, liquid body, liquidtongue, disfigured, malformed, mutated, anatomical nonsense, text font ui, error, malformed hands, long neck, blurred, lowers, low res, bad anatomy, bad proportions, bad shadow, uncoordinated body, unnatural body, fused breasts, bad breasts, huge breasts, poorly drawn breasts, extra breasts, liquid breasts, heavy breasts, missingbreasts, huge haunch, huge thighs, huge calf, bad hands, fused hand, missing hand, disappearing arms, disappearing thigh, disappearing calf, disappearing legs, fusedears, bad ears, poorly drawn ears, extra ears, liquid ears, heavy ears, missing ears, fused animal ears, bad animal ears, poorly drawn animal ears, extra animal ears, liquidanimal ears, heavy animal ears, missing animal ears, text, ui, error, missing fingers, missing limb, fused fingers, one hand with more than 5 fingers, one hand with less than5 fingers, one hand with more than 5 digit, one hand with less than 5 digit, extra digit, fewer digits, fused digit, missing digit, bad digit, liquid digit, colorful tongue, blacktongue, cropped, watermark, username, blurry, JPEG artifacts, signature, 3D, 3D game, 3D game scene, 3D character, malformed feet, extra feet, bad feet, poorly drawnfeet, fused feet, missing feet, extra shoes, bad shoes, fused shoes, more than two shoes, poorly drawn shoes, bad gloves, poorly drawn gloves, fused gloves, bad cum, poorly drawn cum, fused cum, bad hairs, poorly drawn hairs, fused hairs, big muscles, ugly, bad face, fused face, poorly drawn face, cloned face, big face, long face, badeyes, fused eyes poorly drawn eyes, extra eyes, malformed limbs, more than 2 nipples, missing nipples, different nipples, fused nipples, bad nipples, poorly drawnnipples, black nipples, colorful nipples, gross proportions. short arm, (((missing arms))), missing thighs, missing calf, missing legs, mutation, duplicate, morbid, mutilated, poorly drawn hands, more than 1 left hand, more than 1 right hand, deformed, (blurry), disfigured, missing legs, extra arms, extra thighs, more than 2 thighs, extra calf,fused calf, extra legs, bad knee, extra knee, more than 2 legs, bad tails, bad mouth, fused mouth, poorly drawn mouth, bad tongue, tongue within mouth, too longtongue, black tongue,  cracked mouth, bad mouth, dirty face, dirty teeth, dirty pantie, fused pantie, poorly drawn pantie, fused cloth, poorly drawn cloth, badpantie, yellow teeth, thick lips, bad camel toe, colorful camel toe, bad asshole, poorly drawn asshole, fused asshole, missing asshole, bad anus, bad pussy, bad crotch, badcrotch seam, fused anus, fused pussy, fused anus, fused crotch, poorly drawn crotch, fused seam, poorly drawn anus, poorly drawn pussy, poorly drawn crotch, poorlydrawn crotch seam, bad thigh gap, missing thigh gap, fused thigh gap, liquid thigh gap, poorly drawn thigh gap, poorly drawn anus, bad collarbone, fused collarbone, missing collarbone, liquid collarbone, strong girl, obesity, worst quality, low quality, normal quality, liquid tentacles, bad tentacles, poorly drawn tentacles, split tentacles, fused tentacles, missing clit, bad clit, fused clit, colorful clit, black clit, liquid clit, QR code, bar code, censored, safety knickers, beard, furry,

Automatic1111の生成画像から、Seed値を知る方法

「PNG Info」というタブをクリックして、生成画像をドラッグ&ドロップすると、右側に生成時のプロンプトと「Seed:…」という情報が出てくる。これをコピーして使う。

txt2imgタブに戻して、プロンプトとSeedをコピペ。パラメータを好きにいじって、GenerateをクリックすればOKだ。

Stable DiffusionのWebUIのまとめ

  • StableDiffusionの有名なウェブインタフェースは、Automatic1111
  • Automatic1111は、簡単インストール。モデルだけ別途ダウンロードして入れる
  • インストールフォルダのrun.bat実行後、メッセージ中のURLをCtrl+クリックで画面が開く

Automatic1111以外に、精度が抜群に高いモデル、SDXL専用のFooocusというWebUIもある。メモリ使用効率が良いので、Automatic1111でSDXLが動かない…という場合に試してみるといいかも。

関連)SDXLのwebuiの使い方

Fooocusはどちらかというとアーティストよりで、なるべくパラメータをいじらなくて済む反面、メッチャ細かいパラメータ調整をしたい場合や、プラグインを入れまくりたい場合に不自由さを感じるかも知れない。

同じ作者で、メモリ使用効率がよくって、使い勝手がAutomatic1111と同じというUI、Stable Diffusion forgeというのがある。Automatic1111よりも30%くらい高速化が図られているので、SDXLが遅い…という場合は、こちらを試してみると良いだろう。

関連)webui forgeの使い方