Qwen-Imageとnunchaku – ＡＩと物語

本記事は最先端の生成ＡＩであるQwen-Imageのさらなる普及を願って記述しています。apache-2.0ライセンスの元で公開されたQwen-Imageは真のオープンソースモデルであり、テキストエンコーダーにQwen2.5-VL-7B-Instructという強力なLLMを使う事で、FLUX.1を超える理解力を獲得しています。

そしてnunchakuは4bit量子化モデルを扱う技術の総称であり、fp8やGGUFモデルと比較すると汎用性を失っていますが、代わりにRTX50系で追加されたfp4演算(50未満では代わりにINT4)に対応するなど、高速化を達成しています。nunchakuのモデルはこちらからダウンロード可能ですが、扱うにはカスタムノードが必要です。

nunchakuとはComfyUIのカスタムノードである「ComfyUI-nunchaku」とそのバックエンドとなるpythonパッケージ「nunchaku」の２つのコンポーネントから構成されています。導入手順は下記の通りです。

ComfyUIのCustom-Node-Managerよりnunchakuで検索します。ComfyUI-nunchakuが見つかるので1.0.0以上をインストールします。まだバックエンドである「nunchaku」は導入されていないため再起動時にエラーが出力されます。
再起動後install_wheel_sample-1.zipをComfyUIにドラッグ＆ドロップします。nunchaku installerノードの項目は下記のように選びます。
- source: huggingface or github
- version: 1.0.0(現時点),
- dev_version: 1.0.0dev20250904(現時点。これ以前のは動作しない)
- backend: pip
プレビュー画面にSuccessfullyと表示されれば成功です。再起動してコンソールにエラーが表示されていない事を確認しましょう。
nunchakuはcpuオフロード機能に対応しています。タスクマネージャーで観察すると共有VRAMを利用している表示が出るのが不思議です。通常のお漏らしと違って速度が低下しません。恐らく5060(laptop)でも快適に動作するのではないでしょうか。5060はCUDA数から考えてもコスパ最高ですが、VRAM容量のせいで涙を呑んでいた人は多いはず？！救われましたね！
- 5060は勿論無印。5060Ti-16GBはコスパ最悪です……

あとは必要なモデルを集めます。

本体モデル：「ComfyUI\models\diffusion_models」: こちらから選びます
- RTX50以上の方はfp4_r128、それ以外の方はint_r128を選びます。r32は設定かもしれませんが画質が良くないようでした。現時点ではloraに対応していないのでlightning版を選んでも良いと思います。
  - lightning版のサンプラーの設定はeular,simple,step=4～6,cfg=1、速度重視の人はres_multistep,beta,step=2でも綺麗です。下記はサンプル
  - rtx5070,1760×1440,6.33秒
  - int版は試していませんがfp4版は爆速です。新TensorRTのエンジン？を使っているのでしょう。
テキストエンコーダ：「ComfyUI\models\text_encoders」：通常モデル用のと共用できます。GGUF版でもfp8版でも自由に選べます。
- 変わり種ではこちら。脱獄したバージョンも使えます。mmprojファイルもダウンロードして同フォルダに配置しますが名前は変える必要があります。例えば「Qwen2.5-VL-7B-Instruct-abliterated-i1-f16o-mmproj.gguf」
- 量子化はどれを選べばいいか迷うと思いますが、シンプルなワークフローの場合はVRAMより少し小さい容量を選べば問題ありません。
  - サンプリング時にはメインRAM上に退避していますので、極端に小さなサイズは選ばない方がいいでしょう。テキストのエンコード品質は画質に影響が出ます。Q3とQ8では結構絵が変わります。
VAE：通常モデルと共用です。

あとはワークフローですが上記のセーラー服の画像からどうぞ。

以上です。あとはおまけ。おっぱいが出るのでよい子は注意！

Qwen-Image+wan2.2