Qwen-Imageとnunchaku

本記事は最先端の生成AIであるQwen-Imageのさらなる普及を願って記述しています。apache-2.0ライセンスの元で公開されたQwen-Imageは真のオープンソースモデルであり、テキストエンコーダーにQwen2.5-VL-7B-Instructという強力なLLMを使う事で、FLUX.1を超える理解力を獲得しています。

そしてnunchakuは4bit量子化モデルを扱う技術の総称であり、fp8やGGUFモデルと比較すると汎用性を失っていますが、代わりにRTX50系で追加されたfp4演算(50未満では代わりにINT4)に対応するなど、高速化を達成しています。nunchakuのモデルはこちらからダウンロード可能ですが、扱うにはカスタムノードが必要です。

nunchakuとはComfyUIのカスタムノードである「ComfyUI-nunchaku」とそのバックエンドとなるpythonパッケージ「nunchaku」の2つのコンポーネントから構成されています。導入手順は下記の通りです。

  • ComfyUIのCustom-Node-Managerよりnunchakuで検索します。ComfyUI-nunchakuが見つかるので1.0.0以上をインストールします。まだバックエンドである「nunchaku」は導入されていないため再起動時にエラーが出力されます。
  • 再起動後install_wheel_sample-1.zipをComfyUIにドラッグ&ドロップします。nunchaku installerノードの項目は下記のように選びます。
    • source: huggingface or github
    • version: 1.0.0(現時点),
    • dev_version: 1.0.0dev20250904(現時点。これ以前のは動作しない)
    • backend: pip
  • プレビュー画面にSuccessfullyと表示されれば成功です。再起動してコンソールにエラーが表示されていない事を確認しましょう。
  • nunchakuはcpuオフロード機能に対応しています。タスクマネージャーで観察すると共有VRAMを利用している表示が出るのが不思議です。通常のお漏らしと違って速度が低下しません。恐らく5060(laptop)でも快適に動作するのではないでしょうか。5060はCUDA数から考えてもコスパ最高ですが、VRAM容量のせいで涙を呑んでいた人は多いはず?!救われましたね!
    • 5060は勿論無印。5060Ti-16GBはコスパ最悪です……

あとは必要なモデルを集めます。

  • 本体モデル:「ComfyUI\models\diffusion_models」: こちらから選びます
    • RTX50以上の方はfp4_r128、それ以外の方はint_r128を選びます。r32は設定かもしれませんが画質が良くないようでした。現時点ではloraに対応していないのでlightning版を選んでも良いと思います。
      • lightning版のサンプラーの設定はeular,simple,step=4~6,cfg=1、速度重視の人はres_multistep,beta,step=2でも綺麗です。下記はサンプル
      • rtx5070,1760×1440,6.33秒
      • int版は試していませんがfp4版は爆速です。新TensorRTのエンジン?を使っているのでしょう。
  • テキストエンコーダ:「ComfyUI\models\text_encoders」:通常モデル用のと共用できます。GGUF版でもfp8版でも自由に選べます。
    • 変わり種ではこちら。脱獄したバージョンも使えます。mmprojファイルもダウンロードして同フォルダに配置しますが名前は変える必要があります。例えば「Qwen2.5-VL-7B-Instruct-abliterated-i1-f16o-mmproj.gguf」
    • 量子化はどれを選べばいいか迷うと思いますが、シンプルなワークフローの場合はVRAMより少し小さい容量を選べば問題ありません。
      • サンプリング時にはメインRAM上に退避していますので、極端に小さなサイズは選ばない方がいいでしょう。テキストのエンコード品質は画質に影響が出ます。Q3とQ8では結構絵が変わります。
  • VAE:通常モデルと共用です。

あとはワークフローですが上記のセーラー服の画像からどうぞ。

以上です。あとはおまけ。おっぱいが出るのでよい子は注意!

Qwen-Image+wan2.2


投稿日

カテゴリー:

投稿者: