世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

Claude CodeのSkillで、自宅GPUからAIキャラ画像を自動生成する話

記事のキーポイント

Claude Codeには、会話の流れで自動発動する Skill と、/コマンド で明示実行する Command がある
この記事は、自宅のComfyUIサーバーにClaude Codeから画像生成を投げる仕組みを紹介している
クラウドGPUは便利だけど、モデルの再ダウンロード、起動待ち、従量課金の心理的ストレスが地味に面倒
自宅GPUなら、待ち時間なし・追加課金なし・好きなタイミングで実行できるのが強い
構成はシンプルに言うと、
Claude CodeのSkill → Pythonスクリプト → ComfyUI API → GPUで画像生成
SKILL.md は「AIへの業務マニュアル」みたいなもので、自然言語で手順を書いておくのがポイント
generate.py は標準ライブラリだけで書かれており、外部ライブラリなしでも動かせる設計
キャラクターごとの設定は CHARACTERS に足していけば拡張できる
LoRAやベースモデルの選定も重要で、記事では waiIllustrious などSDXL系の話も出てくる
個人的には、これは「AIにお願いする」から一歩進んで、AIに作業手順を教え込む発想が面白いと思う

この記事がやっていること

元記事は、Claude Codeの Skill を使って、自宅のGPUサーバーで動く ComfyUI に画像生成を依頼する仕組みを作る話です。

ざっくり言うと、

人間がClaude Codeに「AI秘書の画像を作って」と頼む
Claude Codeが内容を理解する
Skillのルールに従ってPythonスクリプトを呼ぶ
PythonがComfyUIのAPIに投げる
自宅GPUで画像が生成される

という流れです。

これ、地味に見えてかなり便利そうです。
なぜなら、チャットで雑に頼むだけで、自分の手元の環境が画像生成マシンとして動くからです。
私はこういう「普段使いの会話から、裏でちゃんと実行される」仕組みが好きで、かなり実用的だと思います。

なぜクラウドGPUじゃなくて自宅GPUなのか

記事では最初に、RunPodのようなクラウドGPUの「ちょっと面倒なところ」が挙げられています。

たとえば、

サービス終了時にストレージが消える
起動のたびにモデルをダウンロードし直す
永続ストレージは追加課金が必要
再起動したらGPUがなくてCPU起動だった、という事故もある
「1枚だけ試したい」のに、起動待ちとロード待ちで数分飛ぶ

このへん、使ったことがある人には「あるある」ではないでしょうか。
便利なのは間違いないんだけど、使うたびに小さなストレスが積み重なるんですよね。

元記事の主張はかなり明快で、
「自分のGPUがあるなら、自分のGPUを使えばいい」
という話です。

これはすごく素朴だけど強いです。
特に画像生成って、「毎回しっかり課金してまで使う」というより、思いついた瞬間に1枚出したい場面が多いので、従量課金の心理的ブレーキがないのはかなり大事だと思います。

前提条件：どんな環境が必要か

この記事では、以下のような前提が示されています。

ハードウェアの目安

GPU: VRAM 8GB以上、できれば12GB以上
RAM: 16GB以上、推奨は32GB
ストレージ: 空き50GB以上、できれば100GB以上

特に重要なのはGPUのVRAMです。
VRAMは、GPU専用のメモリみたいなものです。画像生成ではここをかなり使います。

元記事では、SDXLなら12GBほぼ必須という前提で話が進みます。
ここはかなり現実的だと思います。画像生成は「動くかどうか」より「どれだけ快適か」の差が大きく、VRAMが足りないと一気に苦しくなるからです。

GPU市場の話がかなり生々しい

記事の面白いところは、単なる理論ではなく、2026年4月時点のGPU市場のしんどさまで触れていることです。

たとえば、

RTX 3060 12GBはコスパ最強と言われがちだが、入手が難しい
新品は高騰し、中古も争奪戦
4060や5060は8GBで、SDXL用途だとやや厳しい
5060 Ti 16GBや4070以上なら余裕だが高い

筆者の結論はかなりはっきりしていて、
中古のRTX 3060 12GBを狙うのが現実的
とのことです。

ただし、マイニング酷使品には注意、というコメントもあります。
このあたり、夢のある話だけで終わらず、ちゃんと現実も見ているのが好印象でした。

WindowsでもLinuxでもOK。でも常駐運用ならLinuxが気持ちいい

ComfyUI自体はWindowsでもLinuxでも動きます。

元記事では、構成ごとの難易度をこんなふうに整理しています。

Windowsの普段使いPC: 一番手軽
Linux（Ubuntuなど）: サーバー用途に向く
Proxmox + GPUパススルー: かなりオタク向け、でも強い

ここは初心者向けの入口としてもわかりやすいです。
最初はWindowsのゲーミングPCで試して、慣れてきたらLinuxやVMに移る、という流れが自然だと思います。

筆者はUbuntuの専用VMにComfyUIを常駐させているそうで、かなり本格派です。
正直、こういう構成は「やりすぎ」感もあるけど、Claude Codeから常時呼び出す前提なら理にかなっているとも思います。

仕組みの全体像

この記事のキモは、構成を3層に分けている点です。

1. Skill層

SKILL.md に、「こういう依頼が来たら、こう解釈して、こう実行する」というルールを書く層です。

要するに、AI向けの業務マニュアルです。
これはかなり言い得て妙で、人間の新人に渡す手順書とほぼ同じ発想です。

2. スクリプト層

generate.py がここです。

キャラクター設定をまとめる
プロンプトを組み立てる
ComfyUI APIを呼ぶ

この「実務」の部分をPythonで持ちます。

3. 生成層

実際に画像を作るComfyUIです。
GPUが働く本丸ですね。

この分離がいいのは、

キャラ追加はPythonの辞書を足すだけ
ComfyUI側の変更がSkill層に波及しにくい
Claude Codeの更新とも切り離しやすい

というところです。

こういう分割は地味だけど強いです。
私は、AI周りの自動化は「全部AIに任せる」より「役割分担を明確にする」ほうが安定すると思っています。この記事はその好例です。

Skillって何？ Commandとどう違う？

Claude Codeには、独自機能を追加する仕組みとして Skill と Command がある、というのが記事の説明です。

Skill

会話の文脈からClaudeが自動で判断して動く
たとえば「画像を生成して」で発火する

Command

/comfyui のように明示的に呼ぶ
確実にその処理を走らせたいときに便利

元記事では両方を用意しています。
これ、かなり実用的な判断だと思います。

自然言語は楽だけど、たまに意図を取り違えることがある。
一方でコマンドは確実だけど、少しだけ手間がある。
両方あると気分で使い分けられるので、かなり使い勝手が良さそうです。

`SKILL.md` は「業務マニュアル」

記事で紹介されている SKILL.md は、こんな役割を持ちます。

何をするSkillなのかを書く
キャラクター一覧を書く
ユーザーの意図をどう解釈するか書く
日本語の説明を英語プロンプトに変換するルールを書く
最後に generate.py を実行する

つまり、Claude Codeに対して
「あなたはこういう係です」
と説明する文書です。

ここがかなり面白いところで、Skill設計って結局はAIに仕事を振るための社内マニュアルづくりなんですよね。
プログラミングというより、運用設計・ドキュメント設計に近い。
この感覚は、今後のAI活用でかなり重要になる気がします。

`generate.py` の役割

generate.py は、ComfyUIに画像生成の依頼を投げるPythonスクリプトです。

ポイントは、外部ライブラリを使わず、Python標準ライブラリだけで書いていること。
これはかなり親切です。環境構築で詰まりにくいからです。

やっていることは、だいたい以下です。

コマンドライン引数からキャラ名とシチュエーションを受け取る
キャラ情報を辞書から読む
プロンプトを組み立てる
ComfyUI APIに送る
完了を待つ
生成画像をダウンロードする

この流れはシンプルですが、実用上は十分です。
正直、画像生成の自動化って凝った仕掛けより、こういう単純で壊れにくい構成のほうが長持ちすると思います。

何を変更すれば使えるのか

記事では、変更ポイントが3つに絞られています。

COMFYUI_URL
- ComfyUIのアドレス
- 同じPCなら http://127.0.0.1:8188
CHARACTERS
- キャラ名、外見タグ、LoRAファイル名
build_workflow()
- ComfyUI GUIで作ったワークフローJSONを入れる

この「変更する場所を最小限にする」設計はかなり大事です。
こういう自動化ツールって、最初は動いても後で保守が面倒になりがちですが、触る場所が少ないと継続しやすいんですよね。

LoRAとベースモデルの話

記事では、キャラクター表現の鍵として LoRA が出てきます。

LoRAは、ざっくり言うと
「元のモデルに、特定キャラや画風のクセを後から足す追加ファイル」
のようなものです。

元記事では、LoRAを探す場所として civitai.com が紹介されています。
Stable Diffusion系ではかなり有名なコミュニティサイトですね。

また、ベースモデルとしては以下が挙げられています。

waiIllustrious
NoobAI-XL
Pony Diffusion

このあたりはかなり“沼”ですが、記事では SDXL系で、アニメ寄りなら waiIllustrious が有力という流れです。

個人的には、モデル選びは本当に沼だと思います。
でも逆に言うと、一度自分の好みの組み合わせが決まると、かなり快適になります。
「このモデルなら大体こういう絵になる」という安心感は、AI画像生成ではかなり大きいです。

完成すると何がうれしいのか

元記事の完成イメージはこうです。

ユーザーが「AI秘書の画像を生成して。オフィスで微笑んでる感じで」と言う
Claude Codeが Skill を起動
キャラとシチュエーションを解釈
generate.py secretary "office, gentle smile, looking at viewer, warm light" のように実行
ComfyUIに送信
30〜60秒で画像生成完了

これ、地味だけどかなり便利です。
「画像を作る」という作業が、アプリを開いて設定してクリックする行為ではなく、自然な依頼文に変わるからです。

ここが一番の価値だと思います。
ツールを増やす話ではなく、作業を言葉に戻しているんですよね。
これはAI時代っぽい発想で、かなり好きです。

応用の余地も大きい

記事では、さらに応用アイデアも触れられています。

複数キャラを一括生成する
シチュエーションのプリセットを増やす
マルチエージェントでプロンプトを練る

このへんまで行くと、ただの画像生成を超えて、キャラ制作の自動ラインみたいになってきます。
やりすぎると完全に趣味の工場になるけど、そういうのが楽しい人にはたまらないはずです。

この記事の面白さ

率直に言うと、この記事の面白さは「Claude Codeで画像生成できる」という表面より、
AIへの依頼を、手順書とスクリプトに分解して運用しているところにあります。

AIツールって、つい「何でもやってくれる魔法」に見えがちです。
でも実際は、何をどうやってやるかを丁寧に設計したほうが強い。
この記事はその感覚をかなりうまく形にしていると思います。

あと、自宅GPUにこだわる姿勢もいいです。
クラウドの便利さを認めつつ、それでも「自分のマシンで回したい」と言い切るのは、かなり筋が通っています。
技術趣味としても、所有感としても、これは確かに楽しい。

まとめ

この元記事は、Claude CodeのSkillを使って、自宅のComfyUIサーバーに画像生成を自動発注する仕組みを作る方法を紹介しています。

ポイントは、

Skillで自然言語の依頼を受ける
PythonでComfyUI APIにつなぐ
自宅GPUでサクッと画像を出す

という流れを作ることです。

「AIに絵を描かせる」だけなら珍しくないですが、
自分のローカル環境に常駐させて、言葉だけで動かすところに、この話の気持ちよさがあります。

個人的には、こういう「AIを日用品にする」方向の工夫はかなり面白いと思います。
派手なデモより、日々の使い勝手を底上げする仕組みのほうが、結局長く残る気がするからです。

参考: Claude Codeの「Skill」で、自宅GPUサーバーからAIキャラ画像を自動生成する

同じ著者の記事

Gemini API File Searchがマルチモーダル対応に。RAGをもっと実用的にするGoogleの新アップデート

Googleが、Gemini APIのFile Searchツールを大きくアップデートしました。今回のポイントは、ざっくり言うと「テキストだけでなく画像もまとめて検索できるようになった」こと、そして「検索の根拠をページ単位で示しやすくなった」ことです。これ、地味に見えてかなり重要です。RAG（検索拡張生成）を実際にアプリへ入れようとすると、「欲しい情報がうまく見つからない」「どの資料のどこを根拠に答えたのか説明しにくい」といった壁にぶつかりがちなんですよね。Googleはそこを、かなり実務寄りに改善してきた印象です。 File Searchがmultimodal対応 テキストだけでなく、画像も一緒に扱えるようになった custom metadataに対応 ファイルに `department: Legal` のようなラベルを付けて、整理・絞り込みしやすくなる page-level citationsを追加 どのページを根拠に答えたかを示しやすくなり、透明性が上がる RAGをより「実用」寄りに改善 プロトタイプだけでなく、業務アプリ