世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-05-19

GenCADとは何か？画像からCADプログラムまで生成するAIの正体

キーポイント

GenCADは、画像を入力するとCADモデルを生成する研究プロジェクトです。
ただ3D形状を出すだけでなく、CADのコマンド履歴そのものも生成するのが大きな特徴です。
Meshやpoint cloudではなく、parametric CAD programを扱うので、あとから修正しやすいのが強みです。
仕組みは、Transformer + contrastive learning + diffusion model + decoder の4段構成。
同じ画像から複数のCAD候補を出したり、CAD検索（retrieval）もできます。
個人的には、これは「AIが形を真似る」段階から、**“設計の意図”に近づこうとしている**のが面白いと思います。

GenCADは何をするのか

GenCADは、MITのMd Ferdous Alam氏とFaez Ahmed氏による研究で、正式には
「Image-conditioned Computer-Aided Design Generation with Transformer-based Contrastive Representation and Diffusion Priors」
というタイトルです。

ざっくり言うと、画像を見て、その形に近いCADを作るAIです。
ただし、ここで重要なのは「3Dっぽい箱を作る」レベルではないこと。GenCADは、CAD program（CADの命令列）まで出力します。

これはかなり大事です。

普通、AIで3Dを扱うときは、mesh（ポリゴンの集合）やvoxel（3Dのマス目）、point cloud（点の集まり）を使うことが多いです。これらは扱いやすい反面、工業設計や製造では不便なことがあります。
なぜなら、設計現場では「形がある」だけでは足りなくて、寸法を変えたい、穴の位置を調整したい、厚みを修正したいといった変更が必要だからです。

そこに対してCADは、単なる見た目ではなく、パラメータ付きの設計データです。
つまり、後から編集しやすい。ここがGenCADの狙いで、私はかなり筋がいい発想だと思います。

何がすごいのか

GenCADの面白さは、**“見た目の再現”ではなく“設計可能な形”を生成する**ところにあります。

AIが3D画像を作れるのは、もう珍しくありません。
でも、実際に編集できるCADとして出すのは別物です。
これは、絵としての3Dではなく、エンジニアが使える3Dに近づく試みだと言えます。

元記事では、GenCADは以下を実現すると説明されています。

image-conditional CAD generation
- 画像を条件にCADを生成する
sample diversity
- 同じ画像入力でも、複数のCAD候補を出せる
CAD retrieval
- 画像に合うCAD programを検索できる

この「複数候補を出す」というのも地味に重要です。
設計って、正解が1つとは限りません。むしろ、同じ見た目に見える形でも、内部の作り方は何通りもありえます。
GenCADはそこに対して、**“1案だけでなく複数案を返す”**方向に寄せているわけで、実務的な感覚があります。

仕組みをやさしく言うと

GenCADは、4つの段階で動きます。

1. CAD command sequenceをTransformerで学習する

まず、CADの命令列をTransformer encoderで学習します。

Transformerは、今やAI界の定番モデルです。
文章だけでなく、命令の並びや手順のような順序情報を学ぶのが得意です。

CAD programも、結局は「この操作の次にこの操作をする」という手順の列なので、Transformerと相性がいいのは納得感があります。

2. CAD画像とCAD命令列をcontrastive learningで近づける

次に、contrastive learningを使って、画像とCAD programの表現を近づけます。

contrastive learningは、簡単に言うと

対応するもの同士は近づける
関係ないもの同士は離す
という学習法です。

たとえば、ある画像とその正しいCAD命令列は近く、別の形のCAD命令列は遠くなるように学習します。
これによって、画像とCADの「意味の対応」が取りやすくなるわけです。

3. diffusion modelでCAD latentを生成する

3つ目は、latent diffusion modelです。

latentというのは、ざっくり言えば圧縮された内部表現のことです。
diffusion modelは、ノイズだらけの状態から少しずつきれいな形を作っていく生成モデルで、画像生成で有名になりました。

GenCADでは、このdiffusion modelを使って、画像を条件にCADのlatent表現を生成します。
つまり、「こんな見た目のものを作りたい」という入力から、まずは内部の設計表現を作るイメージです。

4. decoderでCAD命令列に戻す

最後に、decoderがlatentをparametric CAD commandsの列に変換します。

ここでようやく、実際のCADプログラムになります。
そして、そのCAD programをgeometry kernelで処理すれば、3D solid modelに変換できる、という流れです。

この流れを見ていると、GenCADは「3D形状を直接当てる」のではなく、
設計の中間表現をちゃんと経由して、編集可能なCADに戻すことを重視しているのがわかります。
私はここに、かなり研究としての誠実さを感じます。

なぜB-repではなくCAD programなのか

元記事では、B-rep（boundary representation）などのCADデータ構造は複雑で、AIの学習が難しいと説明されています。

B-repは、3D形状を面・辺・頂点の関係で表す方法です。
精密ですが、データ構造としてはかなりややこしい。
そのため、AIで扱うのが難しく、結果としてmeshやvoxelに逃げることが多かったわけです。

でも、そこには弱点があります。
meshやvoxelは、見た目はそれっぽくても、工業設計で必要な「変更のしやすさ」を失いやすいのです。

GenCADはそこを踏まえて、parametric CAD command sequenceを直接出す方向を取っています。
これは、見た目だけでなく、設計データとして意味のある生成を目指している、と言えます。

デモで見えること

元記事のサイトでは、AIベースのgenerative CAD modelのデモが紹介されています。
画像からCADを生成し、さらに同じ画像に対して複数サンプルを出すこともできます。

また、CAD retrievalとして、画像条件に合うCAD programを、約7000個のCAD programの集合から上位3件探す例も示されています。

このretrieval機能も、単なるおまけではありません。
実際の設計現場では、「ゼロから作る」だけでなく、既存の候補から探すことも多いからです。
その意味で、GenCADは生成モデルでありながら、検索ツールとしての顔も持っているのが面白いです。

どこが重要なのか

GenCADの重要ポイントは、たぶん次の2つです。

1. 3D“っぽさ”ではなく、編集可能なCADを目指していること

ここが本質です。
AIが3Dを作る話はたくさんありますが、作ったあとにいじれるかは別問題です。
GenCADはそこを真正面から扱っています。

2. 複数モダリティの表現学習を重視していること

画像とCAD programを別々に扱うのではなく、共通の表現空間でつなげようとしているのがポイントです。
これがうまくいけば、画像からの生成だけでなく、検索や比較などにも広がりやすいはずです。

率直な感想

個人的には、GenCADはかなり「実務寄りの夢」がある研究だと思います。
AI生成って、見た目は派手でも、実際の設計・製造の世界に持ち込むと急に弱くなることが多いんですよね。
でもGenCADは、そこを避けずにCAD programそのものへ踏み込んでいる。

もちろん、研究デモと現場投入の間には大きな距離があります。
複雑な設計、例外処理、厳しい公差、製造制約など、現実のCADはかなり手強いです。
なので、これがそのまま設計自動化の完成形になる、とはまだ言えないでしょう。

それでも、**“3Dを描くAI”から“設計を生成するAI”へ**という流れを感じさせるのは確かです。
この方向性は、かなり面白いと思います。

まとめ

GenCADは、画像を入力として編集可能なCAD programを生成する研究です。
単なる3D形状生成ではなく、設計の手順そのものを出力する点がユニークで、工業設計や製造との相性を強く意識しています。

Transformer、contrastive learning、diffusion modelを組み合わせた構成は少し複雑ですが、狙いは明快です。
見た目が似ているだけでなく、あとからちゃんと使えるCADを作る。
この発想が、GenCADのいちばん大きな価値だと思います。

参考: GenCAD

同じ著者の記事

Excelの文字が勝手に変わる本当の理由 ―― テーマフォントとAptos騒動

「昨日まで普通だったのに、開いたら文字の形も行の高さも違う」。Excelでこれをやられると地味に腹が立つ。ネット上の解説は「値のみ貼り付けを使え」「条件付き書式を消せ」で止まっているものが多いが、それは症状の一部でしかない。原因の大半は、もっと下のレイヤーにある。フォント名がセルに直接書かれていないこと ―― つまりテーマフォントという仕組みだ。 Excelのフォント一覧を開くと、いちばん上に「テーマのフォント」という区切りがあって、`游ゴシック（本文）` `游ゴシック Light（見出し）` の2つが並んでいる。既定の状態では、あなたが打ち込んだセルはこの「本文のフォント」を参照している。具体的な書体名（游ゴシック）を持っているのではなく、「このブックのテーマが本文用に指定している書体、それが何であれ」という*ポインタ*を持っているだけだ。だから、テーマが変わればセルの見た目も一斉に変わる。ページレイアウトタブの「テーマ」や「フォント」を切り替える、別のテーマが設定されたブックにシートをコピーする、あるいはテーマ設定の異なる環境でファイルを開く ―― どれをやっても、一文字

papoo.work

Outlook「送信済みメールが見つからない」を2026年版で仕分ける — Classic / New Outlook / Exchange Online / OAuth / Recoverable Items

「送信は成功したのに、送信済みアイテムに残っていない」——Outlook 定番のトラブルだが、2026年の対処は1年前と大きく変わった。理由は3つ。(1) New Outlook for Windows が Classic Outlook を段階的に置き換え、`.ost` を持たない Web ベース実装に変わりつつあること。(2) Exchange Online の Basic Auth 廃止が長期化し、レガシー IMAP/POP クライアント側の「送信済み」問題が実運用に響いていること。(3) Copilot for Microsoft 365 のインデックス連携と Retention / Litigation Hold の干渉で、「消えた」ではなく「別階層に隔離された」パターンが増えたこと。本稿では2026年時点の原因を頻度・切り分け順に整理する。 > ⚠️ 前提: 「Outlook」といっても実体は Classic Outlook (Win32 / OL2016〜2024 / M365 Apps)、**New Outlook for

papoo.work

ChatGPTの会話履歴が消えた・表示されないを直す【2026年6月版】

「昨日まであった会話が、サイドバーから消えている」——ChatGPT 利用者の定番の不安だ。だが2026年の今は、1年前とは原因も設定画面もすっかり変わっている。最大の変化は、(1) かつての対処の定番だった 「Chat history & training（会話履歴とトレーニング）」トグルが廃止され、データ設定が再編されたこと。そして (2) 「アーカイブ」「一時チャット（Temporary Chat）」「プロジェクト」といった、履歴が“消えたように見える”新しい仕組みが増えたことだ。本稿では2026年時点で本当に効く見極めと対処を、頻度の高い順に整理する。 > ⚠️ 注記: ChatGPT は UI と設定項目の変更が速い。下記は本稿執筆時点（2026年6月）の挙動。「削除」した会話は UI・API・サポートのいずれからも復旧できないのは今も同じ。まずは「本当に削除したのか」を疑うこと。 --- 2026年は「消えた≠削除」が大半。まず アーカイブ / 一時チャット / 別アカウント の3つを疑う **昔の「会話履歴とトレーニング」ト

papoo.work

AIモデルの政治的な“傾き”を地図にしたTrakkrの実験がかなり面白い

AIに「この政策はどう思う？」とか「どの候補者に近い？」と聞くと、返ってくる答えに妙な一貫性を感じることがあります。Trakkrの「Political bias in AI」は、その“なんとなくの印象”を、かなりきっちり測ろうとしたページです。ざっくり言うと、主要なAIモデルに政治・経済・言論・社会に関する刺激の強い質問を何度も投げ、その答えの傾向を地図に落とし込んでいます。しかもWeb検索はオフ。つまり、ネット上の情報を拾った結果ではなく、そのモデル自身がどんな方向に寄りやすいかを見ているわけです。ここがまずおもしろい。 Trakkrは、主要AIモデルの政治的・社会的な“傾き”を可視化している 1回だけでなく、同じ質問を何度も繰り返し、答えのブレも含めて見ている Web検索はオフなので、「ネットがそう言っていた」ではなく「モデル自体がどう答えるか」を測っている 6モデルのうち、4つが左寄りに見えたただし、どのモデルも一枚岩ではなく、質問によってかなり揺れる自分で同じ質問に答えると、どのモデルに近いかも見られるこのページの芯はとてもシンプルです。 AIモデルに、政治や社会の難し

papoo.work

CUDA kernelを走らせると裏で何が起きているのか

「GPUで計算する」と聞くと、なんだか一瞬で魔法みたいに処理が終わる印象があります。でも元記事は、その裏側にある泥臭い手順を、かなり執念深く追いかけています。しかも題材は、たった1行のベクター加算。`a[i] + b[i]` を並列に足すだけの、いちばん地味なCUDAプログラムです。地味だからこそ面白い。GPUという巨大な装置が、どれだけの段取りを踏んでこの1行を実行しているのかが、くっきり見えてきます。 `nvcc` は1つのコンパイラではなく、複数のコンパイラをまとめて動かす“司令塔”です CUDAのコードは、まずPTXという中間表現になり、その後SASSというGPU実機向け命令に変わります `vadd<<<4096, 256>>>(...)` のような記法は、ホスト側で引数を詰める「stub」に置き換えられます GPUカーネルの引数は、constant bank 0 に載って読み出されます実行時には、CPU側のランタイム、`libcuda.so`、ドライバ、PCIe越しのGPUが連携して動きますただ“GPUに投げた”だけに見える処理の背後で、かなり多くの機械的な準備が走って

papoo.work

「安いAIモデル」が高級ブランドを揺さぶる

Open Weight Models は、モデルの中身を公開して配布するタイプのAIで、誰でも自分の環境に近い形で使いやすい。記事の筆者は、DeepSeek V4 の安さを見て、Anthropic や OpenAI の“フロンティアモデル”との価格差があまりに大きいと感じている。その差は、単に「少し高い」ではなく、トークン単価ベースでほぼ50倍にも見える、というのが衝撃点。さらに筆者は、高価格を維持するために「希少性」を演出する動きがあるのでは、と疑っている。将来の競争軸は、単なる Open Weight ではなく、学習データの流れまで公開する「True Open Source」へ移るのではないか、と見ている。 AllenAI の OLMo や、NSF と Nvidia の支援も、その流れの例として挙げられている。この記事で面白いのは、AIの性能そのものより「値段のつけ方」に真正面から噛みついているところです。ふつうAIの話は「賢い」「速い」「便利」で終わりがちですが、ここではかなり露骨に「その高額料金、本当に必要？」と問いかけています。私はここがかなり重要だと思います。A

papoo.work

黒箱LLMから小型モデルへ知識をどう渡すか、Proxy-KDという発想が面白い

大規模言語モデルの世界は、ここ数年ずっと「でかいモデルが強い」の一強でした。GPT-4のような商用LLMは性能が抜群ですが、中身は見えません。APIの向こう側にいて、内部状態や学習の細部には触れられない。研究する側からすると、これはかなりもどかしい。この論文 `Knowledge Distillation of Black-Box Large Language Models` は、その厄介な壁をどう越えるかを真正面から扱っています。しかもアイデアがわりと気持ちいい。黒箱LLMの出力を、そのまま小型モデルに押し込もうとするのではなく、proxy model という“仲介役”を挟むのです。知識蒸留（knowledge distillation, KD）は、強いモデルの知識を小さいモデルへ移すやり方です。たとえば大きな先生モデルが出した答えを手本にして、軽い生徒モデルを育てるイメージです。ただ、普通の蒸留は先生の内部情報も使えることが多い。どの単語にどれくらい自信があるか、途中でどう考えているか、といった情報ですね。ところが黒箱LLMはそこが見えない。返ってくるのは最終出力だけ

papoo.work

AIエージェントに必要なのは「長い会話」より「本当の記憶」だった

大きな context window は、記憶そのものではない それは「一時的に広い机」を持っているようなもので、セッションが終われば消える以前の会話を毎回ぜんぶ送り直すやり方は、長くなるほど重く、遅くなる Retrieval は「必要な資料だけを本棚から持ってくる」仕組み Compression は中身をなるべく保ったまま、入力を小さくする工夫 Summarization は要点だけ残す方法で、元データは別に保存しておくのが安全 AIエージェントを作るときは、モデルに全部覚えさせるより、DBや検索の役割を分けるほうがうまくいく元記事の主張はかなり明快です。 context window が大きいことと、memory があることは別物だ、という話です。ここでいう context window は、AIモデルが一度に読める文章量の上限です。人間でいうと「机の上に広げて見られる書類の量」に近い。広ければ広いほど便利そうですが、だからといって「その机が記憶装置になる」わけではありません。著者のたとえがわかりやすいです。巨大な机を買って、ファイルキャビネット

papoo.work

Qwen-AgentWorldが狙う「LLMで世界をまるごと動かす」発想

大きなAIモデルを見ていると、最近は「文章をうまく作る」だけでは全然足りないんだな、としみじみ思います。次に来るのは、AIが環境の動きまで頭の中で予測する方向です。今回のarXiv論文 Qwen-AgentWorld: Language World Models for General Agents は、まさにそこを真正面から狙っています。ざっくり言えば、これは「言語モデルを使って、エージェントが置かれた世界の変化をシミュレーションする」研究です。チャットの延長ではなく、AIが「この操作をしたら次に何が起きるか」を考えられるようにする。ここが肝です。正直、この発想はかなりおもしろいです。AIを“答える機械”から“先読みする機械”に近づけようとしているので。 Qwen-AgentWorldは、agentic environment をシミュレートする language world model 35B-A3B版と397B-A17B版の2モデルを公開 **7つのドメインをまたいで、long chain-of-thought reasoning による環境予測

papoo.work

中国版「Mythos」登場、その中身はかなり本気だった

Qihoo 360の創業者・周鴻禕氏が、北京のISC.AI 2026で脆弱性発見AI「Tulong Feng」を発表した。彼はこれを、Anthropicのサイバーセキュリティ向けAI「Claude Mythos」に対する中国版だと位置づけた。同じタイミングで、中国のZ.aiは近い性能を持つモデル「GLM-5.2」をMITライセンスで公開し、誰でも無料で使える形にした。セキュリティ評価では、GLM-5.2が一部のベンチマークでClaude Codeを上回ったとされ、コスト面でもかなり安い。ただし、これは「中国がついに米国に追いついた」と単純に言う話ではなく、AIサイバーセキュリティの覇権争いがかなり露骨になってきた、というニュースだと思う。中国のサイバーセキュリティ業界が、かなりはっきり「うちはうちでやる」と言い始めている。Decryptの記事が伝えているのは、そんな空気感だ。話の中心にいるのは、Qihoo 360の創業者・周鴻禕氏。Qihoo 360は中国では有名なセキュリティ企業で、個人向けの保護ソフトや企業向け防御で存在感がある。その周氏が、北京で開かれたISC.AI

papoo.work