世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-05-24

動画URLや音声ファイルをそのまま文字起こしできる「yapsnap」が面白い

キーポイント

yapsnap は、動画URLや音声ファイルをテキスト化するCLIツール
GPU不要、クラウド不要で、CPUだけで動くのが売り
YouTube、X、TikTok、Instagram Reels、ローカルの .mp4 / .mp3 など幅広く対応
初回だけモデルをダウンロードすれば、その後はオフラインで使える
--timestamps で時刻付き、--diarize で「誰が話したか」まで付けられる
依存関係がかなり軽く、手軽さがとにかく気持ちいいツールだと思う

yapsnapって何？

GitHubで公開されている yapsnap は、ひとことで言うと「動画や音声を、その場でplaintext（普通のテキスト）に変換する道具」です。

しかも、ただの文字起こしツールではありません。READMEを見る限り、このプロジェクトの気合いはかなり明確で、

GPUはいらない
クラウドにも送らない
コマンド1発で終わる

という思想が前面に出ています。

この手のツールって、最近は「AIで文字起こし」と聞くと、どうしてもクラウドAPIや高性能GPUが前提になりがちです。
でも yapsnap はそこをかなり潔く切っています。自分のPCだけで、気軽に、そこそこ高性能に動かす。この方向性はかなり好感が持てます。個人的には、こういう“地に足のついたAIツール”はかなり好きです。

何がうれしいのか

1. CPUだけで速い

READMEでは、Kroko English という streaming Zipformer transducer を使い、ラップトップのCPUでも実時間の数倍で処理できると説明されています。

ここでいう「実時間の数倍」というのは、たとえば10分の音声を10分よりかなり短く処理できる、という意味です。
もちろん環境差はありますが、少なくとも「待たされすぎてつらい」タイプのツールではなさそうです。

2. URLもローカルファイルもOK

対応範囲が広いのも強いです。

YouTube
YouTube Shorts
X / Twitter
TikTok
Instagram Reels
直接の .mp4 / .mp3 URL
ローカルの音声・動画ファイル

つまり、「Web上の動画を拾って文字起こししたい」でも、「手元の会議録音をテキスト化したい」でも、同じ道具で済むわけです。
この“入口の広さ”は、実用ツールとしてかなり重要だと思います。

3. 初回だけダウンロード、あとはオフライン

初回実行時に約80MBのモデルをダウンロードしますが、その後はオフラインで使えるそうです。

これは地味に大事です。
クラウド依存の文字起こしサービスは便利ですが、ネット環境、料金、API制限、機密情報の取り扱いなど、いろいろ気を使います。
yapsnap は「音声が自分のマシンから出ていかない」という安心感があるので、会議音声やインタビュー音声の扱いに向いていそうです。

4. 依存関係が軽い

READMEによると、ランタイム依存は主に

sherpa-onnx
numpy
yt-dlp

とのこと。
PyTorchもクラウドSDKも不要。これはかなりスッキリしています。

機械学習系のツールは、入れてみたら依存関係の森に迷い込むことがよくあります。
その点、yapsnap は「とりあえず動かす」までの心理的ハードルが低そうです。こういう軽さは正義だと思います。

使い方はかなりシンプル

READMEのQuickstartは本当にシンプルです。

pip install yapsnap
yapsnap https://www.tiktok.com/@user/video/7234567890123456789

ローカルファイルでも同じです。

yapsnap meeting.mp4 --timestamps
yapsnap interview.mp3 --diarize
yapsnap podcast.mp3 -o ~/notes/episode.txt

要するに、「入れる → 打つ → テキストが出る」だけ。
このわかりやすさはかなり魅力的です。ツールは結局、機能の多さより「最初の1回がラクかどうか」が勝負だったりします。

どんな出力が得られる？

基本は plaintext（ただのテキスト） です。保存先はデフォルトで ./transcripts/ 配下になります。

タイムスタンプなし

普通の段落として出力されます。

Welcome to the show. Today we're talking about transcription. Let's get started.

`--timestamps`

文ごとに時刻が付きます。

[00:00] Welcome to the show.
[00:03] Today we're talking about transcription.
[00:08] Let's get started.

これはあとから見返すときに便利です。
「この発言どこだっけ？」がすぐ追えるので、議事録や講義ノートにかなり向いています。

`--diarize`

さらに踏み込んで、誰が話したかまで付けます。
SPEAKER_00、SPEAKER_01 のようにラベルが付き、発話順に整理されます。

SPEAKER_00 [00:00]: Welcome to the show.
SPEAKER_01 [00:03]: Glad to be here, thanks for having me.
SPEAKER_00 [00:08]: Let's get started.

ここでいう diarize は、音声の中から話者を分ける処理です。
つまり、「声の特徴を見て、同じ人っぽい発話をまとめる」イメージです。

会議録や対談の文字起こしでは、この機能がかなり効きます。
個人的には、文字起こしそのものよりも、**“誰が話したか”が見えることのほうが実務では価値が高い**場面も多いと思います。

仕組みもわりと透明で好印象

READMEには、処理の流れがかなり素直に書かれています。

Fetch
URLなら yt-dlp で音声を取ってくる。ローカルファイルならそのまま。
Decode
ffmpeg で 16kHz mono PCM に変換する。
ここで atempo による速度調整も入ります。
Recognize
Kroko English の streaming Zipformer2 transducer が音声を認識する。
Format
プレーンテキストに整える。--timestamps を付けると文単位に時刻を付ける。

--diarize を使うと、別の音声セグメンテーションモデルと speaker embedding モデルを使って、発話者ごとに分けるそうです。

ここで大事なのは、全部CPUで完結することと、音声が外部に送られないことです。
この設計は、派手さよりも堅実さを優先していて、かなり好感が持てます。

実用面で気になるポイント

対応言語

READMEでは、英語がデフォルトで、他にもフランス語、ドイツ語、スペイン語、イタリア語、ポルトガル語、オランダ語、スウェーデン語、スイスドイツ語、ヘブライ語、トルコ語などに対応できるとあります。
ただし、これはモデルの切り替えが必要です。

つまり、「どの言語でも完全にワンクリック」というより、英語以外はモデルを選ぶ前提です。
ここは少しだけ注意が必要ですが、それでも選択肢があるのはうれしいところです。

速度調整

--speed で、文字起こし前に音声を速くできます。デフォルトは 1.5x です。
しかも音程は保ったまま速くするので、聞こえ方が変になりにくいようです。

これはおもしろい発想です。
人間が聞くときに「少し速くしても意味はわかる」ことが多いのと同じで、モデルに入れる前の処理を工夫してスピードを稼いでいるわけです。かなり賢いと思います。

出力先

デフォルトでは ./transcripts/<input>_transcript.txt のように保存されます。
もちろん -o で変更可能です。

この「デフォルトはわかりやすく、必要なら自由に変えられる」設計は、CLIツールとしてとてもいいです。
変に多機能すぎず、でも現場で困らない。ちょうどいい塩梅だと思います。

このツールのいちばん面白いところ

yapsnap の面白さは、単に「文字起こしができる」ことではないと思います。
むしろ、クラウドに頼らず、重い環境もいらず、動画URLひとつで文字情報に変えられるという体験そのものに価値があります。

今のAIツールって、派手なデモは多い一方で、「で、結局自分のPCで気軽に使えるの？」というところが弱いこともあります。
その点 yapsnap は、かなり実務的です。
「とにかく速く、静かに、余計なことをせずに動く」タイプの道具で、こういうのは長く残る気がします。

もちろん、これだけで全ての音声認識課題が解決するわけではないでしょう。
認識精度や多言語性能、長時間音声への相性など、実際には試してみないとわからない部分もあります。
でも、READMEから受ける印象としては、**“気軽に試せる実用ツール”としてかなり筋がいい**と感じました。

こんな人に向いていそう

YouTubeや配信動画をすばやくテキスト化したい人
会議録音やインタビュー音声をローカルで処理したい人
クラウドAPIに音声を送るのに抵抗がある人
GPUなしの環境で使える文字起こしツールを探している人
CLIでさくっと処理したい人

逆に、GUIアプリで全部完結したい人には少し向かないかもしれません。
でも、ターミナルに慣れている人にとっては、かなり気持ちよく使えそうです。

まとめ

yapsnap は、「動画URLや音声ファイルを、CPUだけで、クラウドなしで、すぐテキスト化する」という、かなり潔い文字起こしツールです。

派手なAIサービスというより、ちゃんと使える道具としての魅力が強いです。
個人的には、この手のプロジェクトは「便利そう」より「実際に自分の作業をどれだけ軽くするか」が重要だと思っていて、その意味で yapsnap はかなり有望に見えます。

文字起こしをもっと身近にしたい人には、かなり刺さるのではないでしょうか。

参考: GitHub - kouhxp/yapsnap: Snap any video URL or audio file into plaintext. No GPU. No cloud. One command.

同じ著者の記事

【2026年7月版】Outlookが「起動しない・クラッシュを繰り返す」最新事情 — 6月末の一斉クラッシュはビルド2605が原因、直し方はほぼ一択

「昨日まで普通に使えていたClassic Outlookが、右クリックした瞬間に落ちる」「起動してもすぐ強制終了し、次はセーフモードで開く」——2026年6月末から、この手の悲鳴がまた一気に増えた。半年前・1年前に書かれた「Outlookが起動しない完全解決ガイド」的な記事が今また読まれているのは、まさに今、Classic Outlookのクラッシュが立て続けに起きているからだ。本稿は、2026年前半に発生した複数のクラッシュ事案を発生時期・影響ビルド・原因・修正状況で整理し直し、「自分のケースはどれで、何をすれば直るか」を最短で切り分けられるようにしたものだ。結論から言うと、直近の主犯は更新プログラムの回帰（リグレッション）で、多くは“Officeを最新へ更新するだけ”で直る。設定を9個いじる前に、まずここを見たほうが早い。 > ⚠️ 先に結論: 2026年6月29日ごろから急にClassic Outlookが落ち始めたなら、疑うべきは自分の設定ではなく **Microsoft 365 Apps バージョン2605（Build 20026.20182

papoo.work

【2026年7月版】Outlookの「送信済みメールが消える」が再燃 — 犯人はWindows更新プログラム KB5074109 の可能性

「送信は成功したのに、送信済みアイテムに残っていない」——Outlookの定番トラブルが、2026年に入ってから再び相談件数を増やしている。半年前(2026年1月)に出回った解説記事の手順は今でも基本として有効だが、2026年に急増した“送信済みが消える”の主犯は、従来の設定ミスではなく Windows のセキュリティ更新プログラムそのものであることが分かってきた。本稿はその現況を、切り分け順に整理し直したものだ。 > ⚠️ 先に結論: 1月中旬以降にClassic Outlook(デスクトップ版)で急に「送信済みに入らない」「Outlookが固まる」が始まったなら、まず疑うべきは自分の設定ではなく 更新プログラム KB5074109 と PSTファイルの置き場所(OneDrive配下かどうか) だ。設定を10個いじる前に、ここを先に見たほうが早い。 --- 2026年1月のWindowsセキュリティ更新 KB5074109 導入後、**Classic Outlookで送信メールが「送信済みアイテム」に記録されない／Outlookが終了しない・フ

papoo.work

【続報】サナエトークン、ついに「当事者2人の法廷闘争」へ――三崎優太氏が溝口勇児氏に内容証明、いまどこまで進んだか

前回まで、私たちはサナエトークン騒動を「補償」「金融庁」「高市首相の否定」という3つの軸で追ってきた。補償は6月10日に申請サイトが開き、金融庁の損失相談は6月時点で5件、首相は国会で改めて全面否定――というのが直近の現在地だった。ところが騒動はここへ来て、まったく別の局面に入っている。行政・補償の話から、当事者どうしの個人間紛争、それも法廷闘争へと重心が移ったのだ。本稿はその続報である。 https://papoo.work/doc/7de9f0cf1b564dc9 実業家の三崎優太氏（元「青汁王子」）が、実業家の溝口勇児氏に内容証明を送付したと明かし、「きっと裁判になる」と法廷闘争を予告した。三崎氏は溝口氏とみられる人物の会議音声を公開し、「責任を他人になすりつけている（＝トカゲの尻尾切り）」と批判。溝口氏は「編集で切り取っている」「補償対応はやっている」と反論した。 6月26日、三崎氏は両者が共同運営していたYouTube番組「REAL VALUE」からの脱退を表明。ただし本稿執筆時点（7月7日）で、**正式な「提訴」の公

papoo.work

ブラウン大学で起きた「AIカンニング」騒動、大学の信頼はどう守るのか

ブラウン大学の経済学者ロベルト・セラーノ教授が、担当科目の試験で少なくとも50人がAIを使って不正をしたと訴えている。問題になったのは、持ち帰って解く形式の試験。自宅でじっくり考えられる反面、ChatGPTのようなAIを使いやすい。期末試験では平均点が一気に落ち、欠席者の多くが前回満点だったことから、教授は「証拠は圧倒的」と見ている。ブラウン大学の反応は鈍く、教授は「大学全体で学問の誠実さを守る議論が必要だ」と主張している。背景には、米国の名門大学で広がるAI利用の誘惑と、教育のあり方そのものを揺さぶる問題がある。ブラウン大学で起きたこの話、かなり重いです。しかも、ただの「試験でズルした人がいました」という話では終わりません。大学が長年かけて築いてきた信頼、つまり「ここで学んだ学生の成績には意味がある」という前提そのものが、AIの登場でぐらついている。この記事は、その現場で何が起きているのかをかなり生々しく伝えています。中心にいるのは、ブラウン大学の著名な経済学者ロベルト・セラーノ教授です。彼は、数学的経済学の上級学部生向け講義 ECON 1170 を担当していて、

papoo.work

AIにMRIを読ませたら、医師と真逆の答えが出た話

肩が痛い。だからMRIを撮った。そこまではよくある話です。ところがこのブログ記事は、そこで終わりません。著者はそのMRI画像を、OpenAI系のモデルではなく、Claude Code上で動かしたOpus 4.8に読ませて、「もう一つの診断」を引き出そうとします。で、出てきた答えがかなり衝撃的でした。医師は「腱板の部分断裂（Grade III）」と見たのに、AIは「腱は保たれている」と判断したんです。この差、かなり大きいです。しかも著者は、ただAIに雑に投げたわけではありません。DICOM形式のMRIデータを用意し、Claude Codeに必要なパッケージを入れさせ、かなり本気で解析させています。単なるお遊びではなく、「AIが医療画像をどこまで読めるのか」を自分の体で試した記録、と言ったほうが近いです。肩の痛みでMRIを撮った著者が、AIに画像の再読影をさせた人間の医師は「Grade IIIの部分断裂」と判断した Opus 4.8は最初、「腱は正常」と報告したその後、別の条件で再比較させた結果、AIは「明らかな断裂は見当たらない」と結論づけたただし著者自身は、AIも医師も完全に

papoo.work

AIコーディングは「レビュー」より「テスト」で殴るほうが強い、という話

著者は、AI coding を使っていると「人間なら即クビ」レベルの妙な挙動に何度も遭遇したが、それでも利用をやめるどころか、さらに使い込むようになった。この記事の中心テーマは、AI にコードを書かせるときは code review 以上に test process が大事 だ、という主張。その根拠として、著者は昔働いていた CPU 設計会社 Centaur のテスト文化を紹介する。そこでは、手書きテストより fuzzing や random testing を重視し、unit test はほぼ使わず、専任の test engineer がいた。著者は、AI 時代の開発でも「人間が全部レビューする」より、「大量の自動テストで叩く」ほうが現実的で、しかも強いと考えている。ただし、これは単なる理想論ではなく、実際にバグを見つけて直してきた現場の感覚から来ている。本文を読んでまず面白いのは、著者の出発点がかなり変わっていることです。AI coding を「便利な補助輪」ではなく、かなり攻めた実験装置として見ています。しかも、その最初の印象がすごい。バ

papoo.work

Apple Neural Engineの中身を、かなり踏み込んで覗いた研究

Appleの「Neural Engine」、通称ANEは、iPhoneやMacの中で静かに働く専用チップです。顔認識、写真の補正、音声処理、生成AIの一部まで、裏側でかなり多くの仕事を抱えています。ふだんはCore MLというApple公式の仕組み越しにしか使えないので、一般の開発者から見ると「中はブラックボックス」の代表格でした。今回のarXiv論文は、そのブラックボックスをかなり本気で分解したものです。しかも単なる憶測ではなく、Apple silicon上での直接計測と、private runtime、compiler、kernel driver、firmwareの静的解析を組み合わせている。こういう研究は地味に見えて、実はとても面白いです。Appleが“使わせるつもりのない層”にまで手を伸ばして、仕組みを記述しているわけですから。この論文は、Apple Neural Engineのアーキテクチャ、プログラミング方法、性能の限界をまとめた「リバースエンジニアリングのガイド」です。対象はA11世代のiPhone/iPadチップからA18、そしてM1からM5まで。かなり広い。特に

papoo.work

AMDでもここまで速い。GLM-5.2を“安く速く”動かしたWaferの話

Waferは、GLM-5.2をAMDのMI355X GPU上で動かし、かなり高い性能を出した。しかもポイントは「速い」だけでなく、「Blackwell系より2倍以上安いのに性能効率が高い」こと。ただし、AMDで最先端LLMをそのまま使うのは簡単ではなく、quantizationやinference frameworkの調整がかなり効いている。 speculative decode という高速化手法のために、ROCm向けの小さな修正も必要だった。個人的には、ここで見えるのは「GPUの勝負」だけではなく、「ソフトウェアの面倒をどこまで減らせるか」が勝負になってきた、という現実だと思う。 Waferの記事は、タイトルの通りかなりストレートです。要するに「1ドルあたりの性能、まだ伸ばせるし、しかも安くできる」という話です。対象はGLM-5.2というオープン系の大規模言語モデルで、これをAMD MI355X上でかなりうまく動かした、という内容でした。まず数字が強いです。Waferは、20k input / 1k output、cache hit rate 60% という条件で、1ノードあ

papoo.work

Codexに「見ちゃダメなファイル」を教える仕組みがほしい、という話

GitHubのopenai/codexリポジトリに、ちょっと地味だけどかなり重要な要望が出ています。内容はシンプルで、AIエージェントに読ませたくないファイルを明示的に除外したい、というものです。これ、派手さはないんですが実際にはかなり大事です。AIにコードを書かせる時代になっても、「これは見せていい」「これは絶対にダメ」の線引きは、人間がしっかり持っていないと危ない。そこをちゃんと仕組みにしよう、という提案です。このIssueで求められているのは、エージェントが読み込んだり、モデルに送ったりしてはいけないファイルやパスを明示できる機能です。しかも単なる一時的な指定ではなく、次の2段階を想定しています。リポジトリごとの設定ユーザー全体のグローバル設定たとえば、プロジェクト内に `.codexignore` のようなファイルを置いて「このリポジトリではこのファイル群は触るな」と定義する。一方で、ユーザー側にも「どのプロジェクトでも `.env` や秘密鍵っぽいものは見せない」という共通ルールを持てるようにしたい、という考えです。ここで面白いのは、**“プロジ

papoo.work

文字を画像にしてトークンを節約する、かなり変わったProxy「pxpipe」

Claude CodeのようなLLM向けツールで、長いテキストをそのまま送らず、画像に変換してからモデルに渡す仕組み文字がぎゅっと詰まった内容ほど得をしやすく、場合によってはトークン使用量を大きく削減できるただし万能ではなく、IDやハッシュのような“1文字でも間違えたら困る情報”は危ないだからこそ、安くなる場面と危ない場面を見極める設計になっている発想はかなり攻めているが、実務の痛点をちゃんと突いていて面白い pxpipeは、ひとことで言うと「LLMに渡す長文を、必要に応じて画像に圧縮してしまうローカルProxy」です。Proxyというのは、アプリとAPIのあいだに入って通信を中継する仕組みのこと。ブラウザの世界でいう“中継サーバー”みたいなものだと思えば大きく外れていません。普通、LLMにたくさんの文章を読ませると、そのぶんトークンが増えます。トークンは、AIが文章を扱うときの細かい単位で、課金やコンテキスト長の計算に使われます。つまり、長文を入れるほどお金も容量も食う。これは避けようがない、と思われがちです。でも pxpipe はそこに逆張りをします。大量のテキストをP

papoo.work