メインコンテンツへスキップ

英語の登壇動画、1分48秒で日本語化できた話 – NPC

(更新: 2026.05.19)

「絶対観ろ」と言われた英語動画で、自分の英語力にがっかりした話

英語の動画、ありますよね。「これ絶対観た方がいい」って強く勧められたけど、開いてみたら全部英語で、字幕も微妙で、結局よくわからないまま閉じてしまうやつ。

今日まさにそれをやってしまって、あまりに悔しかったのでClaudeに相談することにした。結論から言うと、31分の英語講演動画を 1分48秒で日本語のテキスト にできるところまで持っていけた。同じように英語の動画で戸惑う人がいると思うので、ハマったところと一緒に書いておく。

X(旧Twitter)でAI界隈の人が「これ絶対観た方がいい」と紹介していたのが、AIコーディング系の有名なエンジニアが本番環境でのAI開発について語っている31分の講演。内容自体はめちゃくちゃ気になる。でも英語。Chromeの自動字幕(CC)も試したけど、思いの外いい感じに翻訳されない。

動画のURLをClaudeに投げて「これ読み取れる?」と聞いてみた。Claude Codeならなんとかできるだろう、くらいの感覚で。返ってきた答えは「動画そのものは見られないけど、音声を抜いて文字起こしして要約することならできますよ」。なるほど、その手があったか。任せた。

Claudeが用意してくれた道具立て(Mac用の環境構築)

Claudeが「これでいきます」と提示してきたツールは3つ。Macなら全部Homebrewで一発で入る。処理の流れはざっとこんな感じ。

動画URL
yt-dlpで音声DL
whisper.cppで文字起こし
Claudeで要約・翻訳

インストールコマンドはこれだけ。

brew install yt-dlp ffmpeg whisper-cpp

あとは文字起こしのモデル(=AIの脳みそにあたるファイル)を1つダウンロードしておく。Whisperには軽い順に tiny / base / small / medium / large とサイズ違いがあって、Claudeいわく「英語の動画なら medium.en(約1.5GB・英語特化)で十分」。最大サイズの large-v3(約3GB)まで上げる必要なし。素人考えで「重い方が良いんでしょ?」と思っていたので、ここはお任せして正解だった。

ハマったポイント:whisper.cppじゃないとMacで動かない

Claudeも最初は「Whisper」で出てくる openai-whisper(Python版)を入れようとして、MacのPython 3.14と相性が悪くてエラーで止まった。普通ならここで心が折れるところを、Claudeは一旦インストールを止めて調べ直してくれる。あらためて出てきた答えが whisper.cpp

Apple Silicon(M1/M2/M3 Mac)には whisper.cpp というC++版があって、こっちがMetal GPU(=Macに内蔵されているGPU)を使ってくれる。要するに同じ処理を圧倒的に速くできる。Claudeが整理してくれた比較がこちら。

openai-whisper(Python版)
  • 知名度が高くドキュメントが豊富
  • Pythonバージョン依存でハマりやすい
  • Apple Silicon GPU加速は限定的

結論、Apple SiliconのMacでこれをやるなら whisper.cpp 一択。Pythonの環境を汚さずに済むのも地味にありがたい。普段WordPressやNext.jsをいじっていてPythonを常用していない自分にとって、依存の絡まりに踏み込まずに済むのは大きい。

実際にやってみたら、想像の3倍速かった

動画から音声を抜くのは yt-dlp で一発。HLSストリーム形式(=細切れに配信される動画形式)の動画でも、623個のフラグメントを自動で結合して1本のファイルにしてくれる。便利すぎる。

そこから whisper.cpp に渡したら、31分の音声を 1分48秒で文字起こし完了。書き出されたテキストは約30KB。これをClaudeがそのまま読み込んで、要約と日本語訳まで一気にやってくれた。「講演で言ってる核心」がぜんぶ手元に並んだ状態。

正直、ちょっと感動した。今までの自分なら、英語動画は最初の2分くらい観て「うん、まあいいや」で閉じてた。それが、Claudeに「読める?」と聞いてコーヒーを淹れに行って戻ってきたらもう日本語のテキストになっている。30分の動画を観るより、3分でテキストを流し読みする方が情報の吸収率も高い。

一度作れば、ずっと使える「自分専用ツール」になる

この環境のいいところは、一回セットアップすれば あらゆる動画に使える こと。要点だけまとめておく。

YouTube・Xの動画もOK:yt-dlpはほぼ主要プラットフォームに対応している
Apple SiliconならGPU加速:MacのMetalで動くので、外部GPUもクラウドも要らない
テキスト化したらAIに繋ぐ:要約・翻訳・記事化、その先は自由自在

個人的に一番大きかったのは、「英語だから」という理由で情報を諦めなくなった こと。海外のAIエンジニアの講演、技術カンファレンス、登壇動画——「Claude、これ読める?」と聞けば、一次情報のまま手元に届く時代になった。Webやテクノロジー界隈にいて、これは確実に武器になる。

まとめ:英語の壁は、AIに任せて越える時代

翻訳ツールが進化したとか、字幕の精度が上がったとか、そういう話ではなくて。「英語動画のURLを投げれば日本語のテキストで返ってくる」 という体験ができたことが、この1日の収穫だった。今まで「観たいけどしんどいな」で閉じていた動画リストが、急に開拓可能な情報源に変わった感覚。

環境構築は brew install yt-dlp ffmpeg whisper-cpp の1行と、モデルファイル1個だけ。週末のうちにポチッと入れておくと、月曜から世界が少し広く見えるかもしれない。

※この記事はNPCの中の人の実務経験をもとに書いています。

コメントを残す

メールアドレスは公開されません。

CAPTCHA



デザイン切替 // THEME
N
NPC アシスタント
オンライン