英語の登壇動画、1分48秒で日本語化できた話 – NPC
「絶対観ろ」と言われた英語動画で、自分の英語力にがっかりした話
英語の動画、ありますよね。「これ絶対観た方がいい」って強く勧められたけど、開いてみたら全部英語で、字幕も微妙で、結局よくわからないまま閉じてしまうやつ。
今日まさにそれをやってしまって、あまりに悔しかったのでClaudeに相談することにした。結論から言うと、31分の英語講演動画を 1分48秒で日本語のテキスト にできるところまで持っていけた。同じように英語の動画で戸惑う人がいると思うので、ハマったところと一緒に書いておく。
X(旧Twitter)でAI界隈の人が「これ絶対観た方がいい」と紹介していたのが、AIコーディング系の有名なエンジニアが本番環境でのAI開発について語っている31分の講演。内容自体はめちゃくちゃ気になる。でも英語。Chromeの自動字幕(CC)も試したけど、思いの外いい感じに翻訳されない。
動画のURLをClaudeに投げて「これ読み取れる?」と聞いてみた。Claude Codeならなんとかできるだろう、くらいの感覚で。返ってきた答えは「動画そのものは見られないけど、音声を抜いて文字起こしして要約することならできますよ」。なるほど、その手があったか。任せた。
Claudeが用意してくれた道具立て(Mac用の環境構築)
Claudeが「これでいきます」と提示してきたツールは3つ。Macなら全部Homebrewで一発で入る。処理の流れはざっとこんな感じ。
インストールコマンドはこれだけ。
brew install yt-dlp ffmpeg whisper-cpp
あとは文字起こしのモデル(=AIの脳みそにあたるファイル)を1つダウンロードしておく。Whisperには軽い順に tiny / base / small / medium / large とサイズ違いがあって、Claudeいわく「英語の動画なら medium.en(約1.5GB・英語特化)で十分」。最大サイズの large-v3(約3GB)まで上げる必要なし。素人考えで「重い方が良いんでしょ?」と思っていたので、ここはお任せして正解だった。
ハマったポイント:whisper.cppじゃないとMacで動かない
Claudeも最初は「Whisper」で出てくる openai-whisper(Python版)を入れようとして、MacのPython 3.14と相性が悪くてエラーで止まった。普通ならここで心が折れるところを、Claudeは一旦インストールを止めて調べ直してくれる。あらためて出てきた答えが whisper.cpp。
Apple Silicon(M1/M2/M3 Mac)には whisper.cpp というC++版があって、こっちがMetal GPU(=Macに内蔵されているGPU)を使ってくれる。要するに同じ処理を圧倒的に速くできる。Claudeが整理してくれた比較がこちら。
- 知名度が高くドキュメントが豊富
- Pythonバージョン依存でハマりやすい
- Apple Silicon GPU加速は限定的
- Homebrewで一発インストール
- Metal GPU加速で爆速
- Apple Silicon Macなら断然こっち
結論、Apple SiliconのMacでこれをやるなら whisper.cpp 一択。Pythonの環境を汚さずに済むのも地味にありがたい。普段WordPressやNext.jsをいじっていてPythonを常用していない自分にとって、依存の絡まりに踏み込まずに済むのは大きい。
実際にやってみたら、想像の3倍速かった
動画から音声を抜くのは yt-dlp で一発。HLSストリーム形式(=細切れに配信される動画形式)の動画でも、623個のフラグメントを自動で結合して1本のファイルにしてくれる。便利すぎる。
そこから whisper.cpp に渡したら、31分の音声を 1分48秒で文字起こし完了。書き出されたテキストは約30KB。これをClaudeがそのまま読み込んで、要約と日本語訳まで一気にやってくれた。「講演で言ってる核心」がぜんぶ手元に並んだ状態。
正直、ちょっと感動した。今までの自分なら、英語動画は最初の2分くらい観て「うん、まあいいや」で閉じてた。それが、Claudeに「読める?」と聞いてコーヒーを淹れに行って戻ってきたらもう日本語のテキストになっている。30分の動画を観るより、3分でテキストを流し読みする方が情報の吸収率も高い。
一度作れば、ずっと使える「自分専用ツール」になる
この環境のいいところは、一回セットアップすれば あらゆる動画に使える こと。要点だけまとめておく。
個人的に一番大きかったのは、「英語だから」という理由で情報を諦めなくなった こと。海外のAIエンジニアの講演、技術カンファレンス、登壇動画——「Claude、これ読める?」と聞けば、一次情報のまま手元に届く時代になった。Webやテクノロジー界隈にいて、これは確実に武器になる。
まとめ:英語の壁は、AIに任せて越える時代
翻訳ツールが進化したとか、字幕の精度が上がったとか、そういう話ではなくて。「英語動画のURLを投げれば日本語のテキストで返ってくる」 という体験ができたことが、この1日の収穫だった。今まで「観たいけどしんどいな」で閉じていた動画リストが、急に開拓可能な情報源に変わった感覚。
環境構築は brew install yt-dlp ffmpeg whisper-cpp の1行と、モデルファイル1個だけ。週末のうちにポチッと入れておくと、月曜から世界が少し広く見えるかもしれない。
※この記事はNPCの中の人の実務経験をもとに書いています。