只需两行代码,实现语音转文字(转载)
🚀 只需两行代码,实现语音转文字(Whisper-ctranslate2)
这是目前我发现最快、最简单的语音转文字方案之一。
一个小时的音频文件,只需要几分钟就可以完成处理,非常适合做字幕、笔记整理、访谈转录等场景。
它不仅支持多语言(英语 + 96种语言),还能在噪音环境下保持不错的识别效果,即使口音较重也能处理。
最重要的是:
👉 完全免费 + 开源
我们使用的是 whisper-ctranslate2,这是基于 OpenAI Whisper 的升级版本(OpenAI 也就是开发 ChatGPT 的公司)。
相比原版 Whisper,它的特点是:
- ⚡ 速度更快
- 🎯 精度更高
- 🧠 使用更简单
🧩 安装(第一行代码)
pip install git+https://github.com/Softcatala/whisper-ctranslate2
🎧 语音转文字(第二行代码)
whisper-ctranslate2 audio.mp3 --device cuda --model large-v3
🌍 翻译成英文(英文字幕)
如果你想直接把语音翻译成英文:
whisper-ctranslate2 audio.mp3 --device cuda --model large-v3 --task translate
🇨🇳 中文识别优化(简体 / 繁体)
简体中文优化:
whisper-ctranslate2 audio.mp3 --device cuda --model large-v3 --initial_prompt 这是一段中文普通话
📦 支持输出格式
该工具可以输出多种格式,包括:
TXT(纯文本) SRT(字幕文件) VTT(网页字幕) JSON(结构化数据)



