只需两行代码,实现语音转文字(转载)
目录
🚀 只需两行代码,实现语音转文字(Whisper-ctranslate2)
这是目前我发现最快、最简单的语音转文字方案之一。
一个小时的音频文件,只需要几分钟就可以完成处理,非常适合做字幕、笔记整理、访谈转录等场景。
它不仅支持多语言(英语 + 96种语言),还能在噪音环境下保持不错的识别效果,即使口音较重也能处理。
最重要的是:
👉 完全免费 + 开源
我们使用的是 whisper-ctranslate2,这是基于 OpenAI Whisper 的升级版本(OpenAI 也就是开发 ChatGPT 的公司)。
相比原版 Whisper,它的特点是:
- ⚡ 速度更快
- 🎯 精度更高
- 🧠 使用更简单
🧩 安装(第一行代码)
pip install git+https://github.com/Softcatala/whisper-ctranslate2
🎧 语音转文字(第二行代码)
whisper-ctranslate2 audio.mp3 --device cuda --model large-v3
🌍 翻译成英文(英文字幕)
如果你想直接把语音翻译成英文:
whisper-ctranslate2 audio.mp3 --device cuda --model large-v3 --task translate
🇨🇳 中文识别优化(简体 / 繁体)
简体中文优化:
whisper-ctranslate2 audio.mp3 --device cuda --model large-v3 --initial_prompt 这是一段中文普通话
📦 支持输出格式
该工具可以输出多种格式,包括:
TXT(纯文本) SRT(字幕文件) VTT(网页字幕) JSON(结构化数据)
⚙️ 优势总结 ⏱ 快速处理:1小时音频 → 几分钟完成 🌍 多语言支持:96+语言 🔊 抗噪能力强 🗣 支持重口音识别 💯 免费开源 🧠 背后技术
该工具基于 OpenAI 的 Whisper 模型(OpenAI 是 ChatGPT 的开发公司),并在其基础上进行了优化升级。
whisper-ctranslate2 的核心优化在于:
推理速度优化(更快) 模型加载优化(更轻) 命令行简化(更易用)
📌 适用场景 视频字幕生成 会议记录整理 采访转写 课程笔记整理 多语言翻译
🚀 一句话总结
用两行命令,把语音直接变成可编辑文本或字幕文件。