目录

只需两行代码,实现语音转文字(转载)

目录

🚀 只需两行代码,实现语音转文字(Whisper-ctranslate2)

这是目前我发现最快、最简单的语音转文字方案之一。

一个小时的音频文件,只需要几分钟就可以完成处理,非常适合做字幕、笔记整理、访谈转录等场景。

它不仅支持多语言(英语 + 96种语言),还能在噪音环境下保持不错的识别效果,即使口音较重也能处理。

最重要的是:
👉 完全免费 + 开源

我们使用的是 whisper-ctranslate2,这是基于 OpenAI Whisper 的升级版本(OpenAI 也就是开发 ChatGPT 的公司)。

相比原版 Whisper,它的特点是:

  • ⚡ 速度更快
  • 🎯 精度更高
  • 🧠 使用更简单

🧩 安装(第一行代码)

pip install git+https://github.com/Softcatala/whisper-ctranslate2

🎧 语音转文字(第二行代码)

whisper-ctranslate2 audio.mp3 --device cuda --model large-v3

🌍 翻译成英文(英文字幕)

如果你想直接把语音翻译成英文:

whisper-ctranslate2 audio.mp3 --device cuda --model large-v3 --task translate

🇨🇳 中文识别优化(简体 / 繁体)

简体中文优化:

whisper-ctranslate2 audio.mp3 --device cuda --model large-v3 --initial_prompt 这是一段中文普通话

📦 支持输出格式

该工具可以输出多种格式,包括:

TXT(纯文本) SRT(字幕文件) VTT(网页字幕) JSON(结构化数据)

⚙️ 优势总结 ⏱ 快速处理:1小时音频 → 几分钟完成 🌍 多语言支持:96+语言 🔊 抗噪能力强 🗣 支持重口音识别 💯 免费开源 🧠 背后技术

该工具基于 OpenAI 的 Whisper 模型(OpenAI 是 ChatGPT 的开发公司),并在其基础上进行了优化升级。

whisper-ctranslate2 的核心优化在于:

推理速度优化(更快) 模型加载优化(更轻) 命令行简化(更易用)

📌 适用场景 视频字幕生成 会议记录整理 采访转写 课程笔记整理 多语言翻译

🚀 一句话总结

用两行命令,把语音直接变成可编辑文本或字幕文件。

来路