只需两行代码，实现语音转文字（转载）

2026-05-13 约 112 字预计阅读 1 分钟

🚀 只需两行代码，实现语音转文字（Whisper-ctranslate2）

这是目前我发现最快、最简单的语音转文字方案之一。

一个小时的音频文件，只需要几分钟就可以完成处理，非常适合做字幕、笔记整理、访谈转录等场景。

它不仅支持多语言（英语 + 96种语言），还能在噪音环境下保持不错的识别效果，即使口音较重也能处理。

最重要的是：
👉 完全免费 + 开源

我们使用的是 whisper-ctranslate2，这是基于 OpenAI Whisper 的升级版本（OpenAI 也就是开发 ChatGPT 的公司）。

相比原版 Whisper，它的特点是：

🧩 安装（第一行代码）

pip install git+https://github.com/Softcatala/whisper-ctranslate2

whisper-ctranslate2 audio.mp3 --device cuda --model large-v3

如果你想直接把语音翻译成英文：

whisper-ctranslate2 audio.mp3 --device cuda --model large-v3 --task translate

简体中文优化：

whisper-ctranslate2 audio.mp3 --device cuda --model large-v3 --initial_prompt 这是一段中文普通话

📦 支持输出格式

该工具可以输出多种格式，包括：

TXT（纯文本） SRT（字幕文件） VTT（网页字幕） JSON（结构化数据）

⚙️ 优势总结 ⏱ 快速处理：1小时音频 → 几分钟完成 🌍 多语言支持：96+语言 🔊 抗噪能力强 🗣 支持重口音识别 💯 免费开源 🧠 背后技术

该工具基于 OpenAI 的 Whisper 模型（OpenAI 是 ChatGPT 的开发公司），并在其基础上进行了优化升级。

whisper-ctranslate2 的核心优化在于：

推理速度优化（更快）模型加载优化（更轻）命令行简化（更易用）

📌 适用场景视频字幕生成会议记录整理采访转写课程笔记整理多语言翻译

🚀 一句话总结

用两行命令，把语音直接变成可编辑文本或字幕文件。