使用浏览器内置音色将文本转为语音。支持 50+ 语言,音色安装后可离线使用。
⚡ 本地音色(离线) · 🌐 需联网音色
当前浏览器不支持录制到文件。请使用 Chrome 或 Edge,或切换到引擎 B(Piper)以获得可下载的 WAV。
Web Speech 在浏览器本地运行,不会向服务器发送文本(云端音色仅在浏览器进程内流式传输)。
本文本转语音工具暴露两个互补的引擎,均完全在浏览器内运行。引擎 A(Web Speech)使用操作系统中已安装的音色 — 即时、无需下载、音色安装后可离线使用,但质量因 OS 而异,低资源语言的覆盖也不均衡。引擎 B(通过 VITS 实现的 Piper Neural)在首次使用时从 Hugging Face 加载紧凑的 ONNX 模型,在 onnxruntime-web 上运行,生成的音色可与 Google Cloud、Amazon Polly 等商用云 TTS 媲美。Piper 覆盖 35+ 语言、100+ 音色,包括越南语(vais1000、vivos)、日语、中文(huayan)、韩语,以及众多 Web Speech 通常无可用音色的低资源欧洲语言。首次选择 Piper 音色时,工具会下载模型(取决于质量预设,通常 10–60 MB)并缓存到浏览器 OPFS 存储;后续使用立即、完全离线。两个引擎都按语言提供音色选择器,Piper 的输出是可下载的 WAV 文件,可直接拖入视频编辑器或播客工作流。
主流语言(英/西/法/德/日/中)只需快速旁白,且 OS 自带神经音色质量足够时,使用 Web Speech。在以下场景使用 Piper:(1)低资源语言且 Web Speech 没有可用音色;(2)需要可下载的 WAV 进行编辑;(3)需要跨平台一致质量(Web Speech 在 Windows/macOS/Linux 上听感不同);(4)内容敏感,希望合成时无任何网络调用(Piper 在一次模型下载后完全本地合成)。