文本转语音

本文本转语音工具暴露两个互补的引擎,均完全在浏览器内运行。引擎 A(Web Speech)使用操作系统中已安装的音色 — 即时、无需下载、音色安装后可离线使用,但质量因 OS 而异,低资源语言的覆盖也不均衡。引擎 B(通过 VITS 实现的 Piper Neural)在首次使用时从 Hugging Face 加载紧凑的 ONNX 模型,在 onnxruntime-web 上运行,生成的音色可与 Google Cloud、Amazon Polly 等商用云 TTS 媲美。Piper 覆盖 35+ 语言、100+ 音色,包括越南语(vais1000、vivos)、日语、中文(huayan)、韩语,以及众多 Web Speech 通常无可用音色的低资源欧洲语言。首次选择 Piper 音色时,工具会下载模型(取决于质量预设,通常 10–60 MB)并缓存到浏览器 OPFS 存储;后续使用立即、完全离线。两个引擎都按语言提供音色选择器,Piper 的输出是可下载的 WAV 文件,可直接拖入视频编辑器或播客工作流。

文本转语音

查看全部音频工具

音频转换与剪辑

音频归一化

BPM 检测

文本转语音

查看全部音频工具

音频转换与剪辑

音频归一化

BPM 检测

浏览器文本转语音: 即时 Web Speech + 神经 Piper

如何在两个引擎之间选择

FAQ

文本转语音

查看全部 音频工具

音频转换与剪辑

音频归一化

BPM 检测

文本转语音

查看全部 音频工具

音频转换与剪辑

音频归一化

BPM 检测

浏览器文本转语音: 即时 Web Speech + 神经 Piper

如何在两个引擎之间选择

FAQ

查看全部音频工具

查看全部音频工具