ToolCraft
首页AI工具开发者工具单位转换图片工具
ToolCraft

© 2026 ToolCraft. All rights reserved.

隐私政策服务条款
DMCA.com Protection Status
首页音频工具文本转语音

音频工具

音频转换与剪辑音频归一化BPM 检测文本转语音

文本转语音

使用浏览器内置音色将文本转为语音。支持 50+ 语言,音色安装后可离线使用。

Ctrl+Enter运行
130 / 5000
语速1.00×
音高1.00
音量100%

⚡ 本地音色(离线) · 🌐 需联网音色

当前浏览器不支持录制到文件。请使用 Chrome 或 Edge,或切换到引擎 B(Piper)以获得可下载的 WAV。

Web Speech 在浏览器本地运行,不会向服务器发送文本(云端音色仅在浏览器进程内流式传输)。

查看全部 音频工具

查看全部
100% 离线
New

音频转换与剪辑

剪辑、重采样、单声道/立体声、增益、淡入淡出 — 在浏览器内将任意音频转换为 16-bit WAV。

音频工具
100% 离线
New

音频归一化

按 Spotify/YouTube/播客/广播基准对音频响度做峰值或 LUFS 归一化 — 全程浏览器内运行。

音频工具
100% 离线
New

BPM 检测

通过分析峰值间隔检测任意歌曲或节拍的速度(BPM)— 全程在浏览器内运行。

音频工具

浏览器文本转语音: 即时 Web Speech + 神经 Piper

本文本转语音工具暴露两个互补的引擎,均完全在浏览器内运行。引擎 A(Web Speech)使用操作系统中已安装的音色 — 即时、无需下载、音色安装后可离线使用,但质量因 OS 而异,低资源语言的覆盖也不均衡。引擎 B(通过 VITS 实现的 Piper Neural)在首次使用时从 Hugging Face 加载紧凑的 ONNX 模型,在 onnxruntime-web 上运行,生成的音色可与 Google Cloud、Amazon Polly 等商用云 TTS 媲美。Piper 覆盖 35+ 语言、100+ 音色,包括越南语(vais1000、vivos)、日语、中文(huayan)、韩语,以及众多 Web Speech 通常无可用音色的低资源欧洲语言。首次选择 Piper 音色时,工具会下载模型(取决于质量预设,通常 10–60 MB)并缓存到浏览器 OPFS 存储;后续使用立即、完全离线。两个引擎都按语言提供音色选择器,Piper 的输出是可下载的 WAV 文件,可直接拖入视频编辑器或播客工作流。

如何在两个引擎之间选择

主流语言(英/西/法/德/日/中)只需快速旁白,且 OS 自带神经音色质量足够时,使用 Web Speech。在以下场景使用 Piper:(1)低资源语言且 Web Speech 没有可用音色;(2)需要可下载的 WAV 进行编辑;(3)需要跨平台一致质量(Web Speech 在 Windows/macOS/Linux 上听感不同);(4)内容敏感,希望合成时无任何网络调用(Piper 在一次模型下载后完全本地合成)。

FAQ