ToolCraft
Trang chủCông cụ AICông cụ lập trìnhChuyển đổi đơn vịCông cụ hình ảnh
ToolCraft

© 2026 ToolCraft. All rights reserved.

Chính sách Bảo mậtĐiều khoản Dịch vụ
DMCA.com Protection Status
Trang chủCông cụ AudioText to Speech

Công cụ Audio

Audio Converter & TrimmerAudio NormalizerBPM DetectorText to Speech

Text to Speech

Chuyển văn bản thành giọng nói bằng voice có sẵn của trình duyệt. 50+ ngôn ngữ, chạy offline sau khi voice được cài.

Ctrl+EnterChạy
130 / 5000
Tốc độ1.00×
Cao độ1.00
Âm lượng100%

⚡ Giọng on-device (offline) · 🌐 Giọng cần network

Trình duyệt này không hỗ trợ ghi âm ra file. Dùng Chrome hoặc Edge, hoặc chuyển sang Engine B (Piper) để có file WAV tải xuống.

Web Speech chạy cục bộ trên trình duyệt. Văn bản không gửi lên server (giọng cloud stream trong process trình duyệt).

Xem tất cả Công cụ Audio

Xem tất cả
100% offline
New

Audio Converter & Trimmer

Cắt, resample, mono/stereo, gain, fade — chuyển audio sang WAV 16-bit ngay trên trình duyệt.

Công cụ Audio
100% offline
New

Audio Normalizer

Chuẩn hoá độ to audio về target Spotify/YouTube/Podcast/Broadcast theo peak hoặc LUFS — hoàn toàn trên trình duyệt.

Công cụ Audio
100% offline
New

BPM Detector

Phát hiện tempo (BPM) của bất kỳ bài hát hay beat nào bằng cách phân tích khoảng cách peak — chạy hoàn toàn trên trình duyệt.

Công cụ Audio

Text-to-Speech trình duyệt: Web Speech tức thời + Piper neural

Công cụ Text-to-Speech expose hai engine bổ trợ nhau, cả hai đều chạy hoàn toàn trên trình duyệt. Engine A (Web Speech) dùng voice đã cài trên OS — tức thời, không cần download, hoạt động offline sau khi voice cài xong, nhưng chất lượng tuỳ OS và độ phủ ngôn ngữ không đều cho ngôn ngữ ít tài nguyên. Engine B (Piper Neural qua VITS) load model ONNX nhỏ gọn từ Hugging Face lần đầu dùng và chạy qua onnxruntime-web, tạo voice ngang với cloud TTS thương mại như Google Cloud và Amazon Polly. Piper hỗ trợ 35+ ngôn ngữ với 100+ voice — bao gồm tiếng Việt (vais1000, vivos), tiếng Nhật, tiếng Trung (huayan), tiếng Hàn, và nhiều ngôn ngữ châu Âu ít tài nguyên nơi Web Speech thường không có gì dùng được. Lần đầu chọn voice Piper, công cụ tải model (thường 10–60 MB tuỳ preset chất lượng) và cache trong OPFS của trình duyệt; lần sau tức thời và offline hoàn toàn. Cả hai engine có voice picker theo ngôn ngữ, và output Piper là file WAV download được trực tiếp drop vào video editor hay workflow podcast.

Cách chọn giữa hai engine

Dùng Web Speech khi cần narration nhanh ở ngôn ngữ phổ biến (Anh/Tây Ban Nha/Pháp/Đức/Nhật/Trung) và voice neural OS-shipped đủ tốt. Dùng Piper khi (1) ngôn ngữ ít tài nguyên mà Web Speech không có voice dùng được, (2) cần file WAV download để edit, (3) cần chất lượng nhất quán xuyên các platform (Web Speech nghe khác trên Windows vs macOS vs Linux), hoặc (4) nội dung nhạy cảm và muốn không có network call lúc tổng hợp (Piper tổng hợp cục bộ sau lần download model duy nhất).

FAQ