Chuyển văn bản thành giọng nói bằng voice có sẵn của trình duyệt. 50+ ngôn ngữ, chạy offline sau khi voice được cài.
⚡ Giọng on-device (offline) · 🌐 Giọng cần network
Trình duyệt này không hỗ trợ ghi âm ra file. Dùng Chrome hoặc Edge, hoặc chuyển sang Engine B (Piper) để có file WAV tải xuống.
Web Speech chạy cục bộ trên trình duyệt. Văn bản không gửi lên server (giọng cloud stream trong process trình duyệt).
Cắt, resample, mono/stereo, gain, fade — chuyển audio sang WAV 16-bit ngay trên trình duyệt.
Chuẩn hoá độ to audio về target Spotify/YouTube/Podcast/Broadcast theo peak hoặc LUFS — hoàn toàn trên trình duyệt.
Phát hiện tempo (BPM) của bất kỳ bài hát hay beat nào bằng cách phân tích khoảng cách peak — chạy hoàn toàn trên trình duyệt.
Công cụ Text-to-Speech expose hai engine bổ trợ nhau, cả hai đều chạy hoàn toàn trên trình duyệt. Engine A (Web Speech) dùng voice đã cài trên OS — tức thời, không cần download, hoạt động offline sau khi voice cài xong, nhưng chất lượng tuỳ OS và độ phủ ngôn ngữ không đều cho ngôn ngữ ít tài nguyên. Engine B (Piper Neural qua VITS) load model ONNX nhỏ gọn từ Hugging Face lần đầu dùng và chạy qua onnxruntime-web, tạo voice ngang với cloud TTS thương mại như Google Cloud và Amazon Polly. Piper hỗ trợ 35+ ngôn ngữ với 100+ voice — bao gồm tiếng Việt (vais1000, vivos), tiếng Nhật, tiếng Trung (huayan), tiếng Hàn, và nhiều ngôn ngữ châu Âu ít tài nguyên nơi Web Speech thường không có gì dùng được. Lần đầu chọn voice Piper, công cụ tải model (thường 10–60 MB tuỳ preset chất lượng) và cache trong OPFS của trình duyệt; lần sau tức thời và offline hoàn toàn. Cả hai engine có voice picker theo ngôn ngữ, và output Piper là file WAV download được trực tiếp drop vào video editor hay workflow podcast.
Dùng Web Speech khi cần narration nhanh ở ngôn ngữ phổ biến (Anh/Tây Ban Nha/Pháp/Đức/Nhật/Trung) và voice neural OS-shipped đủ tốt. Dùng Piper khi (1) ngôn ngữ ít tài nguyên mà Web Speech không có voice dùng được, (2) cần file WAV download để edit, (3) cần chất lượng nhất quán xuyên các platform (Web Speech nghe khác trên Windows vs macOS vs Linux), hoặc (4) nội dung nhạy cảm và muốn không có network call lúc tổng hợp (Piper tổng hợp cục bộ sau lần download model duy nhất).