Speech Studio

Ứng dụng Mac mã nguồn mở để nhân bản giọng nói nội bộ và tạo hội thoại nhiều người nói. Thả mẫu giọng, nhân bản, viết kịch bản, tổng hợp — tất cả trên laptop. Không cần API key, không cần đám mây, không tính phí theo ký tự.

github.com/soniqo/speech-studio Apache 2.0 Cài đặt

Bài kiểm tra mù 30 giây: một giọng thật, cùng giọng đó được nhân bản nội bộ bởi Speech Studio trên MacBook, và cùng giọng được nhân bản bởi ElevenLabs trên đám mây. Bạn có phân biệt được không?

Tính năng

Nhân bản giọng từ một đoạn tham chiếu ngắn — thả vài giây giọng nói, nhân bản giọng đó nội bộ.
Tạo hội thoại nhiều người nói — viết một cảnh có nhiều người nói, tổng hợp tất cả trong một lần.
Chạy hoàn toàn trên Mac của bạn — VoxCPM2 qua MLX, DeepFilterNet3 để khử nhiễu, không cần mạng.
Mã nguồn mở theo Apache 2.0 — fork, nhúng, xây dựng trên đó.

Yêu cầu

macOS 15+ (Apple Silicon), Windows 10+ (x64) hoặc Linux (x64)
Apple Silicon trên Mac; bất kỳ CPU 64-bit hiện đại nào trên Windows/Linux
Tối thiểu 8 GB RAM (khuyến nghị 16 GB)
~3–5 GB ổ đĩa cho các mô hình giọng nói (tải xuống ở lần chạy đầu)

Cài đặt

Tải bản dựng cho nền tảng của bạn từ GitHub Releases — macOS .dmg, Windows .msi/.exe, hoặc Linux .deb/.AppImage — rồi mở nó:

↓ Tải bản mới nhất Tất cả bản phát hành

Các bản dựng chưa được ký: trên macOS hãy mở bằng cách nhấp chuột phải → Open (hoặc System Settings → Privacy & Security → Open anyway); trên Windows chọn More info → Run anyway trong SmartScreen. Lần khởi chạy đầu tải mô hình giọng nói VoxCPM2 (~2.75 GB trên macOS, ~4.6 GB trên Windows/Linux) và lưu cache; các lần sau dùng lại cache.

Thích CLI hơn?

Pipeline nhân bản tương tự có trong CLI speech: brew install soniqo/tap/speech, rồi speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — tiện cho script hoặc tiền dựng theo lô. Xem hướng dẫn nhân bản giọng để biết toàn bộ luồng.

Trạng thái

Speech Studio đang trong giai đoạn preview (v0.0.4), với trình cài đặt cho macOS, Windows, and Linux — macOS nhân bản qua MLX, Windows và Linux qua engine LiteRT VoxCPM2 trong speech-core. Repo nguồn github.com/soniqo/speech-studio theo dõi ứng dụng GUI; star/watch để nhận thông báo bản phát hành.

Runner Agent

Speech Studio tạo và clone giọng nói; Runner dùng cùng local speech stack để nối mic, VAD, speech-to-text, mô hình ngôn ngữ trên thiết bị và Supertonic TTS thành một trợ lý giọng nói trực tiếp.

Mở trang Runner Tải DMG Runner

Được xây dựng trên

Speech Studio là GUI mỏng trên speech-swift, thư viện Swift mã nguồn mở cung cấp mọi mô hình dùng trong demo:

VoxCPM2 — mô hình nhân bản giọng (zero-shot, tham chiếu ngắn)
DeepFilterNet3 — khử nhiễu cho mẫu tham chiếu và đầu ra nhân bản
Qwen3-ASR — căn chỉnh giọng nói với văn bản (dùng trong pipeline xây dựng bài kiểm tra mù của demo)
Forced Alignment — mốc thời gian theo từng từ phục vụ chỉnh sửa
Nhân bản giọng hướng dẫn — tổng quan đầy đủ về pipeline

Lộ trình

Hôm nay: macOS, Windows, and Linux.
Tiếp theo: bản dựng đã ký & công chứng (không có lời nhắc Gatekeeper/SmartScreen).
Sau đó: giao diện chỉnh sửa sâu hơn, hỗ trợ plugin để thay đổi mô hình nhân bản.

Phản hồi

Mở issue tại github.com/soniqo/speech-studio/issues — mỗi cái đều được đọc.