Speech Studio

Ứng dụng Mac mã nguồn mở để nhân bản giọng nói nội bộ và tạo hội thoại nhiều người nói. Thả mẫu giọng, nhân bản, viết kịch bản, tổng hợp — tất cả trên laptop. Không cần API key, không cần đám mây, không tính phí theo ký tự.

Bài kiểm tra mù 30 giây: một giọng thật, cùng giọng đó được nhân bản nội bộ bởi Speech Studio trên MacBook, và cùng giọng được nhân bản bởi ElevenLabs trên đám mây. Bạn có phân biệt được không?

Tính năng

Yêu cầu

Cài đặt

Tải .dmg mới nhất từ GitHub Releases, mở ra, kéo Speech Studio vào /Applications và mở nó:

Lần khởi chạy đầu, Gatekeeper của macOS cảnh báo nhà phát triển chưa xác thực — mở qua System Settings → Privacy & Security → Open anyway cho đến khi có bản notarized. Lần đầu cũng tải khoảng 2,75 GB trọng số VoxCPM2 từ HuggingFace về ~/.cache/huggingface/hub/; các lần sau dùng lại cache.

Thích CLI hơn?

Pipeline nhân bản tương tự có trong CLI speech: brew install soniqo/tap/speech, rồi speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — tiện cho script hoặc tiền dựng theo lô. Xem hướng dẫn nhân bản giọng để biết toàn bộ luồng.

Trạng thái

Speech Studio đang trong giai đoạn preview (v0.0.2). Repo nguồn github.com/soniqo/speech-studio theo dõi ứng dụng GUI; star/watch để nhận thông báo bản phát hành notarized. Bản dựng Linux và Windows hiện biên dịch qua engine LiteRT VoxCPM2 trong speech-core; runtime trên thiết bị đã được nối nhưng chưa kiểm thử trên phần cứng.

Được xây dựng trên

Speech Studio là GUI mỏng trên speech-swift, thư viện Swift mã nguồn mở cung cấp mọi mô hình dùng trong demo:

Lộ trình

Phản hồi

Mở issue tại github.com/soniqo/speech-studio/issues — mỗi cái đều được đọc.