Giọng nói trên thiết bị.
Cho sản phẩm thực tế.
Nhận dạng có phân tách người nói, nhân bản giọng nói zero-shot, tổng hợp giọng nói dài hạn — chạy trên Apple Silicon, Android và Linux nhúng. Không cần API đám mây, không tính phí theo phút, không có dữ liệu nào rời khỏi thiết bị.
brew install soniqo/tap/speechimplementation("audio.soniqo:speech:0.0.5")AI giọng nói cục bộ trên MacBook
Một video bốn phút giới thiệu thư viện mã nguồn mở: nhận dạng thời gian thực với Nemotron Streaming, speech-to-speech cục bộ với PersonaPlex, và nhân bản giọng nói 48 kHz với VoxCPM2 — mọi demo đều chạy trên laptop.
Xem trên YouTubeBa nhóm trường hợp sử dụng trên thiết bị.
Mỗi nhóm bao gồm nhiều trường hợp con được ghép từ các thành phần Soniqo. Đưa âm thanh vào và nhận lại hội thoại, bản ghi hoặc giọng nói được tạo — cục bộ, theo thời gian thực.
Tác nhân giọng nói
Xây dựng giao diện ưu tiên giọng nói — từ speech-to-speech song công đến các pipeline tổng hợp kích hoạt bằng từ khoá, tất cả chạy cục bộ.
Chuyển giọng nói thành văn bản
Biến âm thanh thành văn bản có cấu trúc — streaming thời gian thực cho phụ đề trực tiếp và đọc chính tả, độ chính xác cao theo lô cho lưu trữ, có phân tách để đặt tên cho từng người nói.
Tổng hợp giọng nói
Tổng hợp giọng nói bằng bất kỳ chất giọng nào — nhân bản giọng trong vài giây, đọc sách nói hàng giờ, hoặc dựng podcast nhiều người nói, hoàn toàn ngoại tuyến.
Hơn hai mươi mô hình. Một stack duy nhất.
Các pipeline trường hợp sử dụng ở trên được ghép từ những mô hình này. Chọn một thành phần để xem kiến trúc, CLI, Swift API và benchmark. Tất cả đều chạy trên Apple Silicon, hầu hết cũng chạy trên Android và Linux.
Giọng nói sang văn bản
Văn bản sang giọng nói
9 langs, zero-shot cloning, 4-bit → bf16
12 Hz codec LM, faster than real-time
48 kHz, 30 langs, voice design + cloning
50 voices, ~45 ms inference
90-min podcasts / audiobooks
9 langs, 5 baked voices, streaming
CosyVoice, Qwen3-TTS ICL, CAM++
