Mã nguồn mở · Apache 2.0 · Hoàn toàn ngoại tuyến

Giọng nói trên thiết bị.
Cho sản phẩm thực tế.

Nhận dạng có phân tách người nói, nhân bản giọng nói zero-shot, tổng hợp giọng nói dài hạn — chạy trên Apple Silicon, Android và Linux nhúng. Không cần API đám mây, không tính phí theo phút, không có dữ liệu nào rời khỏi thiết bị.

Apple · Homebrew
brew install soniqo/tap/speech
Android · Gradle
implementation("audio.soniqo:speech:0.0.5")
Xem

AI giọng nói cục bộ trên MacBook

Một video bốn phút giới thiệu thư viện mã nguồn mở: nhận dạng thời gian thực với Nemotron Streaming, speech-to-speech cục bộ với PersonaPlex, và nhân bản giọng nói 48 kHz với VoxCPM2 — mọi demo đều chạy trên laptop.

Xem trên YouTube
Những gì bạn có thể xây dựng

Ba nhóm trường hợp sử dụng trên thiết bị.

Mỗi nhóm bao gồm nhiều trường hợp con được ghép từ các thành phần Soniqo. Đưa âm thanh vào và nhận lại hội thoại, bản ghi hoặc giọng nói được tạo — cục bộ, theo thời gian thực.

Toàn bộ thành phần

Hơn hai mươi mô hình. Một stack duy nhất.

Các pipeline trường hợp sử dụng ở trên được ghép từ những mô hình này. Chọn một thành phần để xem kiến trúc, CLI, Swift API và benchmark. Tất cả đều chạy trên Apple Silicon, hầu hết cũng chạy trên Android và Linux.