Mã nguồn mở · Apache 2.0 · Hoàn toàn ngoại tuyến

Giọng nói trên thiết bị.
Cho sản phẩm thực tế.

Nhận dạng có phân tách người nói, nhân bản giọng nói zero-shot, tổng hợp giọng nói dài hạn — chạy trên Apple Silicon, Android, Windows và Linux nhúng. Không cần API đám mây, không tính phí theo phút, không có dữ liệu nào rời khỏi thiết bị.

Bắt đầu GitHub

Apple · Homebrew

brew install speech

Android · Gradle

implementation("audio.soniqo:speech:0.0.9")

Bài blog mới nhất

Giọng nói trên thiết bị cho sản phẩm thật.

Benchmark, ghi chú mô hình và chi tiết phát hành của Soniqo.

Tất cả bài viết

7 tháng 7, 2026 · Blog của Soniqo

Xem

AI giọng nói cục bộ trên MacBook

Một video bốn phút giới thiệu thư viện mã nguồn mở: nhận dạng thời gian thực với Nemotron Streaming, speech-to-speech cục bộ với PersonaPlex, và nhân bản giọng nói 48 kHz với VoxCPM2 — mọi demo đều chạy trên laptop.

Xem trên YouTube

Những gì bạn có thể xây dựng

Ba nhóm trường hợp sử dụng trên thiết bị.

Mỗi nhóm bao gồm nhiều trường hợp con được ghép từ các thành phần Soniqo. Đưa âm thanh vào và nhận lại hội thoại, bản ghi hoặc giọng nói được tạo — cục bộ, theo thời gian thực.

Hội thoại

Tác nhân giọng nói

Xây dựng giao diện ưu tiên giọng nói — từ speech-to-speech song công đến các pipeline tổng hợp kích hoạt bằng từ khoá, tất cả chạy cục bộ.

Learn more

Hiểu âm thanh

Chuyển giọng nói thành văn bản

Biến âm thanh thành văn bản có cấu trúc — streaming thời gian thực cho phụ đề trực tiếp và đọc chính tả, độ chính xác cao theo lô cho lưu trữ, có phân tách để đặt tên cho từng người nói.

Learn more

Tạo nội dung

Tổng hợp giọng nói

Tổng hợp giọng nói bằng bất kỳ chất giọng nào — nhân bản giọng trong vài giây, đọc sách nói hàng giờ, hoặc dựng podcast nhiều người nói, hoàn toàn ngoại tuyến.

Learn more

Toàn bộ thành phần

Hơn ba mươi mô hình. Một stack duy nhất.

Các pipeline trường hợp sử dụng ở trên được ghép từ những mô hình này. Chọn một thành phần để xem kiến trúc, CLI, Swift API và benchmark. Tất cả đều chạy trên Apple Silicon, hầu hết cũng chạy trên Android và Linux.

Giọng nói sang văn bản

Qwen3-ASR

52 langs, RTF 0.06, 4-/8-bit

Giọng nói trên thiết bị.Cho sản phẩm thực tế.

Giọng nói trên thiết bị cho sản phẩm thật.

Tác nhân giọng nói trên thiết bị: một pipeline, ba ngân sách bộ nhớ

Các mô hình nhân bản giọng nói, đo trên năm ngôn ngữ

Nhân bản giọng nói ở 48 kHz với VoxCPM2

AI giọng nói cục bộ trên MacBook

Ba nhóm trường hợp sử dụng trên thiết bị.

Tác nhân giọng nói

Chuyển giọng nói thành văn bản

Tổng hợp giọng nói

Hơn ba mươi mô hình. Một stack duy nhất.

Giọng nói sang văn bản

Văn bản sang giọng nói

Phân tích âm thanh

Âm nhạc và sản xuất audio

LLM và Speech-to-speech

Giọng nói trên thiết bị.
Cho sản phẩm thực tế.