开源 · Apache 2.0 · 完全离线

端侧语音。
面向真实产品。

说话人分离的转录、零样本声音克隆、长篇语音合成 —— 在 Apple Silicon、Android、Windows 和嵌入式 Linux 上运行。无云端 API、无按分钟计费、数据从不离开设备。

开始使用 GitHub

Apple · Homebrew

brew install speech

Android · Gradle

implementation("audio.soniqo:speech:0.0.9")

最新博客文章

端侧语音，面向真实产品。

Soniqo 的基准测试、模型笔记和上线细节。

2026年7月7日 · Soniqo 博客

在设备上运行语音智能体：一条管线，三种内存预算

2026年7月2日 · Soniqo 博客

语音克隆模型，在五种语言上实测

2026年5月17日 · Soniqo 博客

用 VoxCPM2 以 48 kHz 克隆声音

观看

在 MacBook 上运行的本地语音 AI

四分钟开源库导览:Nemotron Streaming 实时转录、PersonaPlex 本地语音对话,以及 VoxCPM2 48 kHz 语音克隆 —— 所有演示都在本地笔记本上运行。

在 YouTube 上观看

你能构建什么

三大端侧使用场景分组。

每个分组都涵盖多个由 Soniqo 组件拼接而成的子场景。投入音频，即可在本地、实时获得对话、转录或合成语音。

语音代理

构建以语音为先的界面 —— 从全双工语音对语音，到由唤醒词驱动的可组合流水线，全部本地运行。

转录

把音频变成结构化文本 —— 实时流式输出实现直播字幕与听写、批量高精度模式处理归档，配合说话人分离为每位说话人命名。

语音合成

用任意嗓音合成语音 —— 几秒钟克隆一个声音、连续讲述数小时的有声书，或制作多说话人播客，全部离线完成。

全部组件

三十多个模型。一个技术栈。

上面的用例流水线全部由这些模型拼接而成。点击组件查看其架构、CLI、Swift API 与基准测试。全部支持 Apple Silicon，多数也支持 Android 与 Linux。

语音转文字

52 langs, RTF 0.06, 4-/8-bit

Whisper Large-v3 Turbo

speech-swift native CoreML baseline

Whisper v3 ONNX

Small, medium, large-v3, and turbo exports

32× real-time on Neural Engine

120M, 25 langs, streaming partials + EOU, ~232 MB on-device

Omnilingual ASR

1,672 languages, 300M–7B

Forced Alignment

Word-level timestamps, 80 ms

Nemotron Streaming

Streaming with punctuation

文字转语音

9 langs, zero-shot cloning, bf16 / 8-bit

12 Hz codec LM, faster than real-time

48 kHz, 30 langs, voice design + cloning

Native MLX zero-shot cloning, emotion + tempo controls

99M, 31 langs, 44.1 kHz

Chatterbox Flash

CoreML voice cloning, TTFT 0.27s, RTF 0.59

600+ langs, NAR diffusion cloning

Hindi emotion TTS + raw reference cloning

Fish Audio S2 Pro

Style markers + zero-shot cloning

54 voices, iOS-ready, 10 langs

90-min podcasts / audiobooks

9 langs, 5 baked voices, streaming

Voice Cloning Suite

IndexTTS2, CosyVoice, Chatterbox Flash, Qwen3-TTS ICL

音频分析

Speaker Diarization

Pyannote + Sortformer

Speaker Embeddings

WeSpeaker / CAM++ for ID

Voice Activity Detection

Silero v6.2.1, Pyannote, FireRedVAD

Wake-Word / KWS

KWS Zipformer, 26× real-time

音乐与音频制作

44.1 kHz stereo, variable-length music

MAGNeT MusicGen

Text → 30 s music, RTF 0.36

Source Separation

Open-Unmix + HTDemucs v4, 4 stems

Speech Enhancement

DeepFilterNet3, 48 kHz real-time

Speech Restoration

Sidon denoise + dereverb → 48 kHz

48 kHz audio super-resolution

LLM 与语音对话

Qwen3.5 Chat 0.8B

Streaming on-device LLM

FunctionGemma 270M

Structured tool / function-call grammar

Many-to-many translation, 400+ languages

Streaming speech translation, FR/ES/PT/DE → EN

Full-duplex speech-to-speech

性能

M5 Pro · 端侧

ASR
Parakeet TDT v3 · CoreML INT8
RTF 0.04× · 1.3 GB
TTS
CosyVoice 3 · MLX
faster than real-time
语音对话
PersonaPlex 7B · MLX
low-latency on Apple Silicon
流式 VAD
Silero v6.2.1 · CoreML
sub-ms per chunk
Speech enhancement
DeepFilterNet3 · 48 kHz
RTF 0.07× · 1.8 GB
LLM 词元/秒
FunctionGemma 270M · CoreML ANE, 8-bit palettized
242 tok/s · 1.3 GB

查看完整基准

性能

Galaxy S23 · Android · ONNX / LiteRT

流式 ASR + EOU
Parakeet-EOU 120M · ONNX INT8
0.21 RTF · 232 MB
多语言 ASR
Omnilingual 300M · LiteRT
0.15 RTF · 831 MB
TTS
Supertonic-3 99M · LiteRT
0.34 RTF · ~1.1 s TTFA · 832 MB
TTS
Kokoro-82M · ONNX FP32
0.53 RTF · 640 MB
LLM 词元/秒
FunctionGemma 270M · LiteRT-LM
118 tok/s · 611 MB

仅 CPU · 标注处为 INT8 · RTF 越低越快

性能

iPhone 16 Pro · iOS 26 · CoreML

流式 ASR + EOU
Parakeet-EOU 120M · CoreML INT8
0.04 RTF · 297 MB
多语言 ASR
Omnilingual 300M · CoreML INT8
0.28 RTF · 495 MB
TTS
Supertonic-3 99M · CoreML
0.15 RTF · 956 MB
TTS
Kokoro-82M · CoreML
0.08 RTF · 676 MB
LLM 词元/秒
FunctionGemma 270M · CoreML ANE
128 tok/s · 236 MB

端侧 · Neural Engine · RTF 越低越快