オープンソース · Apache 2.0 · 完全オフライン
オンデバイスの音声。
本番プロダクトへ。
話者分離付き文字起こし、ゼロショット音声クローン、長尺音声合成 —— Apple Silicon、Android、組み込み Linux で動作。クラウド API なし、分単位課金なし、データはデバイスから出ません。
Apple · Homebrew
brew install soniqo/tap/speechAndroid · Gradle
implementation("audio.soniqo:speech:0.0.5")視聴
MacBook で動くローカル音声 AI
4 分間のオープンソースライブラリツアー:Nemotron Streaming によるリアルタイム文字起こし、PersonaPlex によるローカル音声対話、VoxCPM2 による 48 kHz の音声クローニング ―― すべてのデモがラップトップ上で動作します。
YouTube で視聴作れるもの
3 つのオンデバイス・ユースケース・グループ。
各グループは Soniqo コンポーネントを組み合わせた複数のサブユースケースをカバーします。音声を投入すれば、対話・文字起こし・合成音声がローカルかつリアルタイムに得られます。
すべてのコンポーネント
20 以上のモデル。1 つのスタック。
上記のユースケース・パイプラインはこれらのモデルから構成されます。コンポーネントを選んでアーキテクチャ、CLI、Swift API、ベンチマークをご覧ください。すべて Apple Silicon で動作し、多くは Android と Linux にも対応。
音声認識
音声合成
CosyVoice 3
9 langs, zero-shot cloning, 4-bit → bf16
MLX
Qwen3-TTS
12 Hz codec LM, faster than real-time
MLX
CoreML
VoxCPM2
48 kHz, 30 langs, voice design + cloning
MLX
Kokoro 82M
50 voices, ~45 ms inference
CoreML
ONNX
VibeVoice
90-min podcasts / audiobooks
MLX
Magpie 357M
9 langs, 5 baked voices, streaming
MLX
Voice Cloning Suite
CosyVoice, Qwen3-TTS ICL, CAM++
MLX
