オープンソース · Apache 2.0 · 完全オフライン

オンデバイスの音声。
本番プロダクトへ。

話者分離付き文字起こし、ゼロショット音声クローン、長尺音声合成 —— Apple Silicon、Android、Windows、組み込み Linux で動作。クラウド API なし、分単位課金なし、データはデバイスから出ません。

Apple · Homebrew

brew install speech

Android · Gradle

implementation("audio.soniqo:speech:0.0.9")

オンデバイス音声を実プロダクトへ。

Soniqo のベンチマーク、モデルメモ、出荷時の実装詳細。

すべての記事

2026年7月7日 · Soniqo ブログ

視聴

MacBook で動くローカル音声 AI

4 分間のオープンソースライブラリツアー:Nemotron Streaming によるリアルタイム文字起こし、PersonaPlex によるローカル音声対話、VoxCPM2 による 48 kHz の音声クローニング ―― すべてのデモがラップトップ上で動作します。

YouTube で視聴

作れるもの

3 つのオンデバイス・ユースケース・グループ。

各グループは Soniqo コンポーネントを組み合わせた複数のサブユースケースをカバーします。音声を投入すれば、対話・文字起こし・合成音声がローカルかつリアルタイムに得られます。

会話型

音声エージェント

音声優先のインターフェースを構築 —— フルデュプレックスの音声対音声から、ウェイクワードで起動するコンポーザブル・パイプラインまで、すべてローカルで動作。

Learn more

音声理解

文字起こし

音声を構造化テキストへ —— ライブ字幕や音声入力向けのリアルタイム・ストリーミング、アーカイブ向けの高精度バッチ、話者分離で各話者に名前を付与。

Learn more

コンテンツ制作

音声合成

どんな声でも音声を合成 —— 数秒で声をクローン、何時間ものオーディオブックをナレーション、複数話者ポッドキャストの制作まで、完全オフライン。

Learn more

すべてのコンポーネント

30 以上のモデル。1 つのスタック。

上記のユースケース・パイプラインはこれらのモデルから構成されます。コンポーネントを選んでアーキテクチャ、CLI、Swift API、ベンチマークをご覧ください。すべて Apple Silicon で動作し、多くは Android と Linux にも対応。

音声認識

Qwen3-ASR

52 langs, RTF 0.06, 4-/8-bit

オンデバイスの音声。本番プロダクトへ。

オンデバイス音声を実プロダクトへ。

音声エージェントをオンデバイスで動かす：一つのパイプライン、三つのメモリ予算

音声クローンモデルを五言語で実測

VoxCPM2 で 48 kHz の音声クローン

MacBook で動くローカル音声 AI

3 つのオンデバイス・ユースケース・グループ。

音声エージェント

文字起こし

音声合成

30 以上のモデル。1 つのスタック。

音声認識

音声合成

音声解析

音楽とオーディオ制作

LLM と音声対話

オンデバイスの音声。
本番プロダクトへ。