Apple — Homebrew:
brew tap soniqo/speech https://github.com/soniqo/speech-swift && brew install speech
Android — Gradle:
implementation("audio.soniqo:speech:0.0.5")
音声認識
音声合成
音声解析
音声区間検出
Pyannote(オフライン)+ Silero v5(streaming、23×リアルタイム)
MLXCoreMLONNX話者ダイアライゼーション
誰がいつ話したか — PyannoteパイプラインまたはエンドツーエンドのSortformer
MLXCoreML話者embedding
WeSpeaker ResNet34 — 話者識別用の256次元ベクトル
MLXCoreML音声強調
DeepFilterNet3 — 48kHzでのリアルタイムノイズ抑制
CoreMLONNX音源分離
Open-Unmix — 音楽をボーカル、ドラム、ベース、その他に分離。4×リアルタイム
MLX