Apple — Homebrew :
brew tap soniqo/speech https://github.com/soniqo/speech-swift && brew install speech
Android — Gradle :
implementation("audio.soniqo:speech:0.0.5")
Qwen3-ASR
Transcription multilingue, quantifié 4-bit/8-bit, RTF ~0.06
MLXCoreMLParakeet TDT
NVIDIA FastConformer sur Neural Engine, ~32x temps réel
CoreMLONNXOmnilingual ASR
Meta wav2vec2 + CTC, 1 672 langues, 300M / 1B / 3B / 7B
CoreMLMLXAlignement forcé
Horodatages au niveau du mot via CTC, résolution 80 ms
MLXCoreMLQwen3-TTS
LM codec 12 Hz + décodeur Mimi, plus rapide que le temps réel
MLXCoreMLCosyVoice3
9 langues, DiT flow matching + vocodeur HiFi-GAN
MLXKokoro-82M
Compatible iOS, 50 voix, 10 langues, inférence ~45 ms
CoreMLONNXClonage vocal
Clonez n'importe quelle voix à partir d'un court échantillon via ECAPA-TDNN
MLXDétection d'activité vocale
Pyannote (hors ligne) + Silero v5 (streaming, 23x temps réel)
MLXCoreMLONNXDiarisation de locuteurs
Qui a parlé quand — pipeline Pyannote ou Sortformer de bout en bout
MLXCoreMLEmpreintes de locuteur
WeSpeaker ResNet34 — vecteurs 256 dim pour l'identification de locuteur
MLXCoreMLAmélioration de la parole
DeepFilterNet3 — suppression de bruit en temps réel à 48 kHz
CoreMLONNXSéparation de sources
Open-Unmix — sépare la musique en voix, batterie, basse, autre. 4x temps réel
MLXParakeet TDT v3
114 langues, quantifié INT8, décodeur TDT greedy, RTF 0.12
ONNX RuntimeNNAPIKokoro-82M
50 voix, 7 langues, phonémiseur basé sur dictionnaire, sortie 24 kHz
ONNX RuntimeSilero VAD v5
Détection d'activité vocale en streaming, blocs de 32 ms, latence sub-ms
ONNX RuntimeDeepFilterNet3
Suppression de bruit en temps réel, traitement STFT/ERB, RTF ~0.15
ONNX Runtime