Apple — Homebrew:
brew tap soniqo/speech https://github.com/soniqo/speech-swift && brew install speech
Android — Gradle:
implementation("audio.soniqo:speech:0.0.5")
Qwen3-ASR
Mehrsprachige Transkription, 4-Bit/8-Bit-Quantisierung, RTF ~0,06
MLXCoreMLParakeet TDT
NVIDIA FastConformer auf der Neural Engine, ~32× Echtzeit
CoreMLONNXOmnilingual ASR
Meta wav2vec2 + CTC, 1.672 Sprachen, 300M / 1B / 3B / 7B
CoreMLMLXForced Alignment
Wortgenaue Zeitstempel über CTC, 80 ms Auflösung
MLXCoreMLSprachaktivitätserkennung
Pyannote (offline) + Silero v5 (Streaming, 23× Echtzeit)
MLXCoreMLONNXSprecherdiarisierung
Wer hat wann gesprochen — Pyannote-Pipeline oder durchgängiger Sortformer
MLXCoreMLSprechereinbettungen
WeSpeaker ResNet34 — 256-dim-Vektoren zur Sprecher-Identifikation
MLXCoreMLSprachverbesserung
DeepFilterNet3 — Echtzeit-Rauschunterdrückung bei 48 kHz
CoreMLONNXQuellentrennung
Open-Unmix — trennt Musik in Vocals, Drums, Bass und Other. 4× Echtzeit
MLXParakeet TDT v3
114 Sprachen, INT8-quantisiert, TDT Greedy Decoder, RTF 0,12
ONNX RuntimeNNAPIKokoro-82M
50 Stimmen, 7 Sprachen, wörterbuchbasierter Phonemizer, 24-kHz-Ausgabe
ONNX RuntimeSilero VAD v5
Streaming-Sprachaktivitätserkennung, 32-ms-Chunks, Sub-ms-Latenz
ONNX RuntimeDeepFilterNet3
Echtzeit-Rauschunterdrückung, STFT/ERB-Verarbeitung, RTF ~0,15
ONNX Runtime