Apple — Homebrew:
brew tap soniqo/speech https://github.com/soniqo/speech-swift && brew install speech
Android — Gradle:
implementation("audio.soniqo:speech:0.0.5")
Qwen3-ASR
Transcripción multilingüe, cuantizado 4-bit/8-bit, RTF ~0.06
MLXCoreMLParakeet TDT
NVIDIA FastConformer en Neural Engine, ~32x tiempo real
CoreMLONNXOmnilingual ASR
Meta wav2vec2 + CTC, 1672 idiomas, 300M / 1B / 3B / 7B
CoreMLMLXAlineación forzada
Marcas temporales a nivel de palabra vía CTC, resolución de 80ms
MLXCoreMLQwen3-TTS
LM códec de 12Hz + decodificador Mimi, más rápido que tiempo real
MLXCoreMLCosyVoice3
9 idiomas, DiT flow matching + vocoder HiFi-GAN
MLXKokoro-82M
Listo para iOS, 50 voces, 10 idiomas, inferencia ~45ms
CoreMLONNXClonación de voz
Clona cualquier voz desde una muestra corta vía ECAPA-TDNN
MLXDetección de actividad vocal
Pyannote (offline) + Silero v5 (streaming, 23x tiempo real)
MLXCoreMLONNXDiarización de hablantes
Quién habló cuándo — pipeline Pyannote o Sortformer de extremo a extremo
MLXCoreMLEmbeddings de hablante
WeSpeaker ResNet34 — vectores de 256 dim para identificación de hablante
MLXCoreMLMejora de voz
DeepFilterNet3 — supresión de ruido en tiempo real a 48kHz
CoreMLONNXSeparación de fuentes
Open-Unmix — separa música en voz, batería, bajo y otros. 4x tiempo real
MLXParakeet TDT v3
114 idiomas, cuantizado INT8, decodificador TDT greedy, RTF 0.12
ONNX RuntimeNNAPIKokoro-82M
50 voces, 7 idiomas, fonemizador basado en diccionario, salida 24 kHz
ONNX RuntimeSilero VAD v5
Detección de actividad vocal en streaming, chunks de 32ms, latencia sub-ms
ONNX RuntimeDeepFilterNet3
Cancelación de ruido en tiempo real, procesamiento STFT/ERB, RTF ~0.15
ONNX Runtime