Apple — Homebrew:
brew tap soniqo/speech https://github.com/soniqo/speech-swift && brew install speech
Android — Gradle:
implementation("audio.soniqo:speech:0.0.5")
Qwen3-ASR
Transcrição multilíngue, quantizado em 4-bit/8-bit, RTF ~0,06
MLXCoreMLParakeet TDT
NVIDIA FastConformer no Neural Engine, ~32x tempo real
CoreMLONNXOmnilingual ASR
Meta wav2vec2 + CTC, 1.672 idiomas, 300M / 1B / 3B / 7B
CoreMLMLXAlinhamento forçado
Timestamps por palavra via CTC, resolução de 80ms
MLXCoreMLQwen3-TTS
LM codec de 12Hz + decodificador Mimi, mais rápido que tempo real
MLXCoreMLCosyVoice3
9 idiomas, DiT flow matching + vocoder HiFi-GAN
MLXKokoro-82M
Pronto para iOS, 50 vozes, 10 idiomas, inferência ~45ms
CoreMLONNXClonagem de voz
Clone qualquer voz a partir de uma amostra curta via ECAPA-TDNN
MLXDetecção de atividade de voz
Pyannote (offline) + Silero v5 (streaming, 23x tempo real)
MLXCoreMLONNXDiarização de falantes
Quem falou quando — pipeline Pyannote ou Sortformer ponta-a-ponta
MLXCoreMLEmbeddings de falante
WeSpeaker ResNet34 — vetores de 256 dim para ID de falante
MLXCoreMLAprimoramento de fala
DeepFilterNet3 — supressão de ruído em tempo real a 48kHz
CoreMLONNXSeparação de fontes
Open-Unmix — separa música em vocais, bateria, baixo e outros. 4x tempo real
MLXParakeet TDT v3
114 idiomas, quantizado INT8, decodificador TDT greedy, RTF 0,12
ONNX RuntimeNNAPIKokoro-82M
50 vozes, 7 idiomas, fonemizador baseado em dicionário, saída em 24 kHz
ONNX RuntimeSilero VAD v5
Detecção de atividade de voz em streaming, chunks de 32ms, latência sub-ms
ONNX RuntimeDeepFilterNet3
Cancelamento de ruído em tempo real, processamento STFT/ERB, RTF ~0,15
ONNX Runtime