Apple — Homebrew:
brew tap soniqo/speech https://github.com/soniqo/speech-swift && brew install speech
Android — Gradle:
implementation("audio.soniqo:speech:0.0.5")
Qwen3-ASR
Многоязычная транскрипция, 4-бит/8-бит квантизация, RTF ~0.06
MLXCoreMLParakeet TDT
NVIDIA FastConformer на Neural Engine, ~32x быстрее реального времени
CoreMLONNXOmnilingual ASR
Meta wav2vec2 + CTC, 1 672 языка, 300M / 1B / 3B / 7B
CoreMLMLXВыравнивание с форсированием
Временные метки на уровне слов через CTC, разрешение 80 мс
MLXCoreMLДетектор голосовой активности
Pyannote (офлайн) + Silero v5 (потоковый, 23x реального времени)
MLXCoreMLONNXДиаризация спикеров
Кто говорил и когда — пайплайн Pyannote или сквозной Sortformer
MLXCoreMLЭмбеддинги спикеров
WeSpeaker ResNet34 — 256-мерные векторы для идентификации спикеров
MLXCoreMLУлучшение речи
DeepFilterNet3 — подавление шума в реальном времени на 48 кГц
CoreMLONNXРазделение источников
Open-Unmix — разделение музыки на вокал, ударные, бас и остальное. 4x реального времени
MLXParakeet TDT v3
114 языков, INT8 квантизация, TDT greedy-декодер, RTF 0.12
ONNX RuntimeNNAPIKokoro-82M
50 голосов, 7 языков, фонемизатор на основе словаря, выход 24 кГц
ONNX RuntimeSilero VAD v5
Потоковая детекция голосовой активности, чанки 32 мс, задержка меньше миллисекунды
ONNX RuntimeDeepFilterNet3
Шумоподавление в реальном времени, обработка STFT/ERB, RTF ~0.15
ONNX Runtime