Apple — Homebrew:
brew tap soniqo/speech https://github.com/soniqo/speech-swift && brew install speech
Android — Gradle:
implementation("audio.soniqo:speech:0.0.5")
Qwen3-ASR
बहुभाषी ट्रांसक्रिप्शन, 4-बिट/8-बिट क्वांटाइज़्ड, RTF ~0.06
MLXCoreMLParakeet TDT
Neural Engine पर NVIDIA FastConformer, ~32x रियल-टाइम
CoreMLONNXOmnilingual ASR
Meta wav2vec2 + CTC, 1,672 भाषाएँ, 300M / 1B / 3B / 7B
CoreMLMLXफ़ोर्स्ड अलाइनमेंट
CTC के माध्यम से शब्द-स्तरीय टाइमस्टैम्प, 80ms रिज़ॉल्यूशन
MLXCoreMLवॉयस एक्टिविटी डिटेक्शन
Pyannote (ऑफ़लाइन) + Silero v5 (स्ट्रीमिंग, 23x रियल-टाइम)
MLXCoreMLONNXस्पीकर डायराइज़ेशन
कौन कब बोला — Pyannote पाइपलाइन या एंड-टू-एंड Sortformer
MLXCoreMLस्पीकर एम्बेडिंग
WeSpeaker ResNet34 — स्पीकर ID के लिए 256-dim वेक्टर
MLXCoreMLस्पीच एन्हांसमेंट
DeepFilterNet3 — 48kHz पर रियल-टाइम नॉइज़ सप्रेशन
CoreMLONNXसोर्स सेपरेशन
Open-Unmix — संगीत को वोकल्स, ड्रम्स, बास, अन्य में विभाजित करें। 4x रियल-टाइम
MLXParakeet TDT v3
114 भाषाएँ, INT8 क्वांटाइज़्ड, TDT ग्रीडी डिकोडर, RTF 0.12
ONNX RuntimeNNAPIKokoro-82M
50 वॉयस, 7 भाषाएँ, शब्दकोश-आधारित फोनमाइज़र, 24 kHz आउटपुट
ONNX RuntimeSilero VAD v5
स्ट्रीमिंग वॉयस एक्टिविटी डिटेक्शन, 32ms चंक्स, सब-ms लेटेंसी
ONNX RuntimeDeepFilterNet3
रियल-टाइम नॉइज़ कैंसिलेशन, STFT/ERB प्रोसेसिंग, RTF ~0.15
ONNX Runtime