शुरुआत — Android
speech-android ONNX Runtime का उपयोग करके Android के लिए ऑन-डिवाइस स्पीच प्रोसेसिंग प्रदान करता है। पाइपलाइन VAD + STT + TTS को barge-in समर्थन के साथ चलाती है, मॉडल डाउनलोड के बाद पूरी तरह ऑफ़लाइन।
आवश्यकताएँ
- Android 8+ (API 26)
- arm64-v8a आर्किटेक्चर
इसे तुरंत आज़माने के लिए प्री-बिल्ट डेमो ऐप डाउनलोड करें:
Gradle Dependency
अपने build.gradle.kts में SDK जोड़ें:
implementation("audio.soniqo:speech:0.0.5")
त्वरित प्रारंभ
val modelDir = ModelManager.ensureModels(context)
val pipeline = SpeechPipeline(SpeechConfig(modelDir = modelDir))
pipeline.events.collect { event ->
when (event) {
is SpeechEvent.TranscriptionCompleted -> println(event.text)
is SpeechEvent.ResponseDone -> pipeline.resumeListening()
else -> {}
}
}
pipeline.start()
pipeline.pushAudio(samples) // 16kHz mono float32
महत्वपूर्ण
मॉडल पहले उपयोग पर HuggingFace से ऑटो-डाउनलोड होते हैं (~1.2 GB कुल)। प्रारंभिक डाउनलोड के बाद, सभी इन्फ़रेंस पूरी तरह ऑफ़लाइन चलते हैं।
मॉडल
सभी मॉडल NNAPI एक्सेलेरेशन के साथ ONNX Runtime के माध्यम से चलते हैं। डिफ़ॉल्ट रूप से INT8 क्वांटाइज़्ड।
| मॉडल | कार्य | आकार |
|---|---|---|
| Parakeet TDT v3 (INT8) | स्पीच-टू-टेक्स्ट (114 भाषाएँ) | 490 MB |
| Kokoro-82M (INT8) | टेक्स्ट-टू-स्पीच (7 भाषाएँ) | 89 MB |
| Silero VAD v5 | Voice Activity Detection | 1.2 MB |
| DeepFilterNet3 (FP16) | नॉइज़ कैंसलेशन | 4.2 MB |
सोर्स कोड: github.com/soniqo/speech-android
अगले कदम
- Benchmarks — Android इन्फ़रेंस परफ़ॉर्मेंस
- Linux C API — एम्बेडेड Linux सेटअप