शुरुआत — Android

speech-android ONNX Runtime का उपयोग करके Android के लिए ऑन-डिवाइस स्पीच प्रोसेसिंग प्रदान करता है। पाइपलाइन VAD + STT + TTS को barge-in समर्थन के साथ चलाती है, मॉडल डाउनलोड के बाद पूरी तरह ऑफ़लाइन।

आवश्यकताएँ

इसे तुरंत आज़माने के लिए प्री-बिल्ट डेमो ऐप डाउनलोड करें:

Gradle Dependency

अपने build.gradle.kts में SDK जोड़ें:

implementation("audio.soniqo:speech:0.0.5")

त्वरित प्रारंभ

val modelDir = ModelManager.ensureModels(context)
val pipeline = SpeechPipeline(SpeechConfig(modelDir = modelDir))
pipeline.events.collect { event ->
    when (event) {
        is SpeechEvent.TranscriptionCompleted -> println(event.text)
        is SpeechEvent.ResponseDone -> pipeline.resumeListening()
        else -> {}
    }
}
pipeline.start()
pipeline.pushAudio(samples) // 16kHz mono float32
महत्वपूर्ण

मॉडल पहले उपयोग पर HuggingFace से ऑटो-डाउनलोड होते हैं (~1.2 GB कुल)। प्रारंभिक डाउनलोड के बाद, सभी इन्फ़रेंस पूरी तरह ऑफ़लाइन चलते हैं।

मॉडल

सभी मॉडल NNAPI एक्सेलेरेशन के साथ ONNX Runtime के माध्यम से चलते हैं। डिफ़ॉल्ट रूप से INT8 क्वांटाइज़्ड।

मॉडलकार्यआकार
Parakeet TDT v3 (INT8)स्पीच-टू-टेक्स्ट (114 भाषाएँ)490 MB
Kokoro-82M (INT8)टेक्स्ट-टू-स्पीच (7 भाषाएँ)89 MB
Silero VAD v5Voice Activity Detection1.2 MB
DeepFilterNet3 (FP16)नॉइज़ कैंसलेशन4.2 MB

सोर्स कोड: github.com/soniqo/speech-android

अगले कदम