Erste Schritte — Android
speech-android bietet Sprachverarbeitung auf dem Gerät für Android über ONNX Runtime. Die Pipeline führt VAD + STT + TTS mit Barge-in-Unterstützung aus und läuft nach dem Modell-Download vollständig offline.
Voraussetzungen
- Android 8+ (API 26)
- arm64-v8a-Architektur
Lade die vorgebaute Demo-App herunter, um sie sofort auszuprobieren:
Gradle-Abhängigkeit
Füge das SDK zu deiner build.gradle.kts hinzu:
implementation("audio.soniqo:speech:0.0.5")
Schnellstart
val modelDir = ModelManager.ensureModels(context)
val pipeline = SpeechPipeline(SpeechConfig(modelDir = modelDir))
pipeline.events.collect { event ->
when (event) {
is SpeechEvent.TranscriptionCompleted -> println(event.text)
is SpeechEvent.ResponseDone -> pipeline.resumeListening()
else -> {}
}
}
pipeline.start()
pipeline.pushAudio(samples) // 16 kHz Mono float32
Wichtig
Modelle werden beim ersten Gebrauch automatisch von HuggingFace heruntergeladen (~1,2 GB gesamt). Nach dem ersten Download läuft die gesamte Inferenz vollständig offline.
Modelle
Alle Modelle laufen über ONNX Runtime mit NNAPI-Beschleunigung. Standardmäßig INT8-quantisiert.
| Modell | Aufgabe | Größe |
|---|---|---|
| Parakeet TDT v3 (INT8) | Sprache-zu-Text (114 Sprachen) | 490 MB |
| Kokoro-82M (INT8) | Text-zu-Sprache (7 Sprachen) | 89 MB |
| Silero VAD v5 | Sprachaktivitätserkennung | 1,2 MB |
| DeepFilterNet3 (FP16) | Rauschunterdrückung | 4,2 MB |
Quellcode: github.com/soniqo/speech-android
Nächste Schritte
- Benchmarks — Android-Inferenzleistung
- Linux C API — Einrichtung für eingebettetes Linux