Erste Schritte — Android

speech-android bietet Sprachverarbeitung auf dem Gerät für Android über ONNX Runtime. Die Pipeline führt VAD + STT + TTS mit Barge-in-Unterstützung aus und läuft nach dem Modell-Download vollständig offline.

Voraussetzungen

Lade die vorgebaute Demo-App herunter, um sie sofort auszuprobieren:

Gradle-Abhängigkeit

Füge das SDK zu deiner build.gradle.kts hinzu:

implementation("audio.soniqo:speech:0.0.5")

Schnellstart

val modelDir = ModelManager.ensureModels(context)
val pipeline = SpeechPipeline(SpeechConfig(modelDir = modelDir))
pipeline.events.collect { event ->
    when (event) {
        is SpeechEvent.TranscriptionCompleted -> println(event.text)
        is SpeechEvent.ResponseDone -> pipeline.resumeListening()
        else -> {}
    }
}
pipeline.start()
pipeline.pushAudio(samples) // 16 kHz Mono float32
Wichtig

Modelle werden beim ersten Gebrauch automatisch von HuggingFace heruntergeladen (~1,2 GB gesamt). Nach dem ersten Download läuft die gesamte Inferenz vollständig offline.

Modelle

Alle Modelle laufen über ONNX Runtime mit NNAPI-Beschleunigung. Standardmäßig INT8-quantisiert.

ModellAufgabeGröße
Parakeet TDT v3 (INT8)Sprache-zu-Text (114 Sprachen)490 MB
Kokoro-82M (INT8)Text-zu-Sprache (7 Sprachen)89 MB
Silero VAD v5Sprachaktivitätserkennung1,2 MB
DeepFilterNet3 (FP16)Rauschunterdrückung4,2 MB

Quellcode: github.com/soniqo/speech-android

Nächste Schritte