Use Case · Konversation

Sprache rein.
Sprache raus.

Drei Ausprägungen von Voice-First-Interfaces — ein einzelnes Full-Duplex-Speech-to-Speech-Modell, eine kompositorische wake → VAD → ASR → LLM → TTS-Pipeline, die du vollständig kontrollierst, und Wake-Word-Aktivierung für freihändigen Einstieg. Alles auf dem Gerät, keine Cloud-APIs, kein Audio verlässt das Gerät.

Loslegen Speech-to-Speech-Guide

Drei Sub-Use-Cases

Wähle die Form, die zu deinem Produkt passt.

Drop-in-Dialogmodell, kompositorische Pipeline mit Kontrolle pro Stufe oder ein schlanker Wake-Word-Trigger. Jede Variante läuft vollständig auf dem Gerät.

Full-Duplex Speech-to-Speech

Ein einziges Modell nimmt Mic-Input und erzeugt Sprachausgabe. Drop-in OpenAI-Realtime-kompatibler WebSocket; minimaler Code, undurchsichtige Interna.

Kompositorische Voice-Pipeline

Wake-Word → VAD → Streaming-ASR → On-Device-LLM → TTS. Kontrolle pro Stufe, Transkript-Sichtbarkeit, Engines frei austauschbar. Bau dir deine eigene Siri.

Wake-Word-Aktivierung

Freihändiger Trigger für jeden Voice-Flow. Eigene Keywords mit Schwellwerten pro Phrase, unter 5 MB auf dem Gerät, 26× Echtzeit.

Vertiefende Lektüre

Komponenten-Guides.

PersonaPlex 7B

Qwen3.5 Chat

Streaming Dictation

Voice Activity Detection

Wake-Word / KWS

speech-server

Sprache rein.Sprache raus.

Wähle die Form, die zu deinem Produkt passt.

Komponenten-Guides.

Sprache rein.
Sprache raus.