Voix en entrée.
Voix en sortie.
Trois formes d’interfaces voice-first — un unique modèle speech-to-speech full-duplex, un pipeline composable wake → VAD → ASR → LLM → TTS que vous contrôlez entièrement, et une activation par mot-clé pour une entrée mains libres. Tout sur l’appareil, aucune API cloud, aucun audio ne quitte l’appareil.
Choisissez la forme qui colle à votre produit.
Modèle de dialogue clé en main, pipeline composable avec contrôle par étape, ou simple déclencheur par mot-clé. Chaque option tourne entièrement sur l’appareil.
Un seul modèle prend l’entrée micro et produit la voix de sortie. WebSocket compatible OpenAI-Realtime en drop-in ; code minimal, internes opaques.
Mot-clé → VAD → ASR streaming → LLM embarqué → TTS. Contrôle par étape, transcript visible, moteurs interchangeables. Construisez votre propre Siri.
Déclencheur mains libres pour tout flux vocal. Mots-clés personnalisés avec seuils par phrase, moins de 5 Mo sur l’appareil, 26× temps réel.
