Voix en entrée.
Voix en sortie.
Trois formes d’interfaces voice-first — un unique modèle speech-to-speech full-duplex, un pipeline composable wake → VAD → ASR → LLM → TTS que vous contrôlez entièrement, et une activation par mot-clé pour une entrée mains libres. Tout sur l’appareil, aucune API cloud, aucun audio ne quitte l’appareil.
Studio crée des voix. Runner dialogue avec elles.
Speech Studio et Runner sont deux faces de la même pile vocale locale : l’une pour produire des voix, l’autre pour l’interaction en direct avec un agent vocal.
Choisissez la forme qui colle à votre produit.
Modèle de dialogue clé en main, pipeline composable avec contrôle par étape, ou simple déclencheur par mot-clé. Chaque option tourne entièrement sur l’appareil.
Un seul modèle prend l’entrée micro et produit la voix de sortie. WebSocket compatible OpenAI-Realtime en drop-in ; code minimal, internes opaques.
Mot-clé → VAD → ASR streaming → LLM embarqué → TTS. Contrôle par étape, transcript visible, moteurs interchangeables. Construisez votre propre Siri.
Déclencheur mains libres pour tout flux vocal. Mots-clés personnalisés avec seuils par phrase, moins de 5 Mo sur l’appareil, 26× temps réel.
