Cas d’usage · Conversationnel

Voix en entrée.
Voix en sortie.

Trois formes d’interfaces voice-first — un unique modèle speech-to-speech full-duplex, un pipeline composable wake → VAD → ASR → LLM → TTS que vous contrôlez entièrement, et une activation par mot-clé pour une entrée mains libres. Tout sur l’appareil, aucune API cloud, aucun audio ne quitte l’appareil.

Commencer Guide speech-to-speech

Apps desktop

Studio crée des voix. Runner dialogue avec elles.

Speech Studio et Runner sont deux faces de la même pile vocale locale : l’une pour produire des voix, l’autre pour l’interaction en direct avec un agent vocal.

Runner Agent

Exécute localement toute la boucle micro-vers-compagnon vocal, avec un aperçu actuel ciblant un budget mémoire Apple Silicon compact.

Essayer Runner

Speech Studio

Clonez des voix, comparez des échantillons et générez de la parole multi-locuteur localement sur Mac.

Ouvrir Speech Studio

Trois sous-cas d’usage

Choisissez la forme qui colle à votre produit.

Modèle de dialogue clé en main, pipeline composable avec contrôle par étape, ou simple déclencheur par mot-clé. Chaque option tourne entièrement sur l’appareil.

Speech-to-speech full-duplex

Un seul modèle prend l’entrée micro et produit la voix de sortie. WebSocket compatible OpenAI-Realtime en drop-in ; code minimal, internes opaques.

Pipeline vocal composable

Mot-clé → VAD → ASR streaming → LLM embarqué → TTS. Contrôle par étape, transcript visible, moteurs interchangeables. Construisez votre propre Siri.

Activation par mot-clé

Déclencheur mains libres pour tout flux vocal. Mots-clés personnalisés avec seuils par phrase, moins de 5 Mo sur l’appareil, 26× temps réel.

Pour aller plus loin