Voz entra.
Voz sale.
Tres formas de interfaces voice-first — un único modelo speech-to-speech full-duplex, un pipeline compositivo wake → VAD → ASR → LLM → TTS que controlas por completo, y activación por palabra clave para entrada manos libres. Todo en el dispositivo, sin APIs en la nube, sin audio saliendo del dispositivo.
Elige la forma que encaja con tu producto.
Modelo de diálogo plug-and-play, pipeline compositivo con control por etapa, o un disparador delgado por palabra clave. Cada uno corre íntegramente en el dispositivo.
Un único modelo toma la entrada del micro y produce voz. WebSocket compatible con OpenAI-Realtime drop-in; código mínimo, interior opaco.
Palabra clave → VAD → ASR en streaming → LLM en el dispositivo → TTS. Control por etapa, visibilidad de la transcripción, motores intercambiables. Construye tu propio Siri.
Disparador manos libres para cualquier flujo de voz. Palabras clave personalizadas con umbrales por frase, menos de 5 MB en el dispositivo, 26× tiempo real.
