Caso de uso · Conversacional

Voz entra.
Voz sale.

Tres formas de interfaces voice-first — un único modelo speech-to-speech full-duplex, un pipeline compositivo wake → VAD → ASR → LLM → TTS que controlas por completo, y activación por palabra clave para entrada manos libres. Todo en el dispositivo, sin APIs en la nube, sin audio saliendo del dispositivo.

Empezar Guía de speech-to-speech

Tres subcasos de uso

Elige la forma que encaja con tu producto.

Modelo de diálogo plug-and-play, pipeline compositivo con control por etapa, o un disparador delgado por palabra clave. Cada uno corre íntegramente en el dispositivo.

Speech-to-speech full-duplex

Un único modelo toma la entrada del micro y produce voz. WebSocket compatible con OpenAI-Realtime drop-in; código mínimo, interior opaco.

Pipeline de voz compositivo

Palabra clave → VAD → ASR en streaming → LLM en el dispositivo → TTS. Control por etapa, visibilidad de la transcripción, motores intercambiables. Construye tu propio Siri.

Activación por palabra clave

Disparador manos libres para cualquier flujo de voz. Palabras clave personalizadas con umbrales por frase, menos de 5 MB en el dispositivo, 26× tiempo real.

Lectura adicional

Guías de componentes.

PersonaPlex 7B

Qwen3.5 Chat

Streaming Dictation

Voice Activity Detection

Wake-Word / KWS

speech-server

Voz entra.Voz sale.

Elige la forma que encaja con tu producto.

Guías de componentes.

Voz entra.
Voz sale.