Caso de uso · Conversacional

Voz entra.
Voz sai.

Três formas de interfaces voice-first — um único modelo speech-to-speech full-duplex, um pipeline composável wake → VAD → ASR → LLM → TTS sob seu controle total, e ativação por palavra-chave para entrada mãos-livres. Tudo no dispositivo, sem APIs na nuvem, sem áudio saindo do dispositivo.

Começar Guia de speech-to-speech

Três subcasos de uso

Escolha a forma que combina com seu produto.

Modelo de diálogo drop-in, pipeline composável com controle por etapa, ou um gatilho enxuto por palavra-chave. Cada um roda inteiramente no dispositivo.

Speech-to-speech full-duplex

Um único modelo recebe entrada de microfone e produz voz. WebSocket compatível com OpenAI-Realtime em drop-in; código mínimo, internos opacos.

Pipeline de voz composável

Palavra-chave → VAD → ASR em streaming → LLM no dispositivo → TTS. Controle por etapa, transcrição visível, motores intercambiáveis. Construa sua própria Siri.

Ativação por palavra-chave

Gatilho mãos-livres para qualquer fluxo de voz. Palavras-chave customizadas com limiares por frase, menos de 5 MB no dispositivo, 26× tempo real.

Leitura adicional

Guias dos componentes.

PersonaPlex 7B

Qwen3.5 Chat

Streaming Dictation

Voice Activity Detection

Wake-Word / KWS

speech-server

Voz entra.Voz sai.

Escolha a forma que combina com seu produto.

Guias dos componentes.

Voz entra.
Voz sai.