Voz entra.
Voz sai.
Três formas de interfaces voice-first — um único modelo speech-to-speech full-duplex, um pipeline composável wake → VAD → ASR → LLM → TTS sob seu controle total, e ativação por palavra-chave para entrada mãos-livres. Tudo no dispositivo, sem APIs na nuvem, sem áudio saindo do dispositivo.
Escolha a forma que combina com seu produto.
Modelo de diálogo drop-in, pipeline composável com controle por etapa, ou um gatilho enxuto por palavra-chave. Cada um roda inteiramente no dispositivo.
Um único modelo recebe entrada de microfone e produz voz. WebSocket compatível com OpenAI-Realtime em drop-in; código mínimo, internos opacos.
Palavra-chave → VAD → ASR em streaming → LLM no dispositivo → TTS. Controle por etapa, transcrição visível, motores intercambiáveis. Construa sua própria Siri.
Gatilho mãos-livres para qualquer fluxo de voz. Palavras-chave customizadas com limiares por frase, menos de 5 MB no dispositivo, 26× tempo real.
