Fala no dispositivo.
Para produtos reais.
Transcrição com diarização, clonagem de voz zero-shot, síntese de fala de longa duração — rodando em Apple Silicon, Android e Linux embarcado. Sem APIs na nuvem, sem cobrança por minuto, sem dados saindo do dispositivo.
brew install soniqo/tap/speechimplementation("audio.soniqo:speech:0.0.5")IA de voz local em um MacBook
Um tour de quatro minutos pela biblioteca open source: transcrição em tempo real com Nemotron Streaming, voz-para-voz local com PersonaPlex e clonagem de voz a 48 kHz com VoxCPM2 — cada demo roda no laptop.
Assistir no YouTubeTrês grupos de casos de uso no dispositivo.
Cada grupo abrange vários subcasos de uso montados a partir de componentes Soniqo. Coloque seu áudio e receba conversa, transcrições ou voz gerada — localmente e em tempo real.
Agentes de voz
Construa interfaces voice-first — de speech-to-speech full-duplex a pipelines composáveis acionados por palavra-chave, tudo rodando localmente.
Transcrição
Transforme áudio em texto estruturado — streaming em tempo real para legendas ao vivo e ditado, alta precisão em lote para arquivos, com diarização para nomear cada locutor.
Síntese de voz
Sintetize voz em qualquer voz — clone uma voz em segundos, narre audiolivros por horas ou faça podcasts multi-locutor, totalmente offline.
Mais de vinte modelos. Uma stack.
Os pipelines acima são montados a partir destes modelos. Escolha um componente para ver sua arquitetura, CLI, API Swift e benchmarks. Todos rodam em Apple Silicon, a maioria também em Android e Linux.
Reconhecimento de fala
Síntese de fala
9 langs, zero-shot cloning, 4-bit → bf16
12 Hz codec LM, faster than real-time
48 kHz, 30 langs, voice design + cloning
50 voices, ~45 ms inference
90-min podcasts / audiobooks
9 langs, 5 baked voices, streaming
CosyVoice, Qwen3-TTS ICL, CAM++
