Voz en el dispositivo.
Para productos reales.
Transcripción con diarización, clonación de voz zero-shot y síntesis de larga duración — funcionando en Apple Silicon, Android y Linux embebido. Sin APIs en la nube, sin precios por minuto, sin datos saliendo del dispositivo.
brew install soniqo/tap/speechimplementation("audio.soniqo:speech:0.0.5")IA de voz local en un MacBook
Un recorrido de cuatro minutos por la biblioteca open source: transcripción en tiempo real con Nemotron Streaming, voz a voz local con PersonaPlex y clonación de voz a 48 kHz con VoxCPM2 — todas las demos corren en el portátil.
Ver en YouTubeTres grupos de casos de uso en el dispositivo.
Cada grupo abarca varios subcasos de uso construidos con componentes de Soniqo. Carga tu audio y obtén conversación, transcripciones o voz generada — localmente y en tiempo real.
Agentes de voz
Crea interfaces voice-first — desde speech-to-speech full-duplex hasta pipelines compositivos activados por palabra clave, todo ejecutándose localmente.
Transcripción
Convierte audio en texto estructurado — streaming en tiempo real para subtítulos en vivo y dictado, alta precisión por lotes para archivos, con diarización para nombrar a cada hablante.
Síntesis de voz
Sintetiza voz en cualquier voz — clona una voz en segundos, narra audiolibros durante horas o reparte podcasts multi-locutor, completamente offline.
Más de veinte modelos. Un solo stack.
Los pipelines de uso anteriores se construyen con estos modelos. Elige un componente para ver su arquitectura, CLI, API en Swift y benchmarks. Todos funcionan en Apple Silicon, la mayoría también en Android y Linux.
Voz a texto
Texto a voz
9 langs, zero-shot cloning, 4-bit → bf16
12 Hz codec LM, faster than real-time
48 kHz, 30 langs, voice design + cloning
50 voices, ~45 ms inference
90-min podcasts / audiobooks
9 langs, 5 baked voices, streaming
CosyVoice, Qwen3-TTS ICL, CAM++
