Código abierto · Apache 2.0 · 100% offline

Voz en el dispositivo.
Para productos reales.

Transcripción con diarización, clonación de voz zero-shot y síntesis de larga duración — funcionando en Apple Silicon, Android, Windows y Linux embebido. Sin APIs en la nube, sin precios por minuto, sin datos saliendo del dispositivo.

Empezar GitHub

Apple · Homebrew

brew install speech

Android · Gradle

implementation("audio.soniqo:speech:0.0.9")

Últimos artículos

Voz en el dispositivo, en la práctica.

Benchmarks, notas de modelos y detalles de entrega para productos reales.

Todas las publicaciones

7 de julio de 2026 · Blog de Soniqo

Mirar

IA de voz local en un MacBook

Un recorrido de cuatro minutos por la biblioteca open source: transcripción en tiempo real con Nemotron Streaming, voz a voz local con PersonaPlex y clonación de voz a 48 kHz con VoxCPM2 — todas las demos corren en el portátil.

Ver en YouTube

Qué puedes construir

Tres grupos de casos de uso en el dispositivo.

Cada grupo abarca varios subcasos de uso construidos con componentes de Soniqo. Carga tu audio y obtén conversación, transcripciones o voz generada — localmente y en tiempo real.

Conversacional

Agentes de voz

Crea interfaces voice-first — desde speech-to-speech full-duplex hasta pipelines compositivos activados por palabra clave, todo ejecutándose localmente.

Learn more

Comprensión de audio

Transcripción

Convierte audio en texto estructurado — streaming en tiempo real para subtítulos en vivo y dictado, alta precisión por lotes para archivos, con diarización para nombrar a cada hablante.

Learn more

Creación de contenido

Síntesis de voz

Sintetiza voz en cualquier voz — clona una voz en segundos, narra audiolibros durante horas o reparte podcasts multi-locutor, completamente offline.

Learn more

Todos los componentes

Más de treinta modelos. Un solo stack.

Los pipelines de uso anteriores se construyen con estos modelos. Elige un componente para ver su arquitectura, CLI, API en Swift y benchmarks. Todos funcionan en Apple Silicon, la mayoría también en Android y Linux.

Voz a texto

Qwen3-ASR

52 langs, RTF 0.06, 4-/8-bit

Voz en el dispositivo.Para productos reales.

Voz en el dispositivo, en la práctica.

Agentes de voz en el dispositivo: un pipeline, tres presupuestos de memoria

Modelos de clonación de voz, medidos en cinco idiomas

Clonar una voz a 48 kHz con VoxCPM2

IA de voz local en un MacBook

Tres grupos de casos de uso en el dispositivo.

Agentes de voz

Transcripción

Síntesis de voz

Más de treinta modelos. Un solo stack.

Voz a texto

Texto a voz

Análisis de audio

Música y producción de audio

LLM y Voz a voz

Voz en el dispositivo.
Para productos reales.