Código aberto · Apache 2.0 · 100% offline

Fala no dispositivo.
Para produtos reais.

Transcrição com diarização, clonagem de voz zero-shot, síntese de fala de longa duração — rodando em Apple Silicon, Android, Windows e Linux embarcado. Sem APIs na nuvem, sem cobrança por minuto, sem dados saindo do dispositivo.

Começar GitHub

Apple · Homebrew

brew install speech

Android · Gradle

implementation("audio.soniqo:speech:0.0.9")

Posts mais recentes

Fala no dispositivo, na prática.

Benchmarks, notas de modelos e detalhes de entrega para produtos reais.

Todos os posts

7 de julho de 2026 · Blog da Soniqo

Assistir

IA de voz local em um MacBook

Um tour de quatro minutos pela biblioteca open source: transcrição em tempo real com Nemotron Streaming, voz-para-voz local com PersonaPlex e clonagem de voz a 48 kHz com VoxCPM2 — cada demo roda no laptop.

Assistir no YouTube

O que você pode construir

Três grupos de casos de uso no dispositivo.

Cada grupo abrange vários subcasos de uso montados a partir de componentes Soniqo. Coloque seu áudio e receba conversa, transcrições ou voz gerada — localmente e em tempo real.

Conversacional

Agentes de voz

Construa interfaces voice-first — de speech-to-speech full-duplex a pipelines composáveis acionados por palavra-chave, tudo rodando localmente.

Learn more

Compreensão de áudio

Transcrição

Transforme áudio em texto estruturado — streaming em tempo real para legendas ao vivo e ditado, alta precisão em lote para arquivos, com diarização para nomear cada locutor.

Learn more

Criação de conteúdo

Síntese de voz

Sintetize voz em qualquer voz — clone uma voz em segundos, narre audiolivros por horas ou faça podcasts multi-locutor, totalmente offline.

Learn more

Todos os componentes

Mais de trinta modelos. Uma stack.

Os pipelines acima são montados a partir destes modelos. Escolha um componente para ver sua arquitetura, CLI, API Swift e benchmarks. Todos rodam em Apple Silicon, a maioria também em Android e Linux.

Reconhecimento de fala

Qwen3-ASR

52 langs, RTF 0.06, 4-/8-bit

Fala no dispositivo.Para produtos reais.

Fala no dispositivo, na prática.

Agentes de voz no dispositivo: um pipeline, três orçamentos de memória

Modelos de clonagem de voz, medidos em cinco idiomas

Clonar uma voz a 48 kHz com VoxCPM2

IA de voz local em um MacBook

Três grupos de casos de uso no dispositivo.

Agentes de voz

Transcrição

Síntese de voz

Mais de trinta modelos. Uma stack.

Reconhecimento de fala

Síntese de fala

Análise de áudio

Música e produção de áudio

LLM e Fala-para-fala

Fala no dispositivo.
Para produtos reais.