Open source · Apache 2.0 · 100% hors-ligne

Parole embarquée.
Pour de vrais produits.

Transcription diarisée, clonage vocal zéro-shot, synthèse longue durée — exécutés sur Apple Silicon, Android, Windows et Linux embarqué. Aucune API cloud, aucune facturation à la minute, aucune donnée ne quitte l’appareil.

Commencer GitHub

Apple · Homebrew

brew install speech

Android · Gradle

implementation("audio.soniqo:speech:0.0.9")

Derniers articles

La voix embarquée, en pratique.

Benchmarks, notes de modèles et détails de mise en production pour Soniqo.

Tous les articles

7 juillet 2026 · Blog de Soniqo

Regarder

IA vocale locale sur un MacBook

Une visite de quatre minutes de la bibliothèque open source : transcription en temps réel avec Nemotron Streaming, voix-à-voix locale avec PersonaPlex et clonage de voix à 48 kHz avec VoxCPM2 — chaque démo tourne sur le portable.

Regarder sur YouTube

Ce que vous pouvez construire

Trois groupes de cas d’usage embarqués.

Chaque groupe couvre plusieurs sous-cas d’usage assemblés à partir des composants Soniqo. Glissez votre audio et récupérez conversation, transcriptions ou voix générée — localement, en temps réel.

Conversationnel

Agents vocaux

Construisez des interfaces voice-first — du speech-to-speech full-duplex aux pipelines composables déclenchés par mot-clé, le tout en local.

Learn more

Compréhension audio

Transcription

Transformez l’audio en texte structuré — streaming temps réel pour sous-titres en direct et dictée, haute précision en batch pour les archives, diarisé pour nommer chaque locuteur.

Learn more

Création de contenu

Synthèse vocale

Synthétisez la parole dans n’importe quelle voix — clonez une voix en quelques secondes, narrez des livres audio pendant des heures ou castez des podcasts multi-locuteurs, entièrement hors-ligne.

Learn more

Tous les composants

Plus de trente modèles. Une seule stack.

Les pipelines ci-dessus sont composés à partir de ces modèles. Choisissez un composant pour son architecture, sa CLI, son API Swift et ses benchmarks. Tous fonctionnent sur Apple Silicon, la plupart aussi sur Android et Linux.

Reconnaissance vocale

Qwen3-ASR

52 langs, RTF 0.06, 4-/8-bit

Parole embarquée.Pour de vrais produits.

La voix embarquée, en pratique.

Agents vocaux sur l’appareil : un pipeline, trois budgets mémoire

Modèles de clonage vocal, mesurés sur cinq langues

Cloner une voix en 48 kHz avec VoxCPM2

IA vocale locale sur un MacBook

Trois groupes de cas d’usage embarqués.

Agents vocaux

Transcription

Synthèse vocale

Plus de trente modèles. Une seule stack.

Reconnaissance vocale

Synthèse vocale

Analyse audio

Musique et production audio

LLM & Parole-à-parole

Parole embarquée.
Pour de vrais produits.