Parole embarquée.
Pour de vrais produits.
Transcription diarisée, clonage vocal zéro-shot, synthèse longue durée — exécutés sur Apple Silicon, Android et Linux embarqué. Aucune API cloud, aucune facturation à la minute, aucune donnée ne quitte l’appareil.
brew install soniqo/tap/speechimplementation("audio.soniqo:speech:0.0.5")IA vocale locale sur un MacBook
Une visite de quatre minutes de la bibliothèque open source : transcription en temps réel avec Nemotron Streaming, voix-à-voix locale avec PersonaPlex et clonage de voix à 48 kHz avec VoxCPM2 — chaque démo tourne sur le portable.
Regarder sur YouTubeTrois groupes de cas d’usage embarqués.
Chaque groupe couvre plusieurs sous-cas d’usage assemblés à partir des composants Soniqo. Glissez votre audio et récupérez conversation, transcriptions ou voix générée — localement, en temps réel.
Agents vocaux
Construisez des interfaces voice-first — du speech-to-speech full-duplex aux pipelines composables déclenchés par mot-clé, le tout en local.
Transcription
Transformez l’audio en texte structuré — streaming temps réel pour sous-titres en direct et dictée, haute précision en batch pour les archives, diarisé pour nommer chaque locuteur.
Synthèse vocale
Synthétisez la parole dans n’importe quelle voix — clonez une voix en quelques secondes, narrez des livres audio pendant des heures ou castez des podcasts multi-locuteurs, entièrement hors-ligne.
Plus de vingt modèles. Une seule stack.
Les pipelines ci-dessus sont composés à partir de ces modèles. Choisissez un composant pour son architecture, sa CLI, son API Swift et ses benchmarks. Tous fonctionnent sur Apple Silicon, la plupart aussi sur Android et Linux.
Reconnaissance vocale
Synthèse vocale
9 langs, zero-shot cloning, 4-bit → bf16
12 Hz codec LM, faster than real-time
48 kHz, 30 langs, voice design + cloning
50 voices, ~45 ms inference
90-min podcasts / audiobooks
9 langs, 5 baked voices, streaming
CosyVoice, Qwen3-TTS ICL, CAM++
