Sprache auf dem Gerät.
Für echte Produkte.
Diarisierte Transkription, Zero-Shot-Stimmenklonung, Langform-Sprachsynthese — läuft auf Apple Silicon, Android und Embedded Linux. Keine Cloud-APIs, keine Minutenpreise, keine Daten verlassen das Gerät.
brew install soniqo/tap/speechimplementation("audio.soniqo:speech:0.0.5")Lokale Sprach-KI auf einem MacBook
Eine vierminütige Tour durch die Open-Source-Bibliothek: Echtzeit-Transkription mit Nemotron Streaming, lokales Speech-to-Speech mit PersonaPlex und 48-kHz-Voice-Cloning mit VoxCPM2 — jede Demo läuft direkt auf dem Laptop.
Auf YouTube ansehenDrei On-Device-Anwendungsgruppen.
Jede Gruppe deckt mehrere Sub-Use-Cases ab, die aus Soniqo-Komponenten zusammengesetzt sind. Audio rein — Gespräch, Transkript oder generierte Sprache kommen lokal und in Echtzeit zurück.
Sprachagenten
Baue Voice-First-Oberflächen — von Full-Duplex Speech-to-Speech bis hin zu Wake-Word-gesteuerten kompositorischen Pipelines, alles lokal ausgeführt.
Transkription
Wandle Audio in strukturierten Text um — Echtzeit-Streaming für Live-Untertitel und Diktat, Batch-Hochpräzision für Archive, diarisiert um jede sprechende Person zu benennen.
Sprachsynthese
Synthetisiere Sprache in jeder Stimme — klone eine Stimme in Sekunden, narriere stundenlang Hörbücher oder besetze Multi-Sprecher-Podcasts, vollständig offline.
Zwanzig-plus Modelle. Ein Stack.
Die obigen Use-Case-Pipelines sind aus diesen Modellen gebaut. Wähle eine Komponente für Architektur, CLI, Swift-API und Benchmarks. Alle laufen auf Apple Silicon, die meisten auch auf Android und Linux.
Speech-to-Text
Text-to-Speech
9 langs, zero-shot cloning, 4-bit → bf16
12 Hz codec LM, faster than real-time
48 kHz, 30 langs, voice design + cloning
50 voices, ~45 ms inference
90-min podcasts / audiobooks
9 langs, 5 baked voices, streaming
CosyVoice, Qwen3-TTS ICL, CAM++
