Open Source · Apache 2.0 · Vollständig offline

Sprache auf dem Gerät.
Für echte Produkte.

Diarisierte Transkription, Zero-Shot-Stimmenklonung, Langform-Sprachsynthese — läuft auf Apple Silicon, Android, Windows und Embedded Linux. Keine Cloud-APIs, keine Minutenpreise, keine Daten verlassen das Gerät.

Loslegen GitHub

Apple · Homebrew

brew install speech

Android · Gradle

implementation("audio.soniqo:speech:0.0.9")

Neueste Blogbeiträge

On-Device-Sprache für echte Produkte.

Benchmarks, Modellnotizen und Shipping-Details für Soniqo.

Alle Beiträge

7. Juli 2026 · Soniqo-Blog

Ansehen

Lokale Sprach-KI auf einem MacBook

Eine vierminütige Tour durch die Open-Source-Bibliothek: Echtzeit-Transkription mit Nemotron Streaming, lokales Speech-to-Speech mit PersonaPlex und 48-kHz-Voice-Cloning mit VoxCPM2 — jede Demo läuft direkt auf dem Laptop.

Auf YouTube ansehen

Was du bauen kannst

Drei On-Device-Anwendungsgruppen.

Jede Gruppe deckt mehrere Sub-Use-Cases ab, die aus Soniqo-Komponenten zusammengesetzt sind. Audio rein — Gespräch, Transkript oder generierte Sprache kommen lokal und in Echtzeit zurück.

Konversation

Sprachagenten

Baue Voice-First-Oberflächen — von Full-Duplex Speech-to-Speech bis hin zu Wake-Word-gesteuerten kompositorischen Pipelines, alles lokal ausgeführt.

Learn more

Audio-Verständnis

Transkription

Wandle Audio in strukturierten Text um — Echtzeit-Streaming für Live-Untertitel und Diktat, Batch-Hochpräzision für Archive, diarisiert um jede sprechende Person zu benennen.

Learn more

Content-Erstellung

Sprachsynthese

Synthetisiere Sprache in jeder Stimme — klone eine Stimme in Sekunden, narriere stundenlang Hörbücher oder besetze Multi-Sprecher-Podcasts, vollständig offline.

Learn more

Alle Komponenten

Mehr als dreißig Modelle. Ein Stack.

Die obigen Use-Case-Pipelines sind aus diesen Modellen gebaut. Wähle eine Komponente für Architektur, CLI, Swift-API und Benchmarks. Alle laufen auf Apple Silicon, die meisten auch auf Android und Linux.

Speech-to-Text

Qwen3-ASR

52 langs, RTF 0.06, 4-/8-bit

Sprache auf dem Gerät.Für echte Produkte.

On-Device-Sprache für echte Produkte.

Sprachagenten auf dem Gerät: eine Pipeline, drei Speicherbudgets

Voice-Cloning-Modelle, gemessen über fünf Sprachen

Eine Stimme mit 48 kHz klonen mit VoxCPM2

Lokale Sprach-KI auf einem MacBook

Drei On-Device-Anwendungsgruppen.

Sprachagenten

Transkription

Sprachsynthese

Mehr als dreißig Modelle. Ein Stack.

Speech-to-Text

Text-to-Speech

Audio-Analyse

Musik & Audioproduktion

LLM & Speech-to-Speech

Sprache auf dem Gerät.
Für echte Produkte.