Open source · Apache 2.0 · Полностью офлайн

Речь на устройстве.
Для реальных продуктов.

Диаризованная транскрипция, zero-shot клонирование голоса, длинный синтез речи — на Apple Silicon, Android, Windows и embedded Linux. Никаких облачных API, никакой оплаты по минутам, никакие данные не покидают устройство.

Начать GitHub

Apple · Homebrew

brew install speech

Android · Gradle

implementation("audio.soniqo:speech:0.0.9")

Новые статьи

Локальная речь для реальных продуктов.

Бенчмарки, заметки о моделях и детали поставки Soniqo.

Все публикации

7 июля 2026 · Блог Soniqo

Смотреть

Локальный речевой ИИ на MacBook

Четырёхминутный обзор open source библиотеки: транскрипция в реальном времени с Nemotron Streaming, локальный speech-to-speech с PersonaPlex и клонирование голоса 48 кГц с VoxCPM2 — все демо работают прямо на ноутбуке.

Смотреть на YouTube

Что можно построить

Три группы сценариев — все на устройстве.

Каждая группа охватывает несколько подсценариев, собранных из компонентов Soniqo. Подаёте аудио — получаете диалог, транскрипции или сгенерированную речь локально, в реальном времени.

Диалоговый

Голосовые агенты

Создавайте voice-first интерфейсы — от полнодуплексного speech-to-speech до компонуемых пайплайнов с активацией по ключевому слову, всё локально.

Learn more

Понимание аудио

Транскрипция

Превращайте аудио в структурированный текст — потоковый режим в реальном времени для живых субтитров и диктовки, высокоточный пакетный режим для архивов, с диаризацией для именования каждого спикера.

Learn more

Создание контента

Синтез речи

Синтезируйте речь любым голосом — клонируйте голос за секунды, читайте аудиокниги часами или озвучивайте многоголосые подкасты — полностью офлайн.

Learn more

Все компоненты

Более тридцати моделей. Один стек.

Все пайплайны выше собраны из этих моделей. Выберите компонент, чтобы увидеть его архитектуру, CLI, Swift API и бенчмарки. Все работают на Apple Silicon, большинство — также на Android и Linux.

Речь → текст

Qwen3-ASR

52 langs, RTF 0.06, 4-/8-bit

Речь на устройстве.Для реальных продуктов.

Локальная речь для реальных продуктов.

Голосовые агенты на устройстве: один конвейер, три бюджета памяти

Модели клонирования голоса, измеренные на пяти языках

Клонирование голоса на 48 кГц с VoxCPM2

Локальный речевой ИИ на MacBook

Три группы сценариев — все на устройстве.

Голосовые агенты

Транскрипция

Синтез речи

Более тридцати моделей. Один стек.

Речь → текст

Текст → речь

Анализ аудио

Музыка и производство аудио

LLM и речь ↔ речь

Речь на устройстве.
Для реальных продуктов.