Речь на устройстве.
Для реальных продуктов.
Диаризованная транскрипция, zero-shot клонирование голоса, длинный синтез речи — на Apple Silicon, Android и embedded Linux. Никаких облачных API, никакой оплаты по минутам, никакие данные не покидают устройство.
brew install soniqo/tap/speechimplementation("audio.soniqo:speech:0.0.5")Локальный речевой ИИ на MacBook
Четырёхминутный обзор open source библиотеки: транскрипция в реальном времени с Nemotron Streaming, локальный speech-to-speech с PersonaPlex и клонирование голоса 48 кГц с VoxCPM2 — все демо работают прямо на ноутбуке.
Смотреть на YouTubeТри группы сценариев — все на устройстве.
Каждая группа охватывает несколько подсценариев, собранных из компонентов Soniqo. Подаёте аудио — получаете диалог, транскрипции или сгенерированную речь локально, в реальном времени.
Голосовые агенты
Создавайте voice-first интерфейсы — от полнодуплексного speech-to-speech до компонуемых пайплайнов с активацией по ключевому слову, всё локально.
Транскрипция
Превращайте аудио в структурированный текст — потоковый режим в реальном времени для живых субтитров и диктовки, высокоточный пакетный режим для архивов, с диаризацией для именования каждого спикера.
Синтез речи
Синтезируйте речь любым голосом — клонируйте голос за секунды, читайте аудиокниги часами или озвучивайте многоголосые подкасты — полностью офлайн.
Более двадцати моделей. Один стек.
Все пайплайны выше собраны из этих моделей. Выберите компонент, чтобы увидеть его архитектуру, CLI, Swift API и бенчмарки. Все работают на Apple Silicon, большинство — также на Android и Linux.
Речь → текст
Текст → речь
9 langs, zero-shot cloning, 4-bit → bf16
12 Hz codec LM, faster than real-time
48 kHz, 30 langs, voice design + cloning
50 voices, ~45 ms inference
90-min podcasts / audiobooks
9 langs, 5 baked voices, streaming
CosyVoice, Qwen3-TTS ICL, CAM++
