Кейс · Диалоговый

Голос на входе.
Голос на выходе.

Три формы voice-first интерфейсов — одна полнодуплексная speech-to-speech модель, компонуемый пайплайн wake → VAD → ASR → LLM → TTS под вашим полным контролем, и активация по ключевому слову для бесконтактного входа. Всё на устройстве, никаких облачных API, аудио не покидает устройство.

Начать Гайд по speech-to-speech

Настольные приложения

Studio создает голоса. Runner разговаривает ими.

Speech Studio и Runner — две стороны одного локального речевого стека: одно приложение для производства голоса, второе для живого взаимодействия с голосовым агентом.

Runner Agent

Запускает полный цикл от микрофона до голосового компаньона локально; текущая предварительная версия рассчитана на компактный бюджет памяти Apple Silicon.

Попробовать Runner

Speech Studio

Клонируйте голоса, сравнивайте образцы и генерируйте многоголосую речь локально на Mac.

Открыть Speech Studio

Три подкейса

Выберите форму под ваш продукт.

Готовая диалоговая модель, компонуемый пайплайн с контролем на каждой стадии или лёгкий триггер по ключевому слову. Каждый вариант полностью работает на устройстве.

Полнодуплексный speech-to-speech

Одна модель принимает вход с микрофона и выдаёт голосовой ответ. Готовый OpenAI-Realtime-совместимый WebSocket: минимум кода, непрозрачные внутренности.

Компонуемый голосовой пайплайн

Ключевое слово → VAD → потоковый ASR → on-device LLM → TTS. Контроль на каждой стадии, прозрачные транскрипты, движки свободно меняются. Соберите свою Siri.

Активация по ключевому слову

Бесконтактный триггер для любого голосового флоу. Кастомные ключевые фразы с пофразными порогами, меньше 5 МБ на устройстве, в 26× быстрее реального времени.

Глубже

Гайды по компонентам.

PersonaPlex 7B

Qwen3.5 Chat

Streaming Dictation

Voice Activity Detection

Wake-Word / KWS

speech-server

Голос на входе.Голос на выходе.

Studio создает голоса. Runner разговаривает ими.

Выберите форму под ваш продукт.

Гайды по компонентам.

Голос на входе.
Голос на выходе.