Question 1

Работает ли speech-swift на iOS?

Accepted Answer

Kokoro TTS, Qwen3.5-Chat, Silero VAD, Parakeet ASR, DeepFilterNet3 и WeSpeaker работают на iOS 18+ через CoreML на Neural Engine. Модели на базе MLX (Qwen3-ASR, Qwen3-TTS, Qwen3.5-Chat MLX, PersonaPlex) требуют macOS 15+ на Apple Silicon.

Question 2

Требуется ли speech-swift подключение к интернету?

Accepted Answer

Только для первоначальной загрузки модели с HuggingFace. После этого весь инференс выполняется полностью офлайн без сетевого доступа. Без облачных API, без API-ключей.

Question 3

Как speech-swift сравнивается с Whisper?

Accepted Answer

Qwen3-ASR-0.6B достигает RTF 0.06 на M2 Max — на 40% быстрее, чем Whisper-large-v3 через whisper.cpp (RTF 0.10) — с сопоставимой точностью на 52 языках. speech-swift предоставляет нативный Swift async/await API, в то время как whisper.cpp требует C++ мост.

Question 4

Какие чипы Apple Silicon поддерживаются?

Accepted Answer

Все чипы серии M: M1, M2, M3, M4 и их варианты Pro/Max/Ultra. Требуется macOS 15+ (Sequoia) или iOS 18+.

Question 5

Почему требуется macOS 15 / iOS 18?

Accepted Answer

Минимум обусловлен MLState —— API Apple для персистентного состояния на ANE, появившимся в macOS 15 и iOS 18. CoreML-пайплайны (Qwen3-ASR, Qwen3-Chat, Qwen3-TTS) используют MLState, чтобы держать KV-кэши на Neural Engine между шагами токенов, а не перекладывать их на каждом шаге. Это снизило задержку CoreML на токен на 30–50% по сравнению с предыдущим stateless-подходом.

Question 6

Могу ли я использовать speech-swift в коммерческом приложении?

Accepted Answer

Да. speech-swift лицензирован под Apache 2.0. У весов самих моделей свои лицензии — детали смотрите на странице HuggingFace каждой модели.

Question 7

Сколько памяти требуется speech-swift?

Accepted Answer

От ~3 МБ (Silero VAD) до ~6.5 ГБ (PersonaPlex 7B). Kokoro TTS использует ~200 МБ, Qwen3-ASR ~2.2 ГБ, Qwen3-TTS ~2 ГБ. Несколько моделей могут работать одновременно, используя CoreML на Neural Engine параллельно с MLX на GPU.

Question 8

Можно ли запускать несколько моделей одновременно?

Accepted Answer

Да. Используйте CoreML-модели на Neural Engine параллельно с MLX-моделями на GPU, чтобы избежать конкуренции — например, Silero VAD (CoreML) + Qwen3-ASR (MLX) + Qwen3-TTS (MLX).

Question 9

Есть ли REST API?

Accepted Answer

Да. Бинарный файл speech-server предоставляет все модели через HTTP REST- и WebSocket-эндпоинты, включая WebSocket, совместимый с OpenAI Realtime API, по адресу /v1/realtime.

Question 10

Как установить speech-swift?

Accepted Answer

Через Homebrew: brew install soniqo/tap/speech. Или добавьте как зависимость Swift Package Manager: .package(url: "https://github.com/soniqo/speech-swift", branch: "main").

Question 11

Какие модели речи доступны?

Accepted Answer

Речь в текст: Qwen3-ASR (52 языка) и Parakeet TDT (25 языков). Текст в речь: Qwen3-TTS (потоковый, 10 языков), CosyVoice3 (клонирование голоса, 9 языков) и Kokoro-82M (готов для iOS, 50 голосов). Речь в речь: PersonaPlex 7B (полный дуплекс). Плюс: Silero/Pyannote VAD, диаризация спикеров (Pyannote + Sortformer), эмбеддинги спикеров WeSpeaker и шумоподавление DeepFilterNet3.

Question 12

Работает ли Soniqo на Android?

Accepted Answer

Да. SDK speech-android предоставляет Kotlin API с ONNX Runtime и аппаратным ускорением NNAPI. Поддерживает arm64-v8a на Android 8+ (API 26). Модели автоматически скачиваются с HuggingFace при первом использовании.

Question 13

Работает ли Soniqo на Linux?

Accepted Answer

Да. Проект speech-core включает C API для встраиваемого и автомобильного Linux в examples/linux. Использует ONNX Runtime с опциональным ускорением QNN для оборудования Qualcomm. Поддерживает ARM64 и x86_64.

Question 14

Можно ли использовать одни и те же модели на разных платформах?

Accepted Answer

Основные модели (Parakeet, Kokoro, Silero, DeepFilter) используют ONNX-формат на Android и Linux. Apple использует форматы CoreML/MLX. Одни и те же базовые веса, разные экспортные форматы.

Часто задаваемые вопросы