Начало работы

speech-swift обеспечивает обработку речи ИИ на устройстве для macOS и iOS на Apple Silicon. Модели работают локально через MLX (Metal GPU) и CoreML (Neural Engine).

Требования

Установка

Swift Package Manager

Добавьте speech-swift в зависимости Package.swift:

dependencies: [
    .package(url: "https://github.com/soniqo/speech-swift", from: "0.0.9")
]

Затем добавьте нужные модули в ваш таргет:

.target(
    name: "MyApp",
    dependencies: [
        .product(name: "Qwen3ASR", package: "speech-swift"),
        .product(name: "Qwen3TTS", package: "speech-swift"),
        .product(name: "SpeechVAD", package: "speech-swift"),
        // ... добавьте нужные модули
    ]
)

Доступные модули

МодульОписание
Qwen3ASRРаспознавание речи (Qwen3-ASR)
ParakeetASRРаспознавание речи (Parakeet TDT, CoreML)
Qwen3TTSСинтез речи (Qwen3-TTS)
CosyVoiceTTSСинтез речи (CosyVoice3, многоязычный)
KokoroTTSСинтез речи (Kokoro-82M, CoreML, готов для iOS)
Qwen3ChatЛокальный LLM-чат (Qwen3.5-0.8B, MLX + CoreML)
PersonaPlexРечь в речь (PersonaPlex 7B)
SpeechVADVAD (Silero + Pyannote), диаризация, эмбеддинги спикеров
SpeechEnhancementПодавление шума (DeepFilterNet3, CoreML)
AudioCommonОбщие протоколы, аудио I/O, загрузчик HuggingFace

Сборка из исходников

Клонируйте репозиторий и соберите:

git clone https://github.com/soniqo/speech-swift.git
cd speech-swift
make build
Важно

make build автоматически компилирует библиотеку Metal-шейдеров MLX. Без неё GPU-инференс работает примерно в 5 раз медленнее из-за JIT-компиляции шейдеров.

Быстрый старт: транскрипция аудио

CLI

# Транскрибировать WAV-файл
.build/release/audio transcribe recording.wav

Swift API

import Qwen3ASR

let model = try await Qwen3ASRModel.loadFromHub()
let result = try await model.transcribe(audioFile: "recording.wav")
print(result.text)

Модели автоматически скачиваются с HuggingFace при первом использовании и кэшируются в ~/Library/Caches/qwen3-speech/.

Быстрый старт: синтез речи

CLI

# Сгенерировать речь
.build/release/audio speak "Hello, world!" --output hello.wav

Swift API

import Qwen3TTS

let model = try await Qwen3TTSModel.loadFromHub()
let audio = try await model.speak("Hello, world!")
try audio.write(to: "hello.wav")

Загрузка моделей

Все модели скачиваются с HuggingFace при первом использовании. Примерные размеры:

МодельРазмерИспользование RAM
Qwen3-ASR 0.6B (4-bit)680 МБ~2.2 ГБ пиковое
Qwen3-ASR 0.6B (8-bit)1.0 ГБ~2.5 ГБ пиковое
Qwen3-ASR 1.7B (4-bit)2.1 ГБ~4 ГБ пиковое
Parakeet-TDT (CoreML INT8)500 МБ~600 МБ пиковое
Qwen3-TTS 0.6B (4-bit)1.7 ГБ~2 ГБ пиковое
Qwen3-TTS 1.7B (4-bit)3.2 ГБ~4 ГБ пиковое
CosyVoice3 (4-bit LLM)1.2 ГБ~1.5 ГБ пиковое
Kokoro-82M (CoreML INT8)89 МБ~200 МБ пиковое
Qwen3.5-Chat 0.8B (INT4 MLX)418 МБ~700 МБ пиковое
Qwen3.5-Chat 0.8B (INT8 CoreML)981 МБ~1.2 ГБ пиковое
PersonaPlex 7B (8-bit) рекомендуется9.1 ГБ~11 ГБ пиковое
PersonaPlex 7B (4-bit)4.9 ГБ~6.5 ГБ пиковое
Pyannote VAD5.7 МБ~20 МБ пиковое
Silero VAD v51.2 МБ~5 МБ пиковое
WeSpeaker ResNet3425 МБ~50 МБ пиковое
DeepFilterNet3 (FP16)4.2 МБ~10 МБ пиковое

Следующие шаги