API и протоколы

Модуль AudioCommon определяет протоколы, независимые от модели, и общие типы. Любая соответствующая модель может использоваться взаимозаменяемо через эти интерфейсы.

Обзор протоколов

┌─────────────────────────────────────────────────────────┐
│                    AudioCommon                          │
│                                                         │
│  AudioChunk          SpeechGenerationModel (TTS)        │
│  AlignedWord         SpeechRecognitionModel (STT)       │
│  SpeechSegment       ForcedAlignmentModel               │
│                      SpeechToSpeechModel                │
│                      VoiceActivityDetectionModel (VAD)   │
│                      SpeakerEmbeddingModel              │
│                      SpeakerDiarizationModel            │
│                      SpeakerExtractionCapable           │
└─────────────────────────────────────────────────────────┘

SpeechRecognitionModel

Протокол для моделей распознавания речи.

public protocol SpeechRecognitionModel: AnyObject {
    var inputSampleRate: Int { get }
    func transcribe(audio: [Float], sampleRate: Int, language: String?) -> String
    func transcribeWithLanguage(audio: [Float], sampleRate: Int, language: String?) -> TranscriptionResult
}

Соответствующие типы: Qwen3ASRModel, ParakeetASRModel, ParakeetStreamingASRModel, OmnilingualASRModel (CoreML), OmnilingualASRMLXModel (MLX)

SpeechGenerationModel

Протокол для моделей синтеза речи.

public protocol SpeechGenerationModel: AnyObject {
    var sampleRate: Int { get }
    func generate(text: String, language: String?) async throws -> [Float]
    func generateStream(text: String, language: String?) -> AsyncThrowingStream<AudioChunk, Error>  // has default impl
}

generateStream() имеет реализацию по умолчанию, которая оборачивает generate() как один чанк. Модели с настоящей потоковой передачей (например Qwen3-TTS) её переопределяют.

Соответствующие типы: Qwen3TTSModel, CosyVoiceTTSModel, KokoroTTSModel, Qwen35MLXChat

ForcedAlignmentModel

Протокол для выравнивания временных меток на уровне слов.

public protocol ForcedAlignmentModel: AnyObject {
    func align(audio: [Float], text: String, sampleRate: Int, language: String?) -> [AlignedWord]
}

SpeechToSpeechModel

Протокол для моделей диалога речь-в-речь.

public protocol SpeechToSpeechModel: AnyObject {
    var sampleRate: Int { get }
    func respond(userAudio: [Float]) -> [Float]
    func respondStream(userAudio: [Float]) -> AsyncThrowingStream<AudioChunk, Error>
}

Соответствующие типы: PersonaPlexModel

VoiceActivityDetectionModel

Протокол для детекции голосовой активности.

public protocol VoiceActivityDetectionModel: AnyObject {
    var inputSampleRate: Int { get }
    func detectSpeech(audio: [Float], sampleRate: Int) -> [SpeechSegment]
}

SpeakerEmbeddingModel

Протокол для извлечения эмбеддингов спикеров.

public protocol SpeakerEmbeddingModel: AnyObject {
    var inputSampleRate: Int { get }
    var embeddingDimension: Int { get }
    func embed(audio: [Float], sampleRate: Int) -> [Float]
}

Соответствующие типы: WeSpeakerModel

SpeakerDiarizationModel

Протокол для моделей диаризации спикеров, присваивающих метки спикеров сегментам аудио.

public protocol SpeakerDiarizationModel: AnyObject {
    var inputSampleRate: Int { get }
    func diarize(audio: [Float], sampleRate: Int) -> [DiarizedSegment]
}

Соответствующие типы: DiarizationPipeline (Pyannote), SortformerDiarizer

SpeakerExtractionCapable

Расширенный протокол диаризации для движков, поддерживающих извлечение сегментов целевого спикера с использованием референсного эмбеддинга. Не все движки поддерживают это (Sortformer сквозной и не выдаёт эмбеддинги спикеров).

public protocol SpeakerExtractionCapable: SpeakerDiarizationModel {
    func extractSpeaker(audio: [Float], sampleRate: Int, targetEmbedding: [Float]) -> [SpeechSegment]
}

Соответствующие типы: DiarizationPipeline (только Pyannote)

Общие типы

AudioChunk

public struct AudioChunk {
    public let samples: [Float]   // PCM samples
    public let sampleRate: Int    // Sample rate (e.g. 24000)
}

SpeechSegment

public struct SpeechSegment {
    public let startTime: Float   // Start time in seconds
    public let endTime: Float     // End time in seconds
}

AlignedWord

public struct AlignedWord {
    public let text: String       // The word
    public let startTime: Float   // Start time in seconds
    public let endTime: Float     // End time in seconds
}

DiarizedSegment

public struct DiarizedSegment {
    public let startTime: Float   // Start time in seconds
    public let endTime: Float     // End time in seconds
    public let speakerId: Int     // Speaker identifier (0-based)
}

DialogueSegment

Разобранный сегмент многоголосого диалогового текста с опциональными тегами спикера и эмоций. Используется с DialogueParser и DialogueSynthesizer для синтеза диалога в CosyVoice3.

public struct DialogueSegment: Sendable, Equatable {
    public let speaker: String?   // Speaker identifier ("S1", "S2"), nil for untagged
    public let emotion: String?   // Emotion tag ("happy", "whispers"), nil if none
    public let text: String       // Cleaned text to synthesize
}

DialogueParser

Разбирает многоголосый диалоговый текст с инлайн-тегами спикеров ([S1]) и тегами эмоций ((happy)).

public enum DialogueParser {
    static func parse(_ text: String) -> [DialogueSegment]
    static func emotionToInstruction(_ emotion: String) -> String
}

Встроенные эмоции: happy/excited, sad, angry, whispers/whispering, laughs/laughing, calm, surprised, serious. Неизвестные теги передаются как произвольные инструкции.

DialogueSynthesizer

Оркестрирует синтез многосегментного диалога с клонированием голоса по спикерам, паузами тишины и crossfade.

public enum DialogueSynthesizer {
    static func synthesize(
        segments: [DialogueSegment],
        speakerEmbeddings: [String: [Float]],
        model: CosyVoiceTTSModel,
        language: String,
        config: DialogueSynthesisConfig,
        verbose: Bool
    ) -> [Float]
}

DialogueSynthesisConfig

public struct DialogueSynthesisConfig: Sendable {
    public var turnGapSeconds: Float      // Default: 0.2
    public var crossfadeSeconds: Float    // Default: 0.0
    public var defaultInstruction: String // Default: "You are a helpful assistant."
    public var maxTokensPerSegment: Int   // Default: 500
}

PipelineLLM

Протокол для интеграции языковой модели с голосовыми пайплайнами. Связывает LLM с потоком ASR → LLM → TTS в VoicePipeline.

public protocol PipelineLLM: AnyObject {
    func chat(messages: [(role: MessageRole, content: String)],
              onToken: @escaping (String, Bool) -> Void)
    func cancel()
}

Встроенный адаптер: Qwen3PipelineLLM связывает Qwen35MLXChat с этим протоколом, добавляя очистку токенов, отмену и накопление ожидающих фраз.

AudioIO

Переиспользуемый менеджер аудио ввода/вывода, устраняющий шаблонный код AVAudioEngine. Обрабатывает захват с микрофона, ресемплинг, воспроизведение и измерение уровня.

let audio = AudioIO()
try audio.startMicrophone(targetSampleRate: 16000) { samples in
    pipeline.pushAudio(samples)
}
audio.player.scheduleChunk(ttsOutput)
audio.stopMicrophone()

AudioIO включает StreamingAudioPlayer для вывода TTS и AudioRingBuffer для потокобезопасной передачи аудио между потоками захвата и инференса.

SentencePieceModel

Общий читатель protobuf для .model-файлов SentencePiece, живёт в AudioCommon. Каждый модуль, которому нужно декодировать фрагменты SentencePiece (PersonaPlex, OmnilingualASR, будущие ASR/TTS-порты), строит свой декодер поверх этого единого ридера вместо повторной реализации protobuf wire-формата.

public struct SentencePieceModel: Sendable {
    public struct Piece: Sendable, Equatable {
        public let text: String
        public let score: Float
        public let type: Int32
        public var pieceType: PieceType? { get }
        public var isControlOrUnknown: Bool { get }
    }
    public enum PieceType: Int32 {
        case normal = 1, unknown = 2, control = 3,
             userDefined = 4, unused = 5, byte = 6
    }
    public let pieces: [Piece]
    public var count: Int { get }
    public subscript(_ id: Int) -> Piece? { get }
    public init(contentsOf url: URL) throws
    public init(modelPath: String) throws
    public init(data: Data) throws
}

Используется: OmnilingualASR.OmnilingualVocabulary, PersonaPlex.SentencePieceDecoder. Покрыт 7 юнит-тестами в Tests/AudioCommonTests/SentencePieceModelTests.

MLXCommon.SDPA

Хелперы scaled dot-product attention, общие для всех MLX-модулей внимания (Qwen3-ASR / Qwen3-TTS / Qwen3-Chat / CosyVoice / PersonaPlex / OmnilingualASR). Каждый модуль хранит свои проекции — SDPA обрабатывает только шаблонный код reshape → attention → merge.

public enum SDPA {
    // Flat [B, T, H*D] input: project/reshape happens inside
    public static func multiHead(
        q: MLXArray, k: MLXArray, v: MLXArray,
        numHeads: Int, headDim: Int, scale: Float,
        mask: MLXArray? = nil
    ) -> MLXArray

    // GQA / MQA variant with separate query and KV head counts
    public static func multiHead(
        q: MLXArray, k: MLXArray, v: MLXArray,
        numQueryHeads: Int, numKVHeads: Int, headDim: Int, scale: Float,
        mask: MLXArray? = nil
    ) -> MLXArray

    // Already-shaped [B, H, T, D] (RoPE / KV cache paths)
    public static func attendAndMerge(
        qHeads: MLXArray, kHeads: MLXArray, vHeads: MLXArray,
        scale: Float,
        mask: MLXArray? = nil
    ) -> MLXArray

    // Same, with ScaledDotProductAttentionMaskMode enum (newer API)
    public static func attendAndMerge(
        qHeads: MLXArray, kHeads: MLXArray, vHeads: MLXArray,
        scale: Float,
        mask: MLXFast.ScaledDotProductAttentionMaskMode
    ) -> MLXArray

    // Low-level head merge: [B, H, T, D] → [B, T, H*D]
    public static func mergeHeads(_ attn: MLXArray) -> MLXArray
}

Все вызовы reshape используют -1 для размерности батча, чтобы хелперы композировались с графами MLX.compile(shapeless:), где батч варьируется во время выполнения (например авторегрессивное декодирование Qwen3-TTS Talker).

HTTP API-сервер

Бинарный файл speech-server предоставляет каждую модель в speech-swift как HTTP REST эндпоинты плюс WebSocket-эндпоинт, реализующий OpenAI Realtime API. Модели загружаются лениво при первом запросе; передайте --preload, чтобы прогреть их все при запуске.

swift build -c release
.build/release/speech-server --port 8080

# Preload every model at startup
.build/release/speech-server --port 8080 --preload

REST-эндпоинты

Эндпоинт	Метод	Запрос	Ответ
`/transcribe`	POST	тело `audio/wav`	JSON `{ text }` (Qwen3-ASR)
`/speak`	POST	JSON `{ text, engine?, language?, voice? }`	тело `audio/wav` (Qwen3-TTS, CosyVoice, Kokoro)
`/respond`	POST	тело `audio/wav`	тело `audio/wav` (PersonaPlex)
`/enhance`	POST	тело `audio/wav`	тело `audio/wav` (DeepFilterNet3)
`/vad`	POST	тело `audio/wav`	JSON-список сегментов
`/diarize`	POST	тело `audio/wav`	JSON-список `DiarizedSegment`
`/embed-speaker`	POST	тело `audio/wav`	JSON `[Float]` (256-мерный)

# Transcribe a file
curl -X POST http://localhost:8080/transcribe \
  --data-binary @recording.wav \
  -H "Content-Type: audio/wav"

# Synthesize speech
curl -X POST http://localhost:8080/speak \
  -H "Content-Type: application/json" \
  -d '{"text": "Hello world", "engine": "cosyvoice"}' \
  -o output.wav

# Full speech-to-speech round trip
curl -X POST http://localhost:8080/respond \
  --data-binary @question.wav \
  -o response.wav

OpenAI Realtime API (`/v1/realtime`)

WebSocket-эндпоинт по адресу ws://host:port/v1/realtime реализует протокол OpenAI Realtime. Все сообщения — JSON с дискриминатором type; аудио-данные кодируются в base64 PCM16 на 24 кГц моно.

Клиент → Сервер: события

Событие	Назначение
`session.update`	Настройка движка, языка, голоса и аудиоформата
`input_audio_buffer.append`	Добавить base64-чанк PCM16 во входной буфер
`input_audio_buffer.commit`	Зафиксировать буферизованное аудио для транскрипции
`input_audio_buffer.clear`	Сбросить текущий входной буфер
`response.create`	Запросить синтез TTS для указанного текста/инструкций

Сервер → Клиент: события

Событие	Значение
`session.created`	Рукопожатие завершено, отправлена дефолтная конфигурация
`session.updated`	Последний `session.update` подтверждён
`input_audio_buffer.committed`	Аудио принято и поставлено в очередь на транскрипцию
`conversation.item.input_audio_transcription.completed`	Результат ASR с финальным текстом транскрипта
`response.audio.delta`	Base64-чанк PCM16 синтезированного аудио
`response.audio.done`	Больше аудио-чанков для этого ответа не будет
`response.done`	Ответ финализирован (метаданные + статистика задержки)
`error`	Конверт ошибки с `type` и `message`

const ws = new WebSocket('ws://localhost:8080/v1/realtime');

// ASR: push audio, request transcription
ws.send(JSON.stringify({ type: 'input_audio_buffer.append', audio: base64PCM16 }));
ws.send(JSON.stringify({ type: 'input_audio_buffer.commit' }));
// → conversation.item.input_audio_transcription.completed

// TTS: request synthesis and stream audio deltas
ws.send(JSON.stringify({
  type: 'response.create',
  response: { modalities: ['audio', 'text'], instructions: 'Hello world' }
}));
// → response.audio.delta (repeated), response.audio.done, response.done

Сервер живёт в SPM-продукте AudioServer. Пример браузерного клиента поставляется в Examples/websocket-client.html — откройте его рядом с запущенным сервером, чтобы пройти полный цикл ASR + TTS.

Загрузка моделей

Все модели скачиваются с HuggingFace при первом использовании и кэшируются в ~/Library/Caches/qwen3-speech/. Модуль AudioCommon предоставляет общий HuggingFaceDownloader, который обрабатывает скачивание, кэширование и проверку целостности.