API и протоколы
Модуль AudioCommon определяет протоколы, независимые от модели, и общие типы. Любая соответствующая модель может использоваться взаимозаменяемо через эти интерфейсы.
Обзор протоколов
┌─────────────────────────────────────────────────────────┐
│ AudioCommon │
│ │
│ AudioChunk SpeechGenerationModel (TTS) │
│ AlignedWord SpeechRecognitionModel (STT) │
│ SpeechSegment ForcedAlignmentModel │
│ SpeechToSpeechModel │
│ VoiceActivityDetectionModel (VAD) │
│ SpeakerEmbeddingModel │
│ SpeakerDiarizationModel │
│ SpeakerExtractionCapable │
└─────────────────────────────────────────────────────────┘SpeechRecognitionModel
Протокол для моделей распознавания речи.
public protocol SpeechRecognitionModel: AnyObject {
var inputSampleRate: Int { get }
func transcribe(audio: [Float], sampleRate: Int, language: String?) -> String
func transcribeWithLanguage(audio: [Float], sampleRate: Int, language: String?) -> TranscriptionResult
}
Соответствующие типы: Qwen3ASRModel, ParakeetASRModel, ParakeetStreamingASRModel, OmnilingualASRModel (CoreML), OmnilingualASRMLXModel (MLX)
SpeechGenerationModel
Протокол для моделей синтеза речи.
public protocol SpeechGenerationModel: AnyObject {
var sampleRate: Int { get }
func generate(text: String, language: String?) async throws -> [Float]
func generateStream(text: String, language: String?) -> AsyncThrowingStream<AudioChunk, Error> // has default impl
}
generateStream() имеет реализацию по умолчанию, которая оборачивает generate() как один чанк. Модели с настоящей потоковой передачей (например Qwen3-TTS) её переопределяют.
Соответствующие типы: Qwen3TTSModel, CosyVoiceTTSModel, KokoroTTSModel, Qwen35MLXChat
ForcedAlignmentModel
Протокол для выравнивания временных меток на уровне слов.
public protocol ForcedAlignmentModel: AnyObject {
func align(audio: [Float], text: String, sampleRate: Int, language: String?) -> [AlignedWord]
}
SpeechToSpeechModel
Протокол для моделей диалога речь-в-речь.
public protocol SpeechToSpeechModel: AnyObject {
var sampleRate: Int { get }
func respond(userAudio: [Float]) -> [Float]
func respondStream(userAudio: [Float]) -> AsyncThrowingStream<AudioChunk, Error>
}
Соответствующие типы: PersonaPlexModel
VoiceActivityDetectionModel
Протокол для детекции голосовой активности.
public protocol VoiceActivityDetectionModel: AnyObject {
var inputSampleRate: Int { get }
func detectSpeech(audio: [Float], sampleRate: Int) -> [SpeechSegment]
}
SpeakerEmbeddingModel
Протокол для извлечения эмбеддингов спикеров.
public protocol SpeakerEmbeddingModel: AnyObject {
var inputSampleRate: Int { get }
var embeddingDimension: Int { get }
func embed(audio: [Float], sampleRate: Int) -> [Float]
}
Соответствующие типы: WeSpeakerModel
SpeakerDiarizationModel
Протокол для моделей диаризации спикеров, присваивающих метки спикеров сегментам аудио.
public protocol SpeakerDiarizationModel: AnyObject {
var inputSampleRate: Int { get }
func diarize(audio: [Float], sampleRate: Int) -> [DiarizedSegment]
}
Соответствующие типы: DiarizationPipeline (Pyannote), SortformerDiarizer
SpeakerExtractionCapable
Расширенный протокол диаризации для движков, поддерживающих извлечение сегментов целевого спикера с использованием референсного эмбеддинга. Не все движки поддерживают это (Sortformer сквозной и не выдаёт эмбеддинги спикеров).
public protocol SpeakerExtractionCapable: SpeakerDiarizationModel {
func extractSpeaker(audio: [Float], sampleRate: Int, targetEmbedding: [Float]) -> [SpeechSegment]
}
Соответствующие типы: DiarizationPipeline (только Pyannote)
Общие типы
AudioChunk
public struct AudioChunk {
public let samples: [Float] // PCM samples
public let sampleRate: Int // Sample rate (e.g. 24000)
}
SpeechSegment
public struct SpeechSegment {
public let startTime: Float // Start time in seconds
public let endTime: Float // End time in seconds
}
AlignedWord
public struct AlignedWord {
public let text: String // The word
public let startTime: Float // Start time in seconds
public let endTime: Float // End time in seconds
}
DiarizedSegment
public struct DiarizedSegment {
public let startTime: Float // Start time in seconds
public let endTime: Float // End time in seconds
public let speakerId: Int // Speaker identifier (0-based)
}
DialogueSegment
Разобранный сегмент многоголосого диалогового текста с опциональными тегами спикера и эмоций. Используется с DialogueParser и DialogueSynthesizer для синтеза диалога в CosyVoice3.
public struct DialogueSegment: Sendable, Equatable {
public let speaker: String? // Speaker identifier ("S1", "S2"), nil for untagged
public let emotion: String? // Emotion tag ("happy", "whispers"), nil if none
public let text: String // Cleaned text to synthesize
}
DialogueParser
Разбирает многоголосый диалоговый текст с инлайн-тегами спикеров ([S1]) и тегами эмоций ((happy)).
public enum DialogueParser {
static func parse(_ text: String) -> [DialogueSegment]
static func emotionToInstruction(_ emotion: String) -> String
}
Встроенные эмоции: happy/excited, sad, angry, whispers/whispering, laughs/laughing, calm, surprised, serious. Неизвестные теги передаются как произвольные инструкции.
DialogueSynthesizer
Оркестрирует синтез многосегментного диалога с клонированием голоса по спикерам, паузами тишины и crossfade.
public enum DialogueSynthesizer {
static func synthesize(
segments: [DialogueSegment],
speakerEmbeddings: [String: [Float]],
model: CosyVoiceTTSModel,
language: String,
config: DialogueSynthesisConfig,
verbose: Bool
) -> [Float]
}
DialogueSynthesisConfig
public struct DialogueSynthesisConfig: Sendable {
public var turnGapSeconds: Float // Default: 0.2
public var crossfadeSeconds: Float // Default: 0.0
public var defaultInstruction: String // Default: "You are a helpful assistant."
public var maxTokensPerSegment: Int // Default: 500
}
PipelineLLM
Протокол для интеграции языковой модели с голосовыми пайплайнами. Связывает LLM с потоком ASR → LLM → TTS в VoicePipeline.
public protocol PipelineLLM: AnyObject {
func chat(messages: [(role: MessageRole, content: String)],
onToken: @escaping (String, Bool) -> Void)
func cancel()
}
Встроенный адаптер: Qwen3PipelineLLM связывает Qwen35MLXChat с этим протоколом, добавляя очистку токенов, отмену и накопление ожидающих фраз.
AudioIO
Переиспользуемый менеджер аудио ввода/вывода, устраняющий шаблонный код AVAudioEngine. Обрабатывает захват с микрофона, ресемплинг, воспроизведение и измерение уровня.
let audio = AudioIO()
try audio.startMicrophone(targetSampleRate: 16000) { samples in
pipeline.pushAudio(samples)
}
audio.player.scheduleChunk(ttsOutput)
audio.stopMicrophone()
AudioIO включает StreamingAudioPlayer для вывода TTS и AudioRingBuffer для потокобезопасной передачи аудио между потоками захвата и инференса.
SentencePieceModel
Общий читатель protobuf для .model-файлов SentencePiece, живёт в AudioCommon. Каждый модуль, которому нужно декодировать фрагменты SentencePiece (PersonaPlex, OmnilingualASR, будущие ASR/TTS-порты), строит свой декодер поверх этого единого ридера вместо повторной реализации protobuf wire-формата.
public struct SentencePieceModel: Sendable {
public struct Piece: Sendable, Equatable {
public let text: String
public let score: Float
public let type: Int32
public var pieceType: PieceType? { get }
public var isControlOrUnknown: Bool { get }
}
public enum PieceType: Int32 {
case normal = 1, unknown = 2, control = 3,
userDefined = 4, unused = 5, byte = 6
}
public let pieces: [Piece]
public var count: Int { get }
public subscript(_ id: Int) -> Piece? { get }
public init(contentsOf url: URL) throws
public init(modelPath: String) throws
public init(data: Data) throws
}
Используется: OmnilingualASR.OmnilingualVocabulary, PersonaPlex.SentencePieceDecoder. Покрыт 7 юнит-тестами в Tests/AudioCommonTests/SentencePieceModelTests.
MLXCommon.SDPA
Хелперы scaled dot-product attention, общие для всех MLX-модулей внимания (Qwen3-ASR / Qwen3-TTS / Qwen3-Chat / CosyVoice / PersonaPlex / OmnilingualASR). Каждый модуль хранит свои проекции — SDPA обрабатывает только шаблонный код reshape → attention → merge.
public enum SDPA {
// Flat [B, T, H*D] input: project/reshape happens inside
public static func multiHead(
q: MLXArray, k: MLXArray, v: MLXArray,
numHeads: Int, headDim: Int, scale: Float,
mask: MLXArray? = nil
) -> MLXArray
// GQA / MQA variant with separate query and KV head counts
public static func multiHead(
q: MLXArray, k: MLXArray, v: MLXArray,
numQueryHeads: Int, numKVHeads: Int, headDim: Int, scale: Float,
mask: MLXArray? = nil
) -> MLXArray
// Already-shaped [B, H, T, D] (RoPE / KV cache paths)
public static func attendAndMerge(
qHeads: MLXArray, kHeads: MLXArray, vHeads: MLXArray,
scale: Float,
mask: MLXArray? = nil
) -> MLXArray
// Same, with ScaledDotProductAttentionMaskMode enum (newer API)
public static func attendAndMerge(
qHeads: MLXArray, kHeads: MLXArray, vHeads: MLXArray,
scale: Float,
mask: MLXFast.ScaledDotProductAttentionMaskMode
) -> MLXArray
// Low-level head merge: [B, H, T, D] → [B, T, H*D]
public static func mergeHeads(_ attn: MLXArray) -> MLXArray
}
Все вызовы reshape используют -1 для размерности батча, чтобы хелперы композировались с графами MLX.compile(shapeless:), где батч варьируется во время выполнения (например авторегрессивное декодирование Qwen3-TTS Talker).
HTTP API-сервер
Бинарный файл audio-server предоставляет каждую модель в speech-swift как HTTP REST эндпоинты плюс WebSocket-эндпоинт, реализующий OpenAI Realtime API. Модели загружаются лениво при первом запросе; передайте --preload, чтобы прогреть их все при запуске.
swift build -c release
.build/release/audio-server --port 8080
# Preload every model at startup
.build/release/audio-server --port 8080 --preload
REST-эндпоинты
| Эндпоинт | Метод | Запрос | Ответ |
|---|---|---|---|
/transcribe | POST | тело audio/wav | JSON { text } (Qwen3-ASR) |
/speak | POST | JSON { text, engine?, language?, voice? } | тело audio/wav (Qwen3-TTS, CosyVoice, Kokoro) |
/respond | POST | тело audio/wav | тело audio/wav (PersonaPlex) |
/enhance | POST | тело audio/wav | тело audio/wav (DeepFilterNet3) |
/vad | POST | тело audio/wav | JSON-список сегментов |
/diarize | POST | тело audio/wav | JSON-список DiarizedSegment |
/embed-speaker | POST | тело audio/wav | JSON [Float] (256-мерный) |
# Transcribe a file
curl -X POST http://localhost:8080/transcribe \
--data-binary @recording.wav \
-H "Content-Type: audio/wav"
# Synthesize speech
curl -X POST http://localhost:8080/speak \
-H "Content-Type: application/json" \
-d '{"text": "Hello world", "engine": "cosyvoice"}' \
-o output.wav
# Full speech-to-speech round trip
curl -X POST http://localhost:8080/respond \
--data-binary @question.wav \
-o response.wav
OpenAI Realtime API (/v1/realtime)
WebSocket-эндпоинт по адресу ws://host:port/v1/realtime реализует протокол OpenAI Realtime. Все сообщения — JSON с дискриминатором type; аудио-данные кодируются в base64 PCM16 на 24 кГц моно.
Клиент → Сервер: события
| Событие | Назначение |
|---|---|
session.update | Настройка движка, языка, голоса и аудиоформата |
input_audio_buffer.append | Добавить base64-чанк PCM16 во входной буфер |
input_audio_buffer.commit | Зафиксировать буферизованное аудио для транскрипции |
input_audio_buffer.clear | Сбросить текущий входной буфер |
response.create | Запросить синтез TTS для указанного текста/инструкций |
Сервер → Клиент: события
| Событие | Значение |
|---|---|
session.created | Рукопожатие завершено, отправлена дефолтная конфигурация |
session.updated | Последний session.update подтверждён |
input_audio_buffer.committed | Аудио принято и поставлено в очередь на транскрипцию |
conversation.item.input_audio_transcription.completed | Результат ASR с финальным текстом транскрипта |
response.audio.delta | Base64-чанк PCM16 синтезированного аудио |
response.audio.done | Больше аудио-чанков для этого ответа не будет |
response.done | Ответ финализирован (метаданные + статистика задержки) |
error | Конверт ошибки с type и message |
const ws = new WebSocket('ws://localhost:8080/v1/realtime');
// ASR: push audio, request transcription
ws.send(JSON.stringify({ type: 'input_audio_buffer.append', audio: base64PCM16 }));
ws.send(JSON.stringify({ type: 'input_audio_buffer.commit' }));
// → conversation.item.input_audio_transcription.completed
// TTS: request synthesis and stream audio deltas
ws.send(JSON.stringify({
type: 'response.create',
response: { modalities: ['audio', 'text'], instructions: 'Hello world' }
}));
// → response.audio.delta (repeated), response.audio.done, response.done
Сервер живёт в SPM-продукте AudioServer. Пример браузерного клиента поставляется в Examples/websocket-client.html — откройте его рядом с запущенным сервером, чтобы пройти полный цикл ASR + TTS.
Загрузка моделей
Все модели скачиваются с HuggingFace при первом использовании и кэшируются в ~/Library/Caches/qwen3-speech/. Модуль AudioCommon предоставляет общий HuggingFaceDownloader, который обрабатывает скачивание, кэширование и проверку целостности.