Parakeet TDT

Parakeet TDT — это модель распознавания речи от NVIDIA, адаптированная для работы на Neural Engine Apple Silicon через CoreML. Она использует энкодер FastConformer в паре с декодером Token-and-Duration Transducer (TDT) для точной и эффективной транскрипции.

Архитектура

Модель разделена на три файла CoreML, которые совместно работают во время инференса:

Компонент	Описание
Encoder	FastConformer — свёрточные слои и self-attention для извлечения аудиопризнаков
Decoder	Сеть предсказания, поддерживающая историю текстовых токенов
Joint	Объединяет выходы энкодера и декодера и выдаёт вероятности токенов

Энкодер квантизован в INT8 ради минимального расхода памяти и быстрого выполнения на Neural Engine. Декодер и joint-сеть достаточно малы, чтобы квантизация им не требовалась.

Варианты модели

Модель	Размер	HuggingFace
Parakeet-TDT-0.6B (CoreML INT8)	500 МБ	aufklarer/Parakeet-TDT-v3-CoreML-INT8-30s

Производительность

Метрика	Значение
Отношение к реальному времени	~32× быстрее реального времени на Neural Engine Apple Silicon
Целевое устройство	Neural Engine (через CoreML)
Квантизация	INT8

Использование CLI

Укажите флаг --engine parakeet, чтобы выбрать Parakeet TDT вместо Qwen3-ASR, используемого по умолчанию:

.build/release/speech transcribe recording.wav --engine parakeet

CoreML или MLX

Parakeet TDT использует CoreML для работы на Neural Engine, а Qwen3-ASR использует MLX для работы на Metal GPU. У этих двух подходов разные компромиссы:

	Parakeet TDT (CoreML)	Qwen3-ASR (MLX)
Целевое устройство	Neural Engine	Metal GPU
Скорость	~32× быстрее реального времени	~17× быстрее реального времени
Архитектура	FastConformer + TDT	Трансформер энкодер-декодер
Многоязычность	В основном английский	Многоязычная
Квантизация	INT8	4-bit (MLX)

Важно

Модели CoreML работают на Neural Engine, который функционирует независимо от GPU. Это означает, что Parakeet TDT может выполняться параллельно с задачами на GPU (например, TTS) без конкуренции за ресурсы.

Потоковый вариант

Для диктовки в реальном времени и живых субтитров см. Parakeet-EOU-120M — меньший (120 МБ) вариант RNN-T с явной головой для определения конца реплики, рассчитанный на инкрементальную работу с аудиофрагментами по 640 мс. Он использует тот же словарь SentencePiece, что и Parakeet TDT 0.6B, но оптимизирован под субсекундную задержку частичных результатов, а не под пиковую пропускную способность.

Также доступно на Android, Linux и Windows через ONNX Runtime.