Parakeet TDT

Parakeet TDT — это модель распознавания речи от NVIDIA, адаптированная для работы на Neural Engine Apple Silicon через CoreML. Она использует энкодер FastConformer в паре с декодером Token-and-Duration Transducer (TDT) для точной и эффективной транскрипции.

Архитектура

Модель разделена на три файла CoreML, которые совместно работают во время инференса:

КомпонентОписание
EncoderFastConformer — свёрточные слои и self-attention для извлечения аудиопризнаков
DecoderСеть предсказания, поддерживающая историю текстовых токенов
JointОбъединяет выходы энкодера и декодера и выдаёт вероятности токенов

Энкодер квантизован в INT8 ради минимального расхода памяти и быстрого выполнения на Neural Engine. Декодер и joint-сеть достаточно малы, чтобы квантизация им не требовалась.

Варианты модели

МодельРазмерHuggingFace
Parakeet-TDT-0.6B (CoreML INT8)500 МБaufklarer/Parakeet-TDT-v3-CoreML-INT8

Производительность

МетрикаЗначение
Отношение к реальному времени~32× быстрее реального времени на Neural Engine Apple Silicon
Целевое устройствоNeural Engine (через CoreML)
КвантизацияINT8

Использование CLI

Укажите флаг --engine parakeet, чтобы выбрать Parakeet TDT вместо Qwen3-ASR, используемого по умолчанию:

.build/release/audio transcribe recording.wav --engine parakeet

CoreML или MLX

Parakeet TDT использует CoreML для работы на Neural Engine, а Qwen3-ASR использует MLX для работы на Metal GPU. У этих двух подходов разные компромиссы:

Parakeet TDT (CoreML)Qwen3-ASR (MLX)
Целевое устройствоNeural EngineMetal GPU
Скорость~32× быстрее реального времени~17× быстрее реального времени
АрхитектураFastConformer + TDTТрансформер энкодер-декодер
МногоязычностьВ основном английскийМногоязычная
КвантизацияINT84-bit (MLX)
Важно

Модели CoreML работают на Neural Engine, который функционирует независимо от GPU. Это означает, что Parakeet TDT может выполняться параллельно с задачами на GPU (например, TTS) без конкуренции за ресурсы.

Потоковый вариант

Для диктовки в реальном времени и живых субтитров см. Parakeet-EOU-120M — меньший (120 МБ) вариант RNN-T с явной головой для определения конца реплики, рассчитанный на инкрементальную работу с аудиофрагментами по 640 мс. Он использует тот же словарь SentencePiece, что и Parakeet TDT 0.6B, но оптимизирован под субсекундную задержку частичных результатов, а не под пиковую пропускную способность.

Также доступно на Android и Linux через ONNX Runtime.