Parakeet TDT
Parakeet TDT — это модель распознавания речи от NVIDIA, адаптированная для работы на Neural Engine Apple Silicon через CoreML. Она использует энкодер FastConformer в паре с декодером Token-and-Duration Transducer (TDT) для точной и эффективной транскрипции.
Архитектура
Модель разделена на три файла CoreML, которые совместно работают во время инференса:
| Компонент | Описание |
|---|---|
| Encoder | FastConformer — свёрточные слои и self-attention для извлечения аудиопризнаков |
| Decoder | Сеть предсказания, поддерживающая историю текстовых токенов |
| Joint | Объединяет выходы энкодера и декодера и выдаёт вероятности токенов |
Энкодер квантизован в INT8 ради минимального расхода памяти и быстрого выполнения на Neural Engine. Декодер и joint-сеть достаточно малы, чтобы квантизация им не требовалась.
Варианты модели
| Модель | Размер | HuggingFace |
|---|---|---|
| Parakeet-TDT-0.6B (CoreML INT8) | 500 МБ | aufklarer/Parakeet-TDT-v3-CoreML-INT8 |
Производительность
| Метрика | Значение |
|---|---|
| Отношение к реальному времени | ~32× быстрее реального времени на Neural Engine Apple Silicon |
| Целевое устройство | Neural Engine (через CoreML) |
| Квантизация | INT8 |
Использование CLI
Укажите флаг --engine parakeet, чтобы выбрать Parakeet TDT вместо Qwen3-ASR, используемого по умолчанию:
.build/release/audio transcribe recording.wav --engine parakeet
CoreML или MLX
Parakeet TDT использует CoreML для работы на Neural Engine, а Qwen3-ASR использует MLX для работы на Metal GPU. У этих двух подходов разные компромиссы:
| Parakeet TDT (CoreML) | Qwen3-ASR (MLX) | |
|---|---|---|
| Целевое устройство | Neural Engine | Metal GPU |
| Скорость | ~32× быстрее реального времени | ~17× быстрее реального времени |
| Архитектура | FastConformer + TDT | Трансформер энкодер-декодер |
| Многоязычность | В основном английский | Многоязычная |
| Квантизация | INT8 | 4-bit (MLX) |
Модели CoreML работают на Neural Engine, который функционирует независимо от GPU. Это означает, что Parakeet TDT может выполняться параллельно с задачами на GPU (например, TTS) без конкуренции за ресурсы.
Потоковый вариант
Для диктовки в реальном времени и живых субтитров см. Parakeet-EOU-120M — меньший (120 МБ) вариант RNN-T с явной головой для определения конца реплики, рассчитанный на инкрементальную работу с аудиофрагментами по 640 мс. Он использует тот же словарь SentencePiece, что и Parakeet TDT 0.6B, но оптимизирован под субсекундную задержку частичных результатов, а не под пиковую пропускную способность.
Также доступно на Android и Linux через ONNX Runtime.