Parakeet TDT

Parakeet TDT 是 NVIDIA 的语音识别模型,经过适配,可通过 CoreML 在 Apple Silicon 的 Neural Engine 上运行。它使用 FastConformer 编码器搭配 Token-and-Duration Transducer(TDT)解码器,实现准确、高效的转写。

架构

该模型被拆分为三个 CoreML 模型文件,在推理时协同工作:

组件描述
编码器FastConformer — 卷积 + 自注意力层,用于音频特征提取
解码器维护文本 token 历史的预测网络
Joint将编码器与解码器输出合并,产生 token 概率

编码器采用 INT8 量化,以最小化内存占用并加快 Neural Engine 执行。解码器和 Joint 网络较小,无需量化。

模型变体

模型大小HuggingFace
Parakeet-TDT-0.6B (CoreML INT8)500 MBaufklarer/Parakeet-TDT-v3-CoreML-INT8

性能

指标数值
实时倍率在 Apple Silicon Neural Engine 上约 32x 实时
计算目标Neural Engine(通过 CoreML)
量化INT8

CLI 用法

使用 --engine parakeet 标志选择 Parakeet TDT 而非默认的 Qwen3-ASR:

.build/release/audio transcribe recording.wav --engine parakeet

CoreML 与 MLX 对比

Parakeet TDT 使用 CoreML 在 Neural Engine 上运行,而 Qwen3-ASR 使用 MLX 在 Metal GPU 上运行。两种方案各有取舍:

Parakeet TDT (CoreML)Qwen3-ASR (MLX)
计算目标Neural EngineMetal GPU
速度~32x 实时~17x 实时
架构FastConformer + TDT编码器-解码器 transformer
多语言以英文为主多语言
量化INT84 位(MLX)
重要

CoreML 模型在 Neural Engine 上运行,与 GPU 独立工作。这意味着 Parakeet TDT 可以与基于 GPU 的任务(例如 TTS)并发运行而不会相互争抢资源。

流式变体

实时听写与直播字幕请参阅 Parakeet-EOU-120M — 更小(120 MB)的 RNN-T 变体,带显式句末检测头,设计用于在 640 ms 音频块上增量运行。它与 Parakeet TDT 0.6B 共享相同的 SentencePiece 词表,但针对亚秒级部分结果延迟而非峰值吞吐进行了优化。

也可在 Android 与 Linux(通过 ONNX Runtime)上使用。