Parakeet TDT

Parakeet TDT 是 NVIDIA 的语音识别模型，经过适配，可通过 CoreML 在 Apple Silicon 的 Neural Engine 上运行。它使用 FastConformer 编码器搭配 Token-and-Duration Transducer（TDT）解码器，实现准确、高效的转写。

架构

该模型被拆分为三个 CoreML 模型文件，在推理时协同工作：

组件	描述
编码器	FastConformer — 卷积 + 自注意力层，用于音频特征提取
解码器	维护文本 token 历史的预测网络
Joint	将编码器与解码器输出合并，产生 token 概率

编码器采用 INT8 量化，以最小化内存占用并加快 Neural Engine 执行。解码器和 Joint 网络较小，无需量化。

模型变体

模型	大小	HuggingFace
Parakeet-TDT-0.6B (CoreML INT8)	500 MB	aufklarer/Parakeet-TDT-v3-CoreML-INT8-30s

性能

指标	数值
实时倍率	在 Apple Silicon Neural Engine 上约 32x 实时
计算目标	Neural Engine（通过 CoreML）
量化	INT8

CLI 用法

使用 --engine parakeet 标志选择 Parakeet TDT 而非默认的 Qwen3-ASR：

.build/release/speech transcribe recording.wav --engine parakeet

CoreML 与 MLX 对比

Parakeet TDT 使用 CoreML 在 Neural Engine 上运行，而 Qwen3-ASR 使用 MLX 在 Metal GPU 上运行。两种方案各有取舍：

	Parakeet TDT (CoreML)	Qwen3-ASR (MLX)
计算目标	Neural Engine	Metal GPU
速度	~32x 实时	~17x 实时
架构	FastConformer + TDT	编码器-解码器 transformer
多语言	以英文为主	多语言
量化	INT8	4 位（MLX）

重要

CoreML 模型在 Neural Engine 上运行，与 GPU 独立工作。这意味着 Parakeet TDT 可以与基于 GPU 的任务（例如 TTS）并发运行而不会相互争抢资源。

流式变体

实时听写与直播字幕请参阅 Parakeet-EOU-120M — 更小（120 MB）的 RNN-T 变体，带显式句末检测头，设计用于在 640 ms 音频块上增量运行。它与 Parakeet TDT 0.6B 共享相同的 SentencePiece 词表，但针对亚秒级部分结果延迟而非峰值吞吐进行了优化。

也可在 Android、Linux 与 Windows（通过 ONNX Runtime）上使用。