Parakeet TDT
Parakeet TDT 是 NVIDIA 的语音识别模型,经过适配,可通过 CoreML 在 Apple Silicon 的 Neural Engine 上运行。它使用 FastConformer 编码器搭配 Token-and-Duration Transducer(TDT)解码器,实现准确、高效的转写。
架构
该模型被拆分为三个 CoreML 模型文件,在推理时协同工作:
| 组件 | 描述 |
|---|---|
| 编码器 | FastConformer — 卷积 + 自注意力层,用于音频特征提取 |
| 解码器 | 维护文本 token 历史的预测网络 |
| Joint | 将编码器与解码器输出合并,产生 token 概率 |
编码器采用 INT8 量化,以最小化内存占用并加快 Neural Engine 执行。解码器和 Joint 网络较小,无需量化。
模型变体
| 模型 | 大小 | HuggingFace |
|---|---|---|
| Parakeet-TDT-0.6B (CoreML INT8) | 500 MB | aufklarer/Parakeet-TDT-v3-CoreML-INT8 |
性能
| 指标 | 数值 |
|---|---|
| 实时倍率 | 在 Apple Silicon Neural Engine 上约 32x 实时 |
| 计算目标 | Neural Engine(通过 CoreML) |
| 量化 | INT8 |
CLI 用法
使用 --engine parakeet 标志选择 Parakeet TDT 而非默认的 Qwen3-ASR:
.build/release/audio transcribe recording.wav --engine parakeet
CoreML 与 MLX 对比
Parakeet TDT 使用 CoreML 在 Neural Engine 上运行,而 Qwen3-ASR 使用 MLX 在 Metal GPU 上运行。两种方案各有取舍:
| Parakeet TDT (CoreML) | Qwen3-ASR (MLX) | |
|---|---|---|
| 计算目标 | Neural Engine | Metal GPU |
| 速度 | ~32x 实时 | ~17x 实时 |
| 架构 | FastConformer + TDT | 编码器-解码器 transformer |
| 多语言 | 以英文为主 | 多语言 |
| 量化 | INT8 | 4 位(MLX) |
重要
CoreML 模型在 Neural Engine 上运行,与 GPU 独立工作。这意味着 Parakeet TDT 可以与基于 GPU 的任务(例如 TTS)并发运行而不会相互争抢资源。
流式变体
实时听写与直播字幕请参阅 Parakeet-EOU-120M — 更小(120 MB)的 RNN-T 变体,带显式句末检测头,设计用于在 640 ms 音频块上增量运行。它与 Parakeet TDT 0.6B 共享相同的 SentencePiece 词表,但针对亚秒级部分结果延迟而非峰值吞吐进行了优化。
也可在 Android 与 Linux(通过 ONNX Runtime)上使用。