Parakeet TDT

Parakeet TDTはNVIDIAの音声認識モデルで、CoreML経由でApple SiliconのNeural Engine上で動作するように適応されています。正確で効率的な文字起こしのために、FastConformerエンコーダーとToken-and-Duration Transducer (TDT) デコーダーを組み合わせて使用します。

アーキテクチャ

モデルは、推論中に連携する3つのCoreMLモデルファイルに分割されます：

コンポーネント	説明
エンコーダー	FastConformer — 音声特徴抽出のための畳み込み + 自己アテンションレイヤー
デコーダー	テキストトークン履歴を維持する予測ネットワーク
Joint	エンコーダーとデコーダーの出力を組み合わせてトークン確率を生成

エンコーダーは最小限のメモリフットプリントと高速なNeural Engine実行のためにINT8量子化されています。デコーダーとjointネットワークは、量子化が必要ないほど十分に小さいです。

モデルバリアント

モデル	サイズ	HuggingFace
Parakeet-TDT-0.6B (CoreML INT8)	500 MB	aufklarer/Parakeet-TDT-v3-CoreML-INT8-30s

パフォーマンス

指標	値
リアルタイム係数	Apple Silicon Neural Engine上で約32倍のリアルタイム
計算ターゲット	Neural Engine (CoreML経由)
量子化	INT8

CLIの使用法

デフォルトのQwen3-ASRの代わりにParakeet TDTを選択するには、--engine parakeetフラグを使用します：

.build/release/speech transcribe recording.wav --engine parakeet

CoreML vs MLX

Parakeet TDTはCoreMLを使用してNeural Engine上で動作する一方、Qwen3-ASRはMLXを使用してMetal GPU上で動作します。2つのアプローチには異なるトレードオフがあります：

	Parakeet TDT (CoreML)	Qwen3-ASR (MLX)
計算ターゲット	Neural Engine	Metal GPU
速度	約32倍リアルタイム	約17倍リアルタイム
アーキテクチャ	FastConformer + TDT	エンコーダー-デコーダートランスフォーマー
多言語	英語フォーカス	多言語
量子化	INT8	4ビット (MLX)

重要

CoreMLモデルはNeural Engine上で動作し、GPUとは独立して動作します。つまり、Parakeet TDTはTTSのようなGPUベースのタスクと競合することなく並行して実行できます。

ストリーミングバリアント

リアルタイムディクテーションとライブキャプションには、Parakeet-EOU-120Mを参照してください — 明示的な発話終端ヘッドを備えた、より小さい（120 MB）RNN-Tバリアントで、640 msの音声チャンク上で増分的に実行するように設計されています。Parakeet TDT 0.6Bと同じSentencePiece語彙を共有しますが、ピークスループットではなくサブ秒の部分結果レイテンシーに最適化されています。

Android、Linux と Windows (ONNX Runtime経由)でも利用可能です。