Parakeet TDT

Parakeet TDTはNVIDIAの音声認識モデルで、CoreML経由でApple SiliconのNeural Engine上で動作するように適応されています。正確で効率的な文字起こしのために、FastConformerエンコーダーとToken-and-Duration Transducer (TDT) デコーダーを組み合わせて使用します。

アーキテクチャ

モデルは、推論中に連携する3つのCoreMLモデルファイルに分割されます:

コンポーネント説明
エンコーダーFastConformer — 音声特徴抽出のための畳み込み + 自己アテンションレイヤー
デコーダーテキストトークン履歴を維持する予測ネットワーク
Jointエンコーダーとデコーダーの出力を組み合わせてトークン確率を生成

エンコーダーは最小限のメモリフットプリントと高速なNeural Engine実行のためにINT8量子化されています。デコーダーとjointネットワークは、量子化が必要ないほど十分に小さいです。

モデルバリアント

モデルサイズHuggingFace
Parakeet-TDT-0.6B (CoreML INT8)500 MBaufklarer/Parakeet-TDT-v3-CoreML-INT8

パフォーマンス

指標
リアルタイム係数Apple Silicon Neural Engine上で約32倍のリアルタイム
計算ターゲットNeural Engine (CoreML経由)
量子化INT8

CLIの使用法

デフォルトのQwen3-ASRの代わりにParakeet TDTを選択するには、--engine parakeetフラグを使用します:

.build/release/audio transcribe recording.wav --engine parakeet

CoreML vs MLX

Parakeet TDTはCoreMLを使用してNeural Engine上で動作する一方、Qwen3-ASRはMLXを使用してMetal GPU上で動作します。2つのアプローチには異なるトレードオフがあります:

Parakeet TDT (CoreML)Qwen3-ASR (MLX)
計算ターゲットNeural EngineMetal GPU
速度約32倍リアルタイム約17倍リアルタイム
アーキテクチャFastConformer + TDTエンコーダー-デコーダートランスフォーマー
多言語英語フォーカス多言語
量子化INT84ビット (MLX)
重要

CoreMLモデルはNeural Engine上で動作し、GPUとは独立して動作します。つまり、Parakeet TDTはTTSのようなGPUベースのタスクと競合することなく並行して実行できます。

ストリーミングバリアント

リアルタイムディクテーションとライブキャプションには、Parakeet-EOU-120Mを参照してください — 明示的な発話終端ヘッドを備えた、より小さい(120 MB)RNN-Tバリアントで、640 msの音声チャンク上で増分的に実行するように設計されています。Parakeet TDT 0.6Bと同じSentencePiece語彙を共有しますが、ピークスループットではなくサブ秒の部分結果レイテンシーに最適化されています。

Android と Linux (ONNX Runtime経由)でも利用可能です。