Parakeet TDT
Parakeet TDTはNVIDIAの音声認識モデルで、CoreML経由でApple SiliconのNeural Engine上で動作するように適応されています。正確で効率的な文字起こしのために、FastConformerエンコーダーとToken-and-Duration Transducer (TDT) デコーダーを組み合わせて使用します。
アーキテクチャ
モデルは、推論中に連携する3つのCoreMLモデルファイルに分割されます:
| コンポーネント | 説明 |
|---|---|
| エンコーダー | FastConformer — 音声特徴抽出のための畳み込み + 自己アテンションレイヤー |
| デコーダー | テキストトークン履歴を維持する予測ネットワーク |
| Joint | エンコーダーとデコーダーの出力を組み合わせてトークン確率を生成 |
エンコーダーは最小限のメモリフットプリントと高速なNeural Engine実行のためにINT8量子化されています。デコーダーとjointネットワークは、量子化が必要ないほど十分に小さいです。
モデルバリアント
| モデル | サイズ | HuggingFace |
|---|---|---|
| Parakeet-TDT-0.6B (CoreML INT8) | 500 MB | aufklarer/Parakeet-TDT-v3-CoreML-INT8 |
パフォーマンス
| 指標 | 値 |
|---|---|
| リアルタイム係数 | Apple Silicon Neural Engine上で約32倍のリアルタイム |
| 計算ターゲット | Neural Engine (CoreML経由) |
| 量子化 | INT8 |
CLIの使用法
デフォルトのQwen3-ASRの代わりにParakeet TDTを選択するには、--engine parakeetフラグを使用します:
.build/release/audio transcribe recording.wav --engine parakeet
CoreML vs MLX
Parakeet TDTはCoreMLを使用してNeural Engine上で動作する一方、Qwen3-ASRはMLXを使用してMetal GPU上で動作します。2つのアプローチには異なるトレードオフがあります:
| Parakeet TDT (CoreML) | Qwen3-ASR (MLX) | |
|---|---|---|
| 計算ターゲット | Neural Engine | Metal GPU |
| 速度 | 約32倍リアルタイム | 約17倍リアルタイム |
| アーキテクチャ | FastConformer + TDT | エンコーダー-デコーダートランスフォーマー |
| 多言語 | 英語フォーカス | 多言語 |
| 量子化 | INT8 | 4ビット (MLX) |
CoreMLモデルはNeural Engine上で動作し、GPUとは独立して動作します。つまり、Parakeet TDTはTTSのようなGPUベースのタスクと競合することなく並行して実行できます。
ストリーミングバリアント
リアルタイムディクテーションとライブキャプションには、Parakeet-EOU-120Mを参照してください — 明示的な発話終端ヘッドを備えた、より小さい(120 MB)RNN-Tバリアントで、640 msの音声チャンク上で増分的に実行するように設計されています。Parakeet TDT 0.6Bと同じSentencePiece語彙を共有しますが、ピークスループットではなくサブ秒の部分結果レイテンシーに最適化されています。
Android と Linux (ONNX Runtime経由)でも利用可能です。