Parakeet TDT

Parakeet TDT là mô hình nhận dạng giọng nói của NVIDIA, được điều chỉnh để chạy trên Neural Engine của Apple Silicon qua CoreML. Mô hình dùng bộ mã hoá FastConformer kết hợp với bộ giải mã Token-and-Duration Transducer (TDT) cho phiên âm chính xác và hiệu quả.

Kiến trúc

Mô hình được chia thành ba tệp CoreML phối hợp với nhau trong quá trình suy luận:

Thành phầnMô tả
Bộ mã hoáFastConformer — các lớp tích chập + self-attention để trích xuất đặc trưng âm thanh
Bộ giải mãMạng dự đoán duy trì lịch sử token văn bản
JointKết hợp đầu ra của bộ mã hoá và bộ giải mã để sinh xác suất token

Bộ mã hoá được lượng tử hoá INT8 để có dấu chân bộ nhớ tối thiểu và thực thi nhanh trên Neural Engine. Bộ giải mã và mạng joint đủ nhỏ nên không cần lượng tử hoá.

Biến thể mô hình

Mô hìnhKích thướcHuggingFace
Parakeet-TDT-0.6B (CoreML INT8)500 MBaufklarer/Parakeet-TDT-v3-CoreML-INT8

Hiệu năng

Chỉ sốGiá trị
Hệ số thời gian thực~32× thời gian thực trên Apple Silicon Neural Engine
Đích tính toánNeural Engine (qua CoreML)
Lượng tử hoáINT8

Sử dụng CLI

Dùng cờ --engine parakeet để chọn Parakeet TDT thay cho Qwen3-ASR mặc định:

.build/release/speech transcribe recording.wav --engine parakeet

CoreML so với MLX

Parakeet TDT dùng CoreML để chạy trên Neural Engine, còn Qwen3-ASR dùng MLX để chạy trên GPU Metal. Hai cách tiếp cận có những đánh đổi khác nhau:

Parakeet TDT (CoreML)Qwen3-ASR (MLX)
Đích tính toánNeural EngineGPU Metal
Tốc độ~32× thời gian thực~17× thời gian thực
Kiến trúcFastConformer + TDTTransformer mã hoá-giải mã
Đa ngôn ngữTập trung vào tiếng AnhĐa ngôn ngữ
Lượng tử hoáINT84-bit (MLX)
Lưu ý quan trọng

Các mô hình CoreML chạy trên Neural Engine, vốn hoạt động độc lập với GPU. Điều này có nghĩa là Parakeet TDT có thể chạy song song với các tác vụ dựa trên GPU như TTS mà không bị tranh chấp tài nguyên.

Biến thể streaming

Để đọc chính tả thời gian thực và phụ đề trực tiếp, xem Parakeet-EOU-120M — một biến thể RNN-T nhỏ hơn (120 MB) với đầu ra phát hiện kết thúc câu nói rõ ràng, được thiết kế để chạy tăng dần trên các chunk âm thanh 640 ms. Mô hình này dùng chung vocabulary SentencePiece với Parakeet TDT 0.6B nhưng được tối ưu cho độ trễ từng phần dưới một giây thay vì throughput đỉnh.

Cũng có sẵn trên Android & Linux qua ONNX Runtime.