Parakeet TDT

Parakeet TDT là mô hình nhận dạng giọng nói của NVIDIA, được điều chỉnh để chạy trên Neural Engine của Apple Silicon qua CoreML. Mô hình dùng bộ mã hoá FastConformer kết hợp với bộ giải mã Token-and-Duration Transducer (TDT) cho phiên âm chính xác và hiệu quả.

Kiến trúc

Mô hình được chia thành ba tệp CoreML phối hợp với nhau trong quá trình suy luận:

Thành phần	Mô tả
Bộ mã hoá	FastConformer — các lớp tích chập + self-attention để trích xuất đặc trưng âm thanh
Bộ giải mã	Mạng dự đoán duy trì lịch sử token văn bản
Joint	Kết hợp đầu ra của bộ mã hoá và bộ giải mã để sinh xác suất token

Bộ mã hoá được lượng tử hoá INT8 để có dấu chân bộ nhớ tối thiểu và thực thi nhanh trên Neural Engine. Bộ giải mã và mạng joint đủ nhỏ nên không cần lượng tử hoá.

Biến thể mô hình

Mô hình	Kích thước	HuggingFace
Parakeet-TDT-0.6B (CoreML INT8)	500 MB	aufklarer/Parakeet-TDT-v3-CoreML-INT8-30s

Hiệu năng

Chỉ số	Giá trị
Hệ số thời gian thực	~32× thời gian thực trên Apple Silicon Neural Engine
Đích tính toán	Neural Engine (qua CoreML)
Lượng tử hoá	INT8

Sử dụng CLI

Dùng cờ --engine parakeet để chọn Parakeet TDT thay cho Qwen3-ASR mặc định:

.build/release/speech transcribe recording.wav --engine parakeet

CoreML so với MLX

Parakeet TDT dùng CoreML để chạy trên Neural Engine, còn Qwen3-ASR dùng MLX để chạy trên GPU Metal. Hai cách tiếp cận có những đánh đổi khác nhau:

	Parakeet TDT (CoreML)	Qwen3-ASR (MLX)
Đích tính toán	Neural Engine	GPU Metal
Tốc độ	~32× thời gian thực	~17× thời gian thực
Kiến trúc	FastConformer + TDT	Transformer mã hoá-giải mã
Đa ngôn ngữ	Tập trung vào tiếng Anh	Đa ngôn ngữ
Lượng tử hoá	INT8	4-bit (MLX)

Lưu ý quan trọng

Các mô hình CoreML chạy trên Neural Engine, vốn hoạt động độc lập với GPU. Điều này có nghĩa là Parakeet TDT có thể chạy song song với các tác vụ dựa trên GPU như TTS mà không bị tranh chấp tài nguyên.

Biến thể streaming

Để đọc chính tả thời gian thực và phụ đề trực tiếp, xem Parakeet-EOU-120M — một biến thể RNN-T nhỏ hơn (120 MB) với đầu ra phát hiện kết thúc câu nói rõ ràng, được thiết kế để chạy tăng dần trên các chunk âm thanh 640 ms. Mô hình này dùng chung vocabulary SentencePiece với Parakeet TDT 0.6B nhưng được tối ưu cho độ trễ từng phần dưới một giây thay vì throughput đỉnh.

Cũng có sẵn trên Android, Linux & Windows qua ONNX Runtime.