Parakeet TDT
Parakeet TDT là mô hình nhận dạng giọng nói của NVIDIA, được điều chỉnh để chạy trên Neural Engine của Apple Silicon qua CoreML. Mô hình dùng bộ mã hoá FastConformer kết hợp với bộ giải mã Token-and-Duration Transducer (TDT) cho phiên âm chính xác và hiệu quả.
Kiến trúc
Mô hình được chia thành ba tệp CoreML phối hợp với nhau trong quá trình suy luận:
| Thành phần | Mô tả |
|---|---|
| Bộ mã hoá | FastConformer — các lớp tích chập + self-attention để trích xuất đặc trưng âm thanh |
| Bộ giải mã | Mạng dự đoán duy trì lịch sử token văn bản |
| Joint | Kết hợp đầu ra của bộ mã hoá và bộ giải mã để sinh xác suất token |
Bộ mã hoá được lượng tử hoá INT8 để có dấu chân bộ nhớ tối thiểu và thực thi nhanh trên Neural Engine. Bộ giải mã và mạng joint đủ nhỏ nên không cần lượng tử hoá.
Biến thể mô hình
| Mô hình | Kích thước | HuggingFace |
|---|---|---|
| Parakeet-TDT-0.6B (CoreML INT8) | 500 MB | aufklarer/Parakeet-TDT-v3-CoreML-INT8 |
Hiệu năng
| Chỉ số | Giá trị |
|---|---|
| Hệ số thời gian thực | ~32× thời gian thực trên Apple Silicon Neural Engine |
| Đích tính toán | Neural Engine (qua CoreML) |
| Lượng tử hoá | INT8 |
Sử dụng CLI
Dùng cờ --engine parakeet để chọn Parakeet TDT thay cho Qwen3-ASR mặc định:
.build/release/speech transcribe recording.wav --engine parakeet
CoreML so với MLX
Parakeet TDT dùng CoreML để chạy trên Neural Engine, còn Qwen3-ASR dùng MLX để chạy trên GPU Metal. Hai cách tiếp cận có những đánh đổi khác nhau:
| Parakeet TDT (CoreML) | Qwen3-ASR (MLX) | |
|---|---|---|
| Đích tính toán | Neural Engine | GPU Metal |
| Tốc độ | ~32× thời gian thực | ~17× thời gian thực |
| Kiến trúc | FastConformer + TDT | Transformer mã hoá-giải mã |
| Đa ngôn ngữ | Tập trung vào tiếng Anh | Đa ngôn ngữ |
| Lượng tử hoá | INT8 | 4-bit (MLX) |
Các mô hình CoreML chạy trên Neural Engine, vốn hoạt động độc lập với GPU. Điều này có nghĩa là Parakeet TDT có thể chạy song song với các tác vụ dựa trên GPU như TTS mà không bị tranh chấp tài nguyên.
Biến thể streaming
Để đọc chính tả thời gian thực và phụ đề trực tiếp, xem Parakeet-EOU-120M — một biến thể RNN-T nhỏ hơn (120 MB) với đầu ra phát hiện kết thúc câu nói rõ ràng, được thiết kế để chạy tăng dần trên các chunk âm thanh 640 ms. Mô hình này dùng chung vocabulary SentencePiece với Parakeet TDT 0.6B nhưng được tối ưu cho độ trễ từng phần dưới một giây thay vì throughput đỉnh.
Cũng có sẵn trên Android & Linux qua ONNX Runtime.