Parakeet TDT

Parakeet TDT คือโมเดลการรู้จำเสียงพูดของ NVIDIA ที่ปรับให้รันบน Neural Engine ของ Apple Silicon ผ่าน CoreML โมเดลใช้ FastConformer encoder จับคู่กับ Token-and-Duration Transducer (TDT) decoder เพื่อการถอดเสียงที่แม่นยำและมีประสิทธิภาพ

สถาปัตยกรรม

โมเดลถูกแบ่งออกเป็นไฟล์ CoreML สามไฟล์ที่ทำงานร่วมกันระหว่างการอนุมาน:

ส่วนประกอบคำอธิบาย
EncoderFastConformer — ชั้น convolutional + self-attention สำหรับการสกัดคุณลักษณะเสียง
Decoderเครือข่ายทำนายที่เก็บประวัติของ token ข้อความ
Jointรวมเอาต์พุตของ encoder และ decoder เพื่อสร้างความน่าจะเป็นของ token

Encoder ถูกควอนไทซ์เป็น INT8 เพื่อใช้หน่วยความจำน้อยที่สุดและรันบน Neural Engine ได้รวดเร็ว ส่วน decoder และ joint network มีขนาดเล็กพอจึงไม่จำเป็นต้องควอนไทซ์

รุ่นของโมเดล

โมเดลขนาดHuggingFace
Parakeet-TDT-0.6B (CoreML INT8)500 MBaufklarer/Parakeet-TDT-v3-CoreML-INT8

ประสิทธิภาพ

ตัวชี้วัดค่า
Real-time factor~32 เท่าของเรียลไทม์บน Apple Silicon Neural Engine
เป้าหมายการประมวลผลNeural Engine (ผ่าน CoreML)
การควอนไทซ์INT8

การใช้งาน CLI

ใช้แฟล็ก --engine parakeet เพื่อเลือก Parakeet TDT แทน Qwen3-ASR ที่เป็นค่าเริ่มต้น:

.build/release/speech transcribe recording.wav --engine parakeet

CoreML เทียบกับ MLX

Parakeet TDT ใช้ CoreML เพื่อรันบน Neural Engine ในขณะที่ Qwen3-ASR ใช้ MLX เพื่อรันบน GPU แบบ Metal ทั้งสองแนวทางมีข้อแลกเปลี่ยนที่ต่างกัน:

Parakeet TDT (CoreML)Qwen3-ASR (MLX)
เป้าหมายการประมวลผลNeural EngineMetal GPU
ความเร็ว~32 เท่าของเรียลไทม์~17 เท่าของเรียลไทม์
สถาปัตยกรรมFastConformer + TDTEncoder-decoder transformer
หลายภาษาเน้นภาษาอังกฤษหลายภาษา
การควอนไทซ์INT84-bit (MLX)
ข้อสำคัญ

โมเดล CoreML รันบน Neural Engine ซึ่งทำงานเป็นอิสระจาก GPU นั่นหมายความว่า Parakeet TDT สามารถรันคู่ขนานไปกับงานที่ใช้ GPU เช่น TTS ได้โดยไม่ต้องแย่งทรัพยากร

รุ่นแบบสตรีมมิ่ง

สำหรับการบอกพิมพ์แบบเรียลไทม์และคำบรรยายสด ดู Parakeet-EOU-120M — รุ่น RNN-T ที่เล็กกว่า (120 MB) พร้อมหัว end-of-utterance ที่ชัดเจน ออกแบบให้รันแบบทีละเฟรมบน chunk เสียงขนาด 640 ms ใช้ vocabulary SentencePiece ร่วมกับ Parakeet TDT 0.6B แต่ปรับให้เน้นความหน่วงของผลลัพธ์บางส่วนที่ต่ำกว่าหนึ่งวินาทีแทน throughput สูงสุด

มีให้ใช้งานบน Android & Linux ผ่าน ONNX Runtime ด้วย