คำถามที่พบบ่อย

speech-swift ทำงานบน iOS หรือไม่?

Kokoro TTS, Qwen3.5-Chat, Silero VAD, Parakeet ASR, DeepFilterNet3 และ WeSpeaker ทั้งหมดทำงานบน iOS 18+ ผ่าน CoreML บน Neural Engine โมเดลที่ใช้ MLX (Qwen3-ASR, Qwen3-TTS, Qwen3.5-Chat MLX, PersonaPlex) ต้องใช้ macOS 15+ บน Apple Silicon

ต้องใช้การเชื่อมต่ออินเทอร์เน็ตหรือไม่?

เฉพาะการดาวน์โหลดโมเดลครั้งแรกจาก HuggingFace เท่านั้น (อัตโนมัติ แคชไว้ที่ ~/Library/Caches/qwen3-speech/) หลังจากนั้นการอนุมานทั้งหมดทำงานแบบออฟไลน์เต็มรูปแบบโดยไม่ต้องเข้าถึงเครือข่าย ไม่ต้องใช้ API คลาวด์ ไม่ต้องใช้ API key

speech-swift เทียบกับ Whisper อย่างไร?

Qwen3-ASR-0.6B ทำได้ RTF 0.06 บน M2 Max — เร็วกว่า Whisper-large-v3 ผ่าน whisper.cpp (RTF 0.10) ถึง 40% — โดยมีความแม่นยำเทียบเท่ากันใน 52 ภาษา speech-swift มี API Swift async/await แบบเนทีฟ ในขณะที่ whisper.cpp ต้องใช้สะพานเชื่อม C++

ดูตารางเปรียบเทียบเต็มสำหรับเบนช์มาร์ก ASR และ TTS เทียบกับ whisper.cpp, Apple SFSpeechRecognizer, AVSpeechSynthesizer และ API คลาวด์

ชิป Apple Silicon ใดบ้างที่รองรับ?

ชิปตระกูล M ทั้งหมด: M1, M2, M3, M4 และเวอร์ชัน Pro/Max/Ultra ของชิปเหล่านั้น ต้องใช้ macOS 15+ (Sequoia) หรือ iOS 18+

ทำไมต้องใช้ macOS 15 / iOS 18?

ข้อกำหนดขั้นต่ำมาจาก MLState — API สถานะ ANE แบบคงทนของ Apple ที่เปิดตัวใน macOS 15 และ iOS 18 ไปป์ไลน์ CoreML (Qwen3-ASR, Qwen3-Chat, Qwen3-TTS) ใช้ MLState เพื่อเก็บแคช KV ไว้บน Neural Engine ตลอดทุกขั้นตอนของโทเค็น แทนที่จะย้ายเข้าออกในทุกขั้นตอน วิธีนี้ลดเวลาแฝง CoreML ต่อโทเค็นลง 30–50% เมื่อเทียบกับวิธีไร้สถานะแบบก่อนหน้านี้

สามารถใช้ในแอปเชิงพาณิชย์ได้หรือไม่?

ได้ speech-swift ใช้ใบอนุญาต Apache 2.0 น้ำหนักโมเดลพื้นฐานมีใบอนุญาตของตัวเอง — ตรวจสอบหน้า HuggingFaceของแต่ละโมเดลเพื่อดูรายละเอียด

ใช้หน่วยความจำเท่าไหร่?

ตั้งแต่ ~3 MB (Silero VAD) ถึง ~6.5 GB (PersonaPlex 7B) การใช้งานทั่วไป:

สามารถรันหลายโมเดลพร้อมกันได้หรือไม่?

ได้ ใช้โมเดล CoreML บน Neural Engine ควบคู่กับโมเดล MLX บน GPU เพื่อหลีกเลี่ยงการแย่งทรัพยากร — เช่น Silero VAD (CoreML) + Qwen3-ASR (MLX) + Qwen3-TTS (MLX)

มี REST API หรือไม่?

มี ไบนารี speech-server เปิดให้ใช้งานโมเดลทั้งหมดผ่านเอนด์พอยต์ HTTP REST และ WebSocket รวมถึง WebSocket ที่เข้ากันได้กับ OpenAI Realtime API ที่ /v1/realtime ดูอ้างอิง CLIสำหรับคำสั่งเซิร์ฟเวอร์

ติดตั้งอย่างไร?

Homebrew:

brew install soniqo/tap/speech

คำสั่งนี้ติดตั้งทั้ง CLI speech และเซิร์ฟเวอร์ HTTP/WebSocket speech-server ลงใน PATH ของคุณ

Swift Package Manager:

.package(url: "https://github.com/soniqo/speech-swift", branch: "main")

ดูคู่มือเริ่มต้นสำหรับคำแนะนำฉบับเต็ม

มีโมเดลเสียงพูดอะไรบ้าง?

การถอดเสียงเป็นข้อความ: Qwen3-ASR (52 ภาษา, MLX) และ Parakeet TDT (25 ภาษา, CoreML)

การสังเคราะห์เสียงพูด: Qwen3-TTS (streaming, 10 ภาษา), CosyVoice3 (โคลนเสียง, 9 ภาษา) และ Kokoro-82M (พร้อมใช้บน iOS, 50 เสียง, 10 ภาษา)

เสียงพูดเป็นเสียงพูด: PersonaPlex 7B (บทสนทนา full-duplex, 18 พรีเซ็ตเสียง)

การวิเคราะห์เสียง: Silero + Pyannote VAD, การแยกผู้พูด (Pyannote + Sortformer), เอ็มเบดดิงผู้พูด WeSpeaker และการลดเสียงรบกวน DeepFilterNet3

LLM: Qwen3.5-0.8B Chat (บนอุปกรณ์, INT4 MLX + INT8 CoreML, สตรีมโทเค็น)

Soniqo ทำงานบน Android หรือไม่?

ทำงานได้ SDK speech-android มี API Kotlin พร้อมการเร่งความเร็วฮาร์ดแวร์ด้วย ONNX Runtime และ NNAPI รองรับ arm64-v8a บน Android 8+ (API 26) โมเดลดาวน์โหลดอัตโนมัติจาก HuggingFace ในการใช้งานครั้งแรก (~1.2 GB) ดูเริ่มต้น — Androidสำหรับคำแนะนำการตั้งค่า

Soniqo ทำงานบน Linux หรือไม่?

ทำงานได้ โปรเจกต์ speech-core มี C API สำหรับ Linux แบบฝังตัวและยานยนต์ (Yocto, อุปกรณ์ edge) ที่ examples/linux ใช้ ONNX Runtime พร้อมการเร่งความเร็วด้วย QNN ที่เลือกได้สำหรับฮาร์ดแวร์ Qualcomm รองรับ ARM64 และ x86_64 ดูเริ่มต้น — Linuxสำหรับคำแนะนำการตั้งค่า

สามารถแบ่งใช้โมเดลข้ามแพลตฟอร์มได้หรือไม่?

โมเดลหลัก (Parakeet, Kokoro, Silero, DeepFilter) ใช้รูปแบบ ONNXทั้งบน Android และ Linux Apple ใช้รูปแบบ CoreML/MLX น้ำหนักพื้นฐานเหมือนกัน ต่างกันที่รูปแบบการส่งออกที่ปรับให้เหมาะสมกับการเร่งความเร็วฮาร์ดแวร์ของแต่ละแพลตฟอร์ม