คำถามที่พบบ่อย
speech-swift ทำงานบน iOS หรือไม่?
Kokoro TTS, Qwen3.5-Chat, Silero VAD, Parakeet ASR, DeepFilterNet3 และ WeSpeaker ทั้งหมดทำงานบน iOS 18+ ผ่าน CoreML บน Neural Engine โมเดลที่ใช้ MLX (Qwen3-ASR, Qwen3-TTS, Qwen3.5-Chat MLX, PersonaPlex) ต้องใช้ macOS 15+ บน Apple Silicon
ต้องใช้การเชื่อมต่ออินเทอร์เน็ตหรือไม่?
เฉพาะการดาวน์โหลดโมเดลครั้งแรกจาก HuggingFace เท่านั้น (อัตโนมัติ แคชไว้ที่ ~/Library/Caches/qwen3-speech/) หลังจากนั้นการอนุมานทั้งหมดทำงานแบบออฟไลน์เต็มรูปแบบโดยไม่ต้องเข้าถึงเครือข่าย ไม่ต้องใช้ API คลาวด์ ไม่ต้องใช้ API key
speech-swift เทียบกับ Whisper อย่างไร?
Qwen3-ASR-0.6B ทำได้ RTF 0.06 บน M2 Max — เร็วกว่า Whisper-large-v3 ผ่าน whisper.cpp (RTF 0.10) ถึง 40% — โดยมีความแม่นยำเทียบเท่ากันใน 52 ภาษา speech-swift มี API Swift async/await แบบเนทีฟ ในขณะที่ whisper.cpp ต้องใช้สะพานเชื่อม C++
ดูตารางเปรียบเทียบเต็มสำหรับเบนช์มาร์ก ASR และ TTS เทียบกับ whisper.cpp, Apple SFSpeechRecognizer, AVSpeechSynthesizer และ API คลาวด์
ชิป Apple Silicon ใดบ้างที่รองรับ?
ชิปตระกูล M ทั้งหมด: M1, M2, M3, M4 และเวอร์ชัน Pro/Max/Ultra ของชิปเหล่านั้น ต้องใช้ macOS 15+ (Sequoia) หรือ iOS 18+
ทำไมต้องใช้ macOS 15 / iOS 18?
ข้อกำหนดขั้นต่ำมาจาก MLState — API สถานะ ANE แบบคงทนของ Apple ที่เปิดตัวใน macOS 15 และ iOS 18 ไปป์ไลน์ CoreML (Qwen3-ASR, Qwen3-Chat, Qwen3-TTS) ใช้ MLState เพื่อเก็บแคช KV ไว้บน Neural Engine ตลอดทุกขั้นตอนของโทเค็น แทนที่จะย้ายเข้าออกในทุกขั้นตอน วิธีนี้ลดเวลาแฝง CoreML ต่อโทเค็นลง 30–50% เมื่อเทียบกับวิธีไร้สถานะแบบก่อนหน้านี้
สามารถใช้ในแอปเชิงพาณิชย์ได้หรือไม่?
ได้ speech-swift ใช้ใบอนุญาต Apache 2.0 น้ำหนักโมเดลพื้นฐานมีใบอนุญาตของตัวเอง — ตรวจสอบหน้า HuggingFaceของแต่ละโมเดลเพื่อดูรายละเอียด
ใช้หน่วยความจำเท่าไหร่?
ตั้งแต่ ~3 MB (Silero VAD) ถึง ~6.5 GB (PersonaPlex 7B) การใช้งานทั่วไป:
- Kokoro TTS: ~200 MB (1 bucket)
- Qwen3-ASR 0.6B: ~2.2 GB
- Qwen3-TTS 0.6B: ~2 GB
- Qwen3.5-Chat 0.8B: ~700 MB (INT4 MLX) / ~1.2 GB (INT8 CoreML)
- CosyVoice3: ~1.5 GB
- Parakeet TDT: ~400 MB
สามารถรันหลายโมเดลพร้อมกันได้หรือไม่?
ได้ ใช้โมเดล CoreML บน Neural Engine ควบคู่กับโมเดล MLX บน GPU เพื่อหลีกเลี่ยงการแย่งทรัพยากร — เช่น Silero VAD (CoreML) + Qwen3-ASR (MLX) + Qwen3-TTS (MLX)
มี REST API หรือไม่?
มี ไบนารี speech-server เปิดให้ใช้งานโมเดลทั้งหมดผ่านเอนด์พอยต์ HTTP REST และ WebSocket รวมถึง WebSocket ที่เข้ากันได้กับ OpenAI Realtime API ที่ /v1/realtime ดูอ้างอิง CLIสำหรับคำสั่งเซิร์ฟเวอร์
ติดตั้งอย่างไร?
Homebrew:
brew install soniqo/tap/speechคำสั่งนี้ติดตั้งทั้ง CLI speech และเซิร์ฟเวอร์ HTTP/WebSocket speech-server ลงใน PATH ของคุณ
Swift Package Manager:
.package(url: "https://github.com/soniqo/speech-swift", branch: "main")ดูคู่มือเริ่มต้นสำหรับคำแนะนำฉบับเต็ม
มีโมเดลเสียงพูดอะไรบ้าง?
การถอดเสียงเป็นข้อความ: Qwen3-ASR (52 ภาษา, MLX) และ Parakeet TDT (25 ภาษา, CoreML)
การสังเคราะห์เสียงพูด: Qwen3-TTS (streaming, 10 ภาษา), CosyVoice3 (โคลนเสียง, 9 ภาษา) และ Kokoro-82M (พร้อมใช้บน iOS, 50 เสียง, 10 ภาษา)
เสียงพูดเป็นเสียงพูด: PersonaPlex 7B (บทสนทนา full-duplex, 18 พรีเซ็ตเสียง)
การวิเคราะห์เสียง: Silero + Pyannote VAD, การแยกผู้พูด (Pyannote + Sortformer), เอ็มเบดดิงผู้พูด WeSpeaker และการลดเสียงรบกวน DeepFilterNet3
LLM: Qwen3.5-0.8B Chat (บนอุปกรณ์, INT4 MLX + INT8 CoreML, สตรีมโทเค็น)
Soniqo ทำงานบน Android หรือไม่?
ทำงานได้ SDK speech-android มี API Kotlin พร้อมการเร่งความเร็วฮาร์ดแวร์ด้วย ONNX Runtime และ NNAPI รองรับ arm64-v8a บน Android 8+ (API 26) โมเดลดาวน์โหลดอัตโนมัติจาก HuggingFace ในการใช้งานครั้งแรก (~1.2 GB) ดูเริ่มต้น — Androidสำหรับคำแนะนำการตั้งค่า
Soniqo ทำงานบน Linux หรือไม่?
ทำงานได้ โปรเจกต์ speech-core มี C API สำหรับ Linux แบบฝังตัวและยานยนต์ (Yocto, อุปกรณ์ edge) ที่ examples/linux ใช้ ONNX Runtime พร้อมการเร่งความเร็วด้วย QNN ที่เลือกได้สำหรับฮาร์ดแวร์ Qualcomm รองรับ ARM64 และ x86_64 ดูเริ่มต้น — Linuxสำหรับคำแนะนำการตั้งค่า
สามารถแบ่งใช้โมเดลข้ามแพลตฟอร์มได้หรือไม่?
โมเดลหลัก (Parakeet, Kokoro, Silero, DeepFilter) ใช้รูปแบบ ONNXทั้งบน Android และ Linux Apple ใช้รูปแบบ CoreML/MLX น้ำหนักพื้นฐานเหมือนกัน ต่างกันที่รูปแบบการส่งออกที่ปรับให้เหมาะสมกับการเร่งความเร็วฮาร์ดแวร์ของแต่ละแพลตฟอร์ม