Question 1

speech-swift ทำงานบน iOS หรือไม่?

Accepted Answer

Kokoro TTS, Qwen3.5-Chat, Silero VAD, Parakeet ASR, DeepFilterNet3 และ WeSpeaker ทั้งหมดทำงานบน iOS 18+ ผ่าน CoreML บน Neural Engine โมเดลที่ใช้ MLX (Qwen3-ASR, Qwen3-TTS, Qwen3.5-Chat MLX, PersonaPlex) ต้องใช้ macOS 15+ บน Apple Silicon

Question 2

speech-swift ต้องใช้การเชื่อมต่ออินเทอร์เน็ตหรือไม่?

Accepted Answer

เฉพาะการดาวน์โหลดโมเดลครั้งแรกจาก HuggingFace เท่านั้น หลังจากนั้นการอนุมานทั้งหมดทำงานแบบออฟไลน์เต็มรูปแบบโดยไม่ต้องเข้าถึงเครือข่าย ไม่ต้องใช้ API คลาวด์ ไม่ต้องใช้ API key

Question 3

speech-swift เทียบกับ Whisper อย่างไร?

Accepted Answer

Qwen3-ASR-0.6B ทำได้ RTF 0.012 บน M5 Pro — เร็วกว่า WhisperKit Large-v3 Turbo (RTF 0.084) ประมาณ 7× และเร็วกว่า Whisper-large-v3 ผ่าน whisper.cpp (RTF 0.10) ถึง 40% — โดยมีความแม่นยำเทียบเท่ากันใน 52 ภาษา speech-swift มี API Swift async/await แบบเนทีฟ ในขณะที่ whisper.cpp ต้องใช้สะพานเชื่อม C++

Question 4

ชิป Apple Silicon ใดบ้างที่รองรับ?

Accepted Answer

ชิปตระกูล M ทั้งหมด: M1, M2, M3, M4 และเวอร์ชัน Pro/Max/Ultra ของชิปเหล่านั้น ต้องใช้ macOS 15+ (Sequoia) หรือ iOS 18+

Question 5

ทำไมต้องใช้ macOS 15 / iOS 18?

Accepted Answer

ข้อกำหนดขั้นต่ำมาจาก MLState — API สถานะ ANE แบบคงทนของ Apple ที่เปิดตัวใน macOS 15 และ iOS 18 ไปป์ไลน์ CoreML (Qwen3-ASR, Qwen3-Chat, Qwen3-TTS) ใช้ MLState เพื่อเก็บแคช KV ไว้บน Neural Engine ตลอดทุกขั้นตอนของโทเค็น แทนที่จะย้ายเข้าออกในทุกขั้นตอน วิธีนี้ลดเวลาแฝง CoreML ต่อโทเค็นลง 30–50% เมื่อเทียบกับวิธีไร้สถานะแบบก่อนหน้านี้

Question 6

สามารถใช้ speech-swift ในแอปเชิงพาณิชย์ได้หรือไม่?

Accepted Answer

ได้ speech-swift ใช้ใบอนุญาต Apache 2.0 น้ำหนักโมเดลพื้นฐานมีใบอนุญาตของตัวเอง — ตรวจสอบหน้า HuggingFace ของแต่ละโมเดลเพื่อดูรายละเอียด

Question 7

speech-swift ใช้หน่วยความจำเท่าไหร่?

Accepted Answer

ตั้งแต่ ~3 MB (Silero VAD) ถึง ~6.5 GB (PersonaPlex 7B) Kokoro TTS ใช้ ~200 MB, Qwen3-ASR ~1.3 GB peak, Qwen3-TTS ~2 GB สามารถรันหลายโมเดลพร้อมกันได้โดยใช้ CoreML บน Neural Engine ควบคู่กับ MLX บน GPU

Question 8

สามารถรันหลายโมเดลพร้อมกันได้หรือไม่?

Accepted Answer

ได้ ใช้โมเดล CoreML บน Neural Engine ควบคู่กับโมเดล MLX บน GPU เพื่อหลีกเลี่ยงการแย่งทรัพยากร — เช่น Silero VAD (CoreML) + Qwen3-ASR (MLX) + Qwen3-TTS (MLX)

Question 9

มี REST API หรือไม่?

Accepted Answer

มี ไบนารี speech-server เปิดให้ใช้งานโมเดลทั้งหมดผ่านเอนด์พอยต์ HTTP REST และ WebSocket รวมถึง WebSocket ที่เข้ากันได้กับ OpenAI Realtime API ที่ /v1/realtime

Question 10

ติดตั้ง speech-swift อย่างไร?

Accepted Answer

ผ่าน Homebrew: brew install speech หรือเพิ่มเป็น dependency ของ Swift Package Manager: .package(url: "https://github.com/soniqo/speech-swift", branch: "main")

Question 11

มีโมเดลเสียงพูดอะไรบ้าง?

Accepted Answer

การถอดเสียงเป็นข้อความ: Qwen3-ASR (52 ภาษา) และ Parakeet TDT (25 ภาษา) การสังเคราะห์เสียงพูด: Qwen3-TTS (streaming, 10 ภาษา), CosyVoice3 (โคลนเสียง, 9 ภาษา) และ Kokoro-82M (พร้อมใช้บน iOS, 50 เสียง) เสียงพูดเป็นเสียงพูด: PersonaPlex 7B (full-duplex) เพิ่มเติม: Silero/Pyannote VAD, การแยกผู้พูด (Pyannote + Sortformer), เอ็มเบดดิงผู้พูด WeSpeaker และการลดเสียงรบกวน DeepFilterNet3

Question 12

Soniqo ทำงานบน Android หรือไม่?

Accepted Answer

ทำงานได้ SDK speech-android มี API Kotlin พร้อมการเร่งความเร็วด้วย ONNX Runtime และ NNAPI รองรับ arm64-v8a บน Android 8+ (API 26) โมเดลดาวน์โหลดอัตโนมัติจาก HuggingFace ในการใช้งานครั้งแรก

Question 13

Soniqo ทำงานบน Linux หรือไม่?

Accepted Answer

ทำงานได้ โปรเจกต์ speech-core มี C API สำหรับ Linux แบบฝังตัวและยานยนต์ที่ examples/linux โมเดลทำงานผ่านแบ็กเอนด์ ONNX Runtime หรือ LiteRT พร้อมการเร่งความเร็วด้วย QNN ที่เลือกได้สำหรับฮาร์ดแวร์ Qualcomm รองรับ ARM64 และ x86_64

Question 14

Soniqo ทำงานบน Windows หรือไม่?

Accepted Answer

ทำงานได้ Speech Core บิลด์บน Windows x86_64 ด้วยแบ็กเอนด์การอนุมานทั้งสองตัว — ONNX Runtime และ LiteRT — ครอบคลุมการถอดเสียงเป็นข้อความแบบสตรีมมิ่ง การตรวจจับกิจกรรมเสียงพูด การแยกผู้พูด และการสังเคราะห์เสียงพูด VoxCPM2 นอกจากนี้ Speech Studio ยังมีตัวติดตั้ง Windows สำหรับการโคลนเสียงในเครื่องด้วย

Question 15

สามารถแบ่งใช้โมเดลข้ามแพลตฟอร์มได้หรือไม่?

Accepted Answer

โมเดลหลัก (Parakeet, Kokoro, Silero, DeepFilter) ใช้รูปแบบ ONNX ทั้งบน Android, Linux และ Windows Apple ใช้รูปแบบ CoreML/MLX น้ำหนักพื้นฐานเหมือนกัน ต่างกันที่รูปแบบการส่งออก

คำถามที่พบบ่อย