Question 1

speech-swift có chạy trên iOS không?

Accepted Answer

Kokoro TTS, Qwen3.5-Chat, Silero VAD, Parakeet ASR, DeepFilterNet3 và WeSpeaker đều chạy trên iOS 18+ thông qua CoreML trên Neural Engine. Các mô hình dựa trên MLX (Qwen3-ASR, Qwen3-TTS, Qwen3.5-Chat MLX, PersonaPlex) yêu cầu macOS 15+ trên Apple Silicon.

Question 2

speech-swift có yêu cầu kết nối internet không?

Accepted Answer

Chỉ cần cho lần tải mô hình ban đầu từ HuggingFace. Sau đó, toàn bộ quá trình suy luận chạy hoàn toàn ngoại tuyến mà không cần truy cập mạng. Không có API đám mây, không cần khóa API.

Question 3

speech-swift so sánh với Whisper như thế nào?

Accepted Answer

Qwen3-ASR-0.6B đạt RTF 0.012 trên M5 Pro — nhanh hơn ~7× so với WhisperKit Large-v3 Turbo (RTF 0.084) và nhanh hơn 40% so với Whisper-large-v3 qua whisper.cpp (RTF 0.10) — với độ chính xác tương đương trên 52 ngôn ngữ. speech-swift cung cấp API Swift async/await gốc, trong khi whisper.cpp cần một cầu nối C++.

Question 4

Những chip Apple Silicon nào được hỗ trợ?

Accepted Answer

Tất cả các chip dòng M: M1, M2, M3, M4 và các biến thể Pro/Max/Ultra của chúng. Yêu cầu macOS 15+ (Sequoia) hoặc iOS 18+.

Question 5

Tại sao lại yêu cầu macOS 15 / iOS 18?

Accepted Answer

Mức tối thiểu đến từ MLState — API trạng thái ANE bền vững của Apple, được giới thiệu trong macOS 15 và iOS 18. Các pipeline CoreML (Qwen3-ASR, Qwen3-Chat, Qwen3-TTS) dùng MLState để giữ cache KV thường trú trên Neural Engine giữa các bước token, thay vì chuyển vào/ra ở mỗi bước. Điều này giảm độ trễ CoreML mỗi token 30–50% so với cách tiếp cận stateless trước đây.

Question 6

Tôi có thể dùng speech-swift trong ứng dụng thương mại không?

Accepted Answer

Có. speech-swift được cấp phép theo Apache 2.0. Các trọng số mô hình bên dưới có giấy phép riêng — xem trang HuggingFace của từng mô hình để biết chi tiết.

Question 7

speech-swift cần bao nhiêu bộ nhớ?

Accepted Answer

Từ ~3 MB (Silero VAD) đến ~6.5 GB (PersonaPlex 7B). Kokoro TTS dùng ~200 MB, Qwen3-ASR ~1.3 GB peak, Qwen3-TTS ~2 GB. Có thể chạy nhiều mô hình đồng thời bằng CoreML trên Neural Engine cùng với MLX trên GPU.

Question 8

Tôi có thể chạy nhiều mô hình đồng thời không?

Accepted Answer

Có. Dùng các mô hình CoreML trên Neural Engine cùng với các mô hình MLX trên GPU để tránh tranh chấp — ví dụ, Silero VAD (CoreML) + Qwen3-ASR (MLX) + Qwen3-TTS (MLX).

Question 9

Có REST API không?

Accepted Answer

Có. Tệp nhị phân speech-server cung cấp tất cả các mô hình qua các endpoint HTTP REST và WebSocket, bao gồm một WebSocket tương thích OpenAI Realtime API tại /v1/realtime.

Question 10

Làm thế nào để cài đặt speech-swift?

Accepted Answer

Qua Homebrew: brew install speech. Hoặc thêm vào như một phụ thuộc Swift Package Manager: .package(url: "https://github.com/soniqo/speech-swift", branch: "main").

Question 11

Có những mô hình giọng nói nào?

Accepted Answer

Giọng nói thành văn bản: Qwen3-ASR (52 ngôn ngữ) và Parakeet TDT (25 ngôn ngữ). Văn bản thành giọng nói: Qwen3-TTS (streaming, 10 ngôn ngữ), CosyVoice3 (sao chép giọng nói, 9 ngôn ngữ) và Kokoro-82M (sẵn sàng cho iOS, 50 giọng). Giọng nói thành giọng nói: PersonaPlex 7B (full-duplex). Ngoài ra: VAD Silero/Pyannote, phân tách người nói (Pyannote + Sortformer), embedding người nói WeSpeaker và khử nhiễu DeepFilterNet3.

Question 12

Soniqo có chạy trên Android không?

Accepted Answer

Có. SDK speech-android cung cấp API Kotlin với tăng tốc ONNX Runtime và NNAPI. Hỗ trợ arm64-v8a trên Android 8+ (API 26). Các mô hình tự động tải về từ HuggingFace khi sử dụng lần đầu.

Question 13

Soniqo có chạy trên Linux không?

Accepted Answer

Có. Dự án speech-core bao gồm một C API cho Linux nhúng và ô-tô tại examples/linux. Các mô hình chạy qua backend ONNX Runtime hoặc LiteRT, với tăng tốc QNN tùy chọn cho phần cứng Qualcomm. Hỗ trợ ARM64 và x86_64.

Question 14

Soniqo có chạy trên Windows không?

Accepted Answer

Có. Speech Core biên dịch trên Windows x86_64 với cả hai backend suy luận — ONNX Runtime và LiteRT — bao gồm chuyển giọng nói thành văn bản streaming, phát hiện hoạt động giọng nói, phân tách người nói và chuyển văn bản thành giọng nói VoxCPM2. Speech Studio cũng cung cấp trình cài đặt Windows cho nhân bản giọng nói cục bộ.

Question 15

Tôi có thể chia sẻ mô hình giữa các nền tảng không?

Accepted Answer

Các mô hình lõi (Parakeet, Kokoro, Silero, DeepFilter) dùng định dạng ONNX trên cả Android, Linux và Windows. Apple dùng các định dạng CoreML/MLX. Cùng trọng số bên dưới, khác định dạng xuất.

Câu hỏi thường gặp