Câu hỏi thường gặp

speech-swift có chạy trên iOS không?

Kokoro TTS, Qwen3.5-Chat, Silero VAD, Parakeet ASR, DeepFilterNet3 và WeSpeaker đều chạy trên iOS 18+ thông qua CoreML trên Neural Engine. Các mô hình dựa trên MLX (Qwen3-ASR, Qwen3-TTS, Qwen3.5-Chat MLX, PersonaPlex) yêu cầu macOS 15+ trên Apple Silicon.

Có yêu cầu kết nối internet không?

Chỉ cần cho lần tải mô hình ban đầu từ HuggingFace (tự động, lưu cache tại ~/Library/Caches/qwen3-speech/). Sau đó, toàn bộ quá trình suy luận chạy hoàn toàn ngoại tuyến mà không cần truy cập mạng. Không có API đám mây, không cần khóa API.

speech-swift so sánh với Whisper như thế nào?

Qwen3-ASR-0.6B đạt RTF 0.06 trên M2 Max — nhanh hơn 40% so với Whisper-large-v3 qua whisper.cpp (RTF 0.10) — với độ chính xác tương đương trên 52 ngôn ngữ. speech-swift cung cấp API Swift async/await gốc, trong khi whisper.cpp cần một cầu nối C++.

Xem các bảng so sánh đầy đủ với các benchmark ASR và TTS so với whisper.cpp, Apple SFSpeechRecognizer, AVSpeechSynthesizer và các API đám mây.

Những chip Apple Silicon nào được hỗ trợ?

Tất cả các chip dòng M: M1, M2, M3, M4 và các biến thể Pro/Max/Ultra của chúng. Yêu cầu macOS 15+ (Sequoia) hoặc iOS 18+.

Tại sao lại yêu cầu macOS 15 / iOS 18?

Mức tối thiểu đến từ MLState — API trạng thái ANE bền vững của Apple, được giới thiệu trong macOS 15 và iOS 18. Các pipeline CoreML (Qwen3-ASR, Qwen3-Chat, Qwen3-TTS) dùng MLState để giữ cache KV thường trú trên Neural Engine giữa các bước token, thay vì chuyển vào/ra ở mỗi bước. Điều này giảm độ trễ CoreML mỗi token 30–50% so với cách tiếp cận stateless trước đây.

Tôi có thể dùng nó trong ứng dụng thương mại không?

Có. speech-swift được cấp phép theo Apache 2.0. Các trọng số mô hình bên dưới có giấy phép riêng — xem trang HuggingFace của từng mô hình để biết chi tiết.

Cần bao nhiêu bộ nhớ?

Từ ~3 MB (Silero VAD) đến ~6.5 GB (PersonaPlex 7B). Mức sử dụng điển hình:

Tôi có thể chạy nhiều mô hình đồng thời không?

Có. Dùng các mô hình CoreML trên Neural Engine cùng với các mô hình MLX trên GPU để tránh tranh chấp — ví dụ, Silero VAD (CoreML) + Qwen3-ASR (MLX) + Qwen3-TTS (MLX).

Có REST API không?

Có. Tệp nhị phân speech-server cung cấp tất cả các mô hình qua các endpoint HTTP REST và WebSocket, bao gồm một WebSocket tương thích OpenAI Realtime API tại /v1/realtime. Xem Tham khảo CLI để biết các lệnh máy chủ.

Làm thế nào để cài đặt?

Homebrew:

brew install soniqo/tap/speech

Lệnh này cài đặt cả CLI speech và máy chủ HTTP/WebSocket speech-server vào PATH của bạn.

Swift Package Manager:

.package(url: "https://github.com/soniqo/speech-swift", branch: "main")

Xem hướng dẫn Bắt đầu để biết hướng dẫn đầy đủ.

Có những mô hình giọng nói nào?

Giọng nói thành văn bản: Qwen3-ASR (52 ngôn ngữ, MLX) và Parakeet TDT (25 ngôn ngữ, CoreML).

Văn bản thành giọng nói: Qwen3-TTS (streaming, 10 ngôn ngữ), CosyVoice3 (sao chép giọng nói, 9 ngôn ngữ) và Kokoro-82M (sẵn sàng cho iOS, 50 giọng, 10 ngôn ngữ).

Giọng nói thành giọng nói: PersonaPlex 7B (đối thoại full-duplex, 18 preset giọng).

Phân tích âm thanh: VAD Silero + Pyannote, phân tách người nói (Pyannote + Sortformer), embedding người nói WeSpeaker và khử nhiễu DeepFilterNet3.

LLM: Qwen3.5-0.8B Chat (trên thiết bị, INT4 MLX + INT8 CoreML, token streaming).

Soniqo có chạy trên Android không?

Có. SDK speech-android cung cấp một API Kotlin với tăng tốc phần cứng ONNX Runtime và NNAPI. Hỗ trợ arm64-v8a trên Android 8+ (API 26). Các mô hình tự động tải về từ HuggingFace khi sử dụng lần đầu (~1.2 GB). Xem Bắt đầu — Android để biết hướng dẫn thiết lập.

Soniqo có chạy trên Linux không?

Có. Dự án speech-core bao gồm một C API cho Linux nhúng và ô-tô (Yocto, thiết bị edge) tại examples/linux. Dùng ONNX Runtime với tăng tốc QNN tùy chọn cho phần cứng Qualcomm. Hỗ trợ ARM64 và x86_64. Xem Bắt đầu — Linux để biết hướng dẫn thiết lập.

Tôi có thể chia sẻ mô hình giữa các nền tảng không?

Các mô hình lõi (Parakeet, Kokoro, Silero, DeepFilter) dùng định dạng ONNX trên cả Android và Linux. Apple dùng các định dạng CoreML/MLX. Cùng trọng số bên dưới, khác định dạng xuất được tối ưu cho tăng tốc phần cứng của từng nền tảng.