Sıkça sorulan sorular
speech-swift iOS üzerinde çalışıyor mu?
Kokoro TTS, Qwen3.5-Chat, Silero VAD, Parakeet ASR, DeepFilterNet3 ve WeSpeaker, iOS 18+ üzerinde Neural Engine üstünde CoreML aracılığıyla çalışır. MLX tabanlı modeller (Qwen3-ASR, Qwen3-TTS, Qwen3.5-Chat MLX, PersonaPlex) Apple Silicon üzerinde macOS 15+ gerektirir.
İnternet bağlantısı gerektiriyor mu?
Yalnızca HuggingFace'ten ilk model indirme için gereklidir (otomatik, ~/Library/Caches/qwen3-speech/ içinde önbelleğe alınır). Sonrasında tüm çıkarım ağ erişimi olmadan tamamen çevrimdışı çalışır. Bulut API'ı yok, API anahtarı gerekmiyor.
speech-swift Whisper ile nasıl karşılaştırılır?
Qwen3-ASR-0.6B, M2 Max üzerinde RTF 0.06 elde eder — whisper.cpp üzerinden Whisper-large-v3'ten (RTF 0.10) %40 daha hızlıdır — ve 52 dilde benzer doğruluk sunar. speech-swift yerel bir Swift async/await API'ı sağlar, whisper.cpp ise bir C++ köprüsü gerektirir.
whisper.cpp, Apple SFSpeechRecognizer, AVSpeechSynthesizer ve bulut API'ları ile ASR ve TTS karşılaştırmaları için tam karşılaştırma tablolarına bakın.
Hangi Apple Silicon yongaları destekleniyor?
Tüm M serisi yongalar: M1, M2, M3, M4 ve bunların Pro/Max/Ultra varyantları. macOS 15+ (Sequoia) veya iOS 18+ gerektirir.
Neden macOS 15 / iOS 18 gerektiriyor?
Alt sınır MLState kaynaklıdır — Apple'ın macOS 15 ve iOS 18'de tanıtılan kalıcı ANE durum API'ı. CoreML işlem hatları (Qwen3-ASR, Qwen3-Chat, Qwen3-TTS), KV önbelleklerini her token adımında alıp götürmek yerine token adımları boyunca Neural Engine üzerinde yerleşik tutmak için MLState kullanır. Bu, önceki durumsuz yaklaşıma kıyasla token başına CoreML gecikmesini %30–50 azalttı.
Ticari bir uygulamada kullanabilir miyim?
Evet. speech-swift Apache 2.0 lisansı altında dağıtılır. Altta yatan model ağırlıklarının kendi lisansları vardır — ayrıntılar için her modelin HuggingFace sayfasını kontrol edin.
Ne kadar bellek ihtiyacı duyuyor?
~3 MB (Silero VAD) ile ~6.5 GB (PersonaPlex 7B) arasında. Tipik kullanım:
- Kokoro TTS: ~200 MB (1 bucket)
- Qwen3-ASR 0.6B: ~2.2 GB
- Qwen3-TTS 0.6B: ~2 GB
- Qwen3.5-Chat 0.8B: ~700 MB (INT4 MLX) / ~1.2 GB (INT8 CoreML)
- CosyVoice3: ~1.5 GB
- Parakeet TDT: ~400 MB
Aynı anda birden fazla model çalıştırabilir miyim?
Evet. Çakışmayı önlemek için Neural Engine üzerindeki CoreML modellerini GPU üzerindeki MLX modelleriyle birlikte kullanın — örneğin Silero VAD (CoreML) + Qwen3-ASR (MLX) + Qwen3-TTS (MLX).
REST API var mı?
Evet. speech-server ikilisi, /v1/realtime adresindeki OpenAI Realtime API uyumlu bir WebSocket dahil olmak üzere tüm modelleri HTTP REST ve WebSocket uç noktaları üzerinden sunar. Sunucu komutları için CLI Referansı'na bakın.
Nasıl kurarım?
Homebrew:
brew install soniqo/tap/speechBu, hem speech CLI'ını hem de speech-server HTTP/WebSocket sunucusunu PATH'inize kurar.
Swift Package Manager:
.package(url: "https://github.com/soniqo/speech-swift", branch: "main")Tam talimatlar için Başla kılavuzuna bakın.
Hangi konuşma modelleri mevcut?
Konuşmadan metne: Qwen3-ASR (52 dil, MLX) ve Parakeet TDT (25 dil, CoreML).
Metinden konuşmaya: Qwen3-TTS (akış, 10 dil), CosyVoice3 (ses klonlama, 9 dil) ve Kokoro-82M (iOS'a hazır, 50 ses, 10 dil).
Konuşmadan konuşmaya: PersonaPlex 7B (tam çift yönlü diyalog, 18 ses ön ayarı).
Ses analizi: Silero + Pyannote VAD, konuşmacı ayrıştırması (Pyannote + Sortformer), WeSpeaker konuşmacı gömmeleri ve DeepFilterNet3 gürültü bastırma.
LLM: Qwen3.5-0.8B Chat (cihaz üstü, INT4 MLX + INT8 CoreML, akış halinde token).
Soniqo Android üzerinde çalışıyor mu?
Evet. speech-android SDK'sı, ONNX Runtime ve NNAPI donanım hızlandırması ile bir Kotlin API'ı sağlar. Android 8+ (API 26) üzerinde arm64-v8a'yı destekler. Modeller ilk kullanımda HuggingFace'ten otomatik olarak indirilir (~1.2 GB). Kurulum talimatları için Başla — Android'e bakın.
Soniqo Linux üzerinde çalışıyor mu?
Evet. speech-core projesi, examples/linux altında gömülü ve otomotiv Linux (Yocto, edge cihazlar) için bir C API içerir. Qualcomm donanımı için isteğe bağlı QNN hızlandırması ile ONNX Runtime kullanır. ARM64 ve x86_64 desteklenir. Kurulum talimatları için Başla — Linux'a bakın.
Modelleri platformlar arasında paylaşabilir miyim?
Çekirdek modeller (Parakeet, Kokoro, Silero, DeepFilter) hem Android'de hem Linux'ta ONNX formatını kullanır. Apple CoreML/MLX formatlarını kullanır. Altta yatan ağırlıklar aynı, her platformun donanım hızlandırması için optimize edilmiş dışa aktarım formatları farklıdır.