Sıkça sorulan sorular

speech-swift iOS üzerinde çalışıyor mu?

Kokoro TTS, Qwen3.5-Chat, Silero VAD, Parakeet ASR, DeepFilterNet3 ve WeSpeaker, iOS 18+ üzerinde Neural Engine üstünde CoreML aracılığıyla çalışır. MLX tabanlı modeller (Qwen3-ASR, Qwen3-TTS, Qwen3.5-Chat MLX, PersonaPlex) Apple Silicon üzerinde macOS 15+ gerektirir.

İnternet bağlantısı gerektiriyor mu?

Yalnızca HuggingFace'ten ilk model indirme için gereklidir (otomatik, ~/Library/Caches/qwen3-speech/ içinde önbelleğe alınır). Sonrasında tüm çıkarım ağ erişimi olmadan tamamen çevrimdışı çalışır. Bulut API'ı yok, API anahtarı gerekmiyor.

speech-swift Whisper ile nasıl karşılaştırılır?

Qwen3-ASR-0.6B, M2 Max üzerinde RTF 0.06 elde eder — whisper.cpp üzerinden Whisper-large-v3'ten (RTF 0.10) %40 daha hızlıdır — ve 52 dilde benzer doğruluk sunar. speech-swift yerel bir Swift async/await API'ı sağlar, whisper.cpp ise bir C++ köprüsü gerektirir.

whisper.cpp, Apple SFSpeechRecognizer, AVSpeechSynthesizer ve bulut API'ları ile ASR ve TTS karşılaştırmaları için tam karşılaştırma tablolarına bakın.

Hangi Apple Silicon yongaları destekleniyor?

Tüm M serisi yongalar: M1, M2, M3, M4 ve bunların Pro/Max/Ultra varyantları. macOS 15+ (Sequoia) veya iOS 18+ gerektirir.

Neden macOS 15 / iOS 18 gerektiriyor?

Alt sınır MLState kaynaklıdır — Apple'ın macOS 15 ve iOS 18'de tanıtılan kalıcı ANE durum API'ı. CoreML işlem hatları (Qwen3-ASR, Qwen3-Chat, Qwen3-TTS), KV önbelleklerini her token adımında alıp götürmek yerine token adımları boyunca Neural Engine üzerinde yerleşik tutmak için MLState kullanır. Bu, önceki durumsuz yaklaşıma kıyasla token başına CoreML gecikmesini %30–50 azalttı.

Ticari bir uygulamada kullanabilir miyim?

Evet. speech-swift Apache 2.0 lisansı altında dağıtılır. Altta yatan model ağırlıklarının kendi lisansları vardır — ayrıntılar için her modelin HuggingFace sayfasını kontrol edin.

Ne kadar bellek ihtiyacı duyuyor?

~3 MB (Silero VAD) ile ~6.5 GB (PersonaPlex 7B) arasında. Tipik kullanım:

Aynı anda birden fazla model çalıştırabilir miyim?

Evet. Çakışmayı önlemek için Neural Engine üzerindeki CoreML modellerini GPU üzerindeki MLX modelleriyle birlikte kullanın — örneğin Silero VAD (CoreML) + Qwen3-ASR (MLX) + Qwen3-TTS (MLX).

REST API var mı?

Evet. speech-server ikilisi, /v1/realtime adresindeki OpenAI Realtime API uyumlu bir WebSocket dahil olmak üzere tüm modelleri HTTP REST ve WebSocket uç noktaları üzerinden sunar. Sunucu komutları için CLI Referansı'na bakın.

Nasıl kurarım?

Homebrew:

brew install soniqo/tap/speech

Bu, hem speech CLI'ını hem de speech-server HTTP/WebSocket sunucusunu PATH'inize kurar.

Swift Package Manager:

.package(url: "https://github.com/soniqo/speech-swift", branch: "main")

Tam talimatlar için Başla kılavuzuna bakın.

Hangi konuşma modelleri mevcut?

Konuşmadan metne: Qwen3-ASR (52 dil, MLX) ve Parakeet TDT (25 dil, CoreML).

Metinden konuşmaya: Qwen3-TTS (akış, 10 dil), CosyVoice3 (ses klonlama, 9 dil) ve Kokoro-82M (iOS'a hazır, 50 ses, 10 dil).

Konuşmadan konuşmaya: PersonaPlex 7B (tam çift yönlü diyalog, 18 ses ön ayarı).

Ses analizi: Silero + Pyannote VAD, konuşmacı ayrıştırması (Pyannote + Sortformer), WeSpeaker konuşmacı gömmeleri ve DeepFilterNet3 gürültü bastırma.

LLM: Qwen3.5-0.8B Chat (cihaz üstü, INT4 MLX + INT8 CoreML, akış halinde token).

Soniqo Android üzerinde çalışıyor mu?

Evet. speech-android SDK'sı, ONNX Runtime ve NNAPI donanım hızlandırması ile bir Kotlin API'ı sağlar. Android 8+ (API 26) üzerinde arm64-v8a'yı destekler. Modeller ilk kullanımda HuggingFace'ten otomatik olarak indirilir (~1.2 GB). Kurulum talimatları için Başla — Android'e bakın.

Soniqo Linux üzerinde çalışıyor mu?

Evet. speech-core projesi, examples/linux altında gömülü ve otomotiv Linux (Yocto, edge cihazlar) için bir C API içerir. Qualcomm donanımı için isteğe bağlı QNN hızlandırması ile ONNX Runtime kullanır. ARM64 ve x86_64 desteklenir. Kurulum talimatları için Başla — Linux'a bakın.

Modelleri platformlar arasında paylaşabilir miyim?

Çekirdek modeller (Parakeet, Kokoro, Silero, DeepFilter) hem Android'de hem Linux'ta ONNX formatını kullanır. Apple CoreML/MLX formatlarını kullanır. Altta yatan ağırlıklar aynı, her platformun donanım hızlandırması için optimize edilmiş dışa aktarım formatları farklıdır.