الكلام على الجهاز.
لمنتجات حقيقية.
تفريغ مع تحديد المتحدّثين، واستنساخ صوت بصفر-إطلاق، وتركيب كلام طويل المدى — يعمل على Apple Silicon وAndroid وLinux المضمّن. بدون واجهات سحابية، بدون تسعير بالدقيقة، وبدون خروج أي بيانات من الجهاز.
brew install soniqo/tap/speechimplementation("audio.soniqo:speech:0.0.5")الذكاء الصوتي المحلّي على MacBook
جولة من أربع دقائق في المكتبة مفتوحة المصدر: تفريغ زمن حقيقي مع Nemotron Streaming، كلام إلى كلام محلّي مع PersonaPlex، واستنساخ صوت بدقة 48 كيلوهرتز مع VoxCPM2 — كل العروض تعمل على الحاسوب المحمول.
شاهد على YouTubeثلاث مجموعات حالات استخدام على الجهاز.
كل مجموعة تغطّي عدة حالات فرعية مبنية من مكوّنات Soniqo. مرّر صوتك واحصل على محادثة أو نصوص أو صوت مُولَّد — محلياً وفي الزمن الحقيقي.
وكلاء صوتيون
ابنِ واجهات تعتمد على الصوت — من نموذج كلام إلى كلام ثنائي الاتجاه كامل إلى خطوط أنابيب تركيبية مُفعَّلة بكلمة استيقاظ، تعمل كلها محلياً.
تفريغ النصوص
حوِّل الصوت إلى نص منظَّم — بثّ زمن حقيقي للترجمة الفورية والإملاء، ودقة عالية بالدُفعات للأرشيف، مع تحديد كل متحدّث بالاسم.
توليد الكلام
ركِّب الكلام بأي صوت — استنسخ صوتاً في ثوانٍ، أو اقرأ كتباً صوتية لساعات، أو أنتج بودكاست متعدّد المتحدّثين، كل ذلك دون اتصال بالإنترنت.
أكثر من عشرين نموذجاً. حزمة واحدة.
خطوط الأنابيب المعروضة أعلاه مبنية من هذه النماذج. اختر مكوّناً لترى بنيته وواجهة سطر الأوامر وSwift API ونتائج الأداء. كلها تعمل على Apple Silicon، ومعظمها على Android وLinux أيضاً.
صوت إلى نص
نص إلى صوت
9 langs, zero-shot cloning, 4-bit → bf16
12 Hz codec LM, faster than real-time
48 kHz, 30 langs, voice design + cloning
50 voices, ~45 ms inference
90-min podcasts / audiobooks
9 langs, 5 baked voices, streaming
CosyVoice, Qwen3-TTS ICL, CAM++
