Speech Studio
تطبيق Mac مفتوح المصدر للاستنساخ الصوتي المحلي وتوليد حوار متعدد المتحدثين. اسحب عينة صوتية، استنسخها، اكتب مشهداً، وركّب — كل ذلك على حاسوبك المحمول. بدون مفاتيح API، بدون سحابة، بدون تسعير لكل حرف.
اختبار أعمى لمدة 30 ثانية: صوت حقيقي، نفس الصوت مستنسخ محلياً بواسطة Speech Studio على MacBook، ونفس الصوت مستنسخ بواسطة ElevenLabs في السحابة. هل تستطيع التمييز بينها؟
ماذا يفعل
- استنساخ الصوت من مرجع قصير — اسحب بضع ثوانٍ من الكلام واستنسخ الصوت محلياً.
- توليد حوار متعدد المتحدثين — اكتب مشهداً بعدة متحدثين وقم بتركيبهم جميعاً في تمريرة واحدة.
- يعمل بالكامل على جهاز Mac — VoxCPM2 عبر MLX، وDeepFilterNet3 لتقليل الضوضاء، دون الحاجة إلى شبكة.
- مفتوح المصدر بموجب Apache 2.0 — fork، تضمين، بناء فوقه.
المتطلبات
- macOS 15+ (Sequoia أو أحدث)
- Apple Silicon (سلاسل M1، M2، M3، M4)
- ذاكرة عشوائية لا تقل عن 8 GB (يُنصح بـ 16 GB)
- نحو 3 GB من القرص لنماذج الاستنساخ وكبح الضوضاء (يتم تنزيلها من HuggingFace عند أول استخدام)
التثبيت
نزّل أحدث .dmg من GitHub Releases، افتحه، اسحب Speech Studio إلى /Applications، ثم شغّله:
في أول تشغيل، سيُحذّر Gatekeeper من أن المطوّر لا يمكن التحقق منه — افتحه عبر إعدادات النظام → الخصوصية والأمن → افتح على أي حال حتى تتوفر إصدارات موثَّقة. كما يُنزّل أول تشغيل نحو 2.75 GB من أوزان VoxCPM2 من HuggingFace إلى ~/.cache/huggingface/hub/؛ التشغيلات اللاحقة تستخدم الذاكرة المؤقتة.
نفس خط أنابيب الاستنساخ متوفر في CLI الخاص بـ speech: brew install soniqo/tap/speech، ثم speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — مفيد للسكربتات أو التحضير دفعة. اطّلع على دليل استنساخ الصوت للتدفق الكامل.
Speech Studio في معاينة نشطة (v0.0.2). يُتابع المستودع github.com/soniqo/speech-studio تطبيق الواجهة؛ اضغط star/watch لتلقي إشعارات الإصدارات الموثَّقة. تُجمَّع إصدارات Linux وWindows اليوم عبر محرك LiteRT VoxCPM2 الموجود في speech-core؛ زمن التشغيل على الجهاز مُربوط لكنه لم يُتحقق منه على العتاد بعد.
على ماذا يعتمد
Speech Studio هو واجهة رسومية رقيقة فوق speech-swift، مكتبة Swift مفتوحة المصدر التي تشحن كل النماذج المستخدمة في العرض التوضيحي:
- VoxCPM2 — نموذج استنساخ الصوت (zero-shot، مرجع قصير)
- DeepFilterNet3 — يزيل الضوضاء من المرجع والمخرج المستنسخ
- Qwen3-ASR — يحاذي الصوت مع النص (يُستخدم في خط أنابيب بناء الاختبار الأعمى في العرض)
- Forced Alignment — طوابع زمنية على مستوى الكلمة للتحرير
- استنساخ الصوت دليل — نظرة عامة شاملة على خط الأنابيب
خارطة الطريق
- اليوم: Mac (Apple Silicon).
- التالي: Linux (CUDA + CPU)، Windows.
- بعد ذلك: واجهة تحرير أعمق، ودعم إضافات لنماذج استنساخ قابلة للاستبدال.
الملاحظات
افتح issue على github.com/soniqo/speech-studio/issues — كل واحدة تُقرأ.