Speech Studio

تطبيق Mac مفتوح المصدر للاستنساخ الصوتي المحلي وتوليد حوار متعدد المتحدثين. اسحب عينة صوتية، استنسخها، اكتب مشهداً، وركّب — كل ذلك على حاسوبك المحمول. بدون مفاتيح API، بدون سحابة، بدون تسعير لكل حرف.

github.com/soniqo/speech-studio Apache 2.0 تثبيت

اختبار أعمى لمدة 30 ثانية: صوت حقيقي، نفس الصوت مستنسخ محلياً بواسطة Speech Studio على MacBook، ونفس الصوت مستنسخ بواسطة ElevenLabs في السحابة. هل تستطيع التمييز بينها؟

ماذا يفعل

استنساخ الصوت من مرجع قصير — اسحب بضع ثوانٍ من الكلام واستنسخ الصوت محلياً.
توليد حوار متعدد المتحدثين — اكتب مشهداً بعدة متحدثين وقم بتركيبهم جميعاً في تمريرة واحدة.
يعمل بالكامل على جهاز Mac — VoxCPM2 عبر MLX، وDeepFilterNet3 لتقليل الضوضاء، دون الحاجة إلى شبكة.
مفتوح المصدر بموجب Apache 2.0 — fork، تضمين، بناء فوقه.

المتطلبات

macOS 15+ (Apple Silicon)، Windows 10+ (x64)، أو Linux (x64)
Apple Silicon على نظام Mac؛ أي معالج حديث 64-بت على Windows/Linux
ذاكرة عشوائية لا تقل عن 8 GB (يُنصح بـ 16 GB)
نحو 3–5 GB من القرص لنماذج الكلام (يتم تنزيلها عند أول تشغيل)

التثبيت

نزّل النسخة المناسبة لمنصّتك من GitHub Releases — macOS .dmg، أو Windows .msi/.exe، أو Linux .deb/.AppImage — ثم شغّلها:

↓ تنزيل الأحدث كل الإصدارات

هذه النسخ غير موقَّعة: على macOS افتحها عبر النقر بالزر الأيمن → افتح (أو إعدادات النظام → الخصوصية والأمن → افتح على أي حال)؛ على Windows اختر مزيد من المعلومات → التشغيل على أي حال في SmartScreen. يُنزّل أول تشغيل نموذج الكلام VoxCPM2 (نحو 2.75 GB على macOS، ونحو 4.6 GB على Windows/Linux) ويخزّنه مؤقتاً؛ التشغيلات اللاحقة تستخدم الذاكرة المؤقتة.

تفضّل سطر الأوامر؟

نفس خط أنابيب الاستنساخ متوفر في CLI الخاص بـ speech: brew install soniqo/tap/speech، ثم speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — مفيد للسكربتات أو التحضير دفعة. اطّلع على دليل استنساخ الصوت للتدفق الكامل.

الحالة

Speech Studio في معاينة نشطة (v0.0.4)، مع مثبِّتات لأنظمة macOS, Windows, and Linux — يستنسخ macOS عبر MLX، ويستنسخ Windows وLinux عبر محرك LiteRT VoxCPM2 الموجود في speech-core. يُتابع المستودع github.com/soniqo/speech-studio تطبيق الواجهة؛ اضغط star/watch لتلقي إشعارات الإصدارات.

Runner Agent

ينشئ Speech Studio الأصوات ويستنسخها؛ ويستخدم Runner مكدس الصوت المحلي نفسه لربط الميكروفون وVAD وتحويل الكلام إلى نص ونموذج لغة على الجهاز وSupertonic TTS في رفيق صوتي مباشر.

فتح صفحة Runner تنزيل Runner DMG

على ماذا يعتمد

Speech Studio هو واجهة رسومية رقيقة فوق speech-swift، مكتبة Swift مفتوحة المصدر التي تشحن كل النماذج المستخدمة في العرض التوضيحي:

VoxCPM2 — نموذج استنساخ الصوت (zero-shot، مرجع قصير)
DeepFilterNet3 — يزيل الضوضاء من المرجع والمخرج المستنسخ
Qwen3-ASR — يحاذي الصوت مع النص (يُستخدم في خط أنابيب بناء الاختبار الأعمى في العرض)
Forced Alignment — طوابع زمنية على مستوى الكلمة للتحرير
استنساخ الصوت دليل — نظرة عامة شاملة على خط الأنابيب

خارطة الطريق

اليوم: macOS, Windows, and Linux.
التالي: إصدارات موقَّعة وموثَّقة (دون مطالبات Gatekeeper/SmartScreen).
بعد ذلك: واجهة تحرير أعمق، ودعم إضافات لنماذج استنساخ قابلة للاستبدال.

الملاحظات

افتح issue على github.com/soniqo/speech-studio/issues — كل واحدة تُقرأ.