Speech Studio

แอป Mac โอเพนซอร์สสำหรับโคลนเสียงและสร้างบทสนทนาหลายผู้พูดในเครื่อง วางตัวอย่างเสียง โคลน เขียนซีน แล้วสังเคราะห์ — ทั้งหมดบนแล็ปท็อปของคุณ ไม่ต้องใช้ API key ไม่ต้องใช้คลาวด์ ไม่คิดค่าใช้จ่ายต่อตัวอักษร

การทดสอบแบบบลายด์ 30 วินาที: เสียงจริง เสียงเดียวกันที่ Speech Studio โคลนในเครื่องบน MacBook และเสียงเดียวกันที่ ElevenLabs โคลนบนคลาวด์ คุณบอกได้ไหมว่าอันไหนคืออันไหน?

ทำอะไรได้

ความต้องการของระบบ

ติดตั้ง

ดาวน์โหลด .dmg ล่าสุดจาก GitHub Releases เปิดไฟล์ ลาก Speech Studio ไปยัง /Applications แล้วเปิดใช้งาน:

เมื่อเปิดครั้งแรก macOS Gatekeeper จะแจ้งว่าไม่สามารถยืนยันนักพัฒนาได้ — เปิดผ่าน System Settings → Privacy & Security → Open anyway จนกว่าจะมีบิลด์ที่ผ่านการรับรอง การรันครั้งแรกยังดาวน์โหลด VoxCPM2 ขนาดประมาณ 2.75 GB จาก HuggingFace ไปที่ ~/.cache/huggingface/hub/ ครั้งต่อๆ ไปจะใช้แคชเดิม

ชอบ CLI มากกว่า?

ไปป์ไลน์โคลนเสียงเดียวกันมาพร้อมใน CLI ของ speech: brew install soniqo/tap/speech แล้ว speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — เหมาะสำหรับสคริปต์หรือพรีเรนเดอร์เป็นชุด ดูขั้นตอนเต็มได้ที่ คู่มือการโคลนเสียง

สถานะ

Speech Studio อยู่ในช่วง preview (v0.0.2) รีโป github.com/soniqo/speech-studio ติดตามแอป GUI star/watch เพื่อรับการแจ้งเตือนรุ่นที่ผ่านการรับรอง บิลด์ Linux และ Windows ตอนนี้คอมไพล์ผ่านเอ็นจิน LiteRT VoxCPM2 ใน speech-core รันไทม์บนอุปกรณ์เชื่อมต่อแล้วแต่ยังไม่ได้ตรวจสอบบนฮาร์ดแวร์จริง

สร้างบนอะไร

Speech Studio เป็น GUI บางๆ บน speech-swift ไลบรารี Swift โอเพนซอร์สที่จัดส่งทุกโมเดลที่ใช้ใน demo:

โรดแมป

ฟีดแบ็ก

เปิด issue ที่ github.com/soniqo/speech-studio/issues — ทุกรายการจะถูกอ่าน