Speech Studio
แอป Mac โอเพนซอร์สสำหรับโคลนเสียงและสร้างบทสนทนาหลายผู้พูดในเครื่อง วางตัวอย่างเสียง โคลน เขียนซีน แล้วสังเคราะห์ — ทั้งหมดบนแล็ปท็อปของคุณ ไม่ต้องใช้ API key ไม่ต้องใช้คลาวด์ ไม่คิดค่าใช้จ่ายต่อตัวอักษร
การทดสอบแบบบลายด์ 30 วินาที: เสียงจริง เสียงเดียวกันที่ Speech Studio โคลนในเครื่องบน MacBook และเสียงเดียวกันที่ ElevenLabs โคลนบนคลาวด์ คุณบอกได้ไหมว่าอันไหนคืออันไหน?
ทำอะไรได้
- โคลนเสียงจากตัวอย่างสั้นๆ — วางเสียงพูดไม่กี่วินาที โคลนเสียงนั้นในเครื่อง
- สร้างบทสนทนาหลายผู้พูด — เขียนซีนที่มีผู้พูดหลายคน สังเคราะห์ทั้งหมดในรอบเดียว
- ทำงานบน Mac ของคุณทั้งหมด — VoxCPM2 ผ่าน MLX, DeepFilterNet3 สำหรับลดสัญญาณรบกวน ไม่ต้องใช้เครือข่าย
- โอเพนซอร์สภายใต้ Apache 2.0 — fork, ฝัง, สร้างต่อยอด
ความต้องการของระบบ
- macOS 15+ (Sequoia หรือใหม่กว่า)
- Apple Silicon (ซีรีส์ M1, M2, M3, M4)
- RAM อย่างน้อย 8 GB (แนะนำ 16 GB)
- เนื้อที่ดิสก์ราว 3 GB สำหรับโมเดลโคลนเสียงและลดสัญญาณรบกวน (ดาวน์โหลดจาก HuggingFace เมื่อใช้ครั้งแรก)
ติดตั้ง
ดาวน์โหลด .dmg ล่าสุดจาก GitHub Releases เปิดไฟล์ ลาก Speech Studio ไปยัง /Applications แล้วเปิดใช้งาน:
เมื่อเปิดครั้งแรก macOS Gatekeeper จะแจ้งว่าไม่สามารถยืนยันนักพัฒนาได้ — เปิดผ่าน System Settings → Privacy & Security → Open anyway จนกว่าจะมีบิลด์ที่ผ่านการรับรอง การรันครั้งแรกยังดาวน์โหลด VoxCPM2 ขนาดประมาณ 2.75 GB จาก HuggingFace ไปที่ ~/.cache/huggingface/hub/ ครั้งต่อๆ ไปจะใช้แคชเดิม
ไปป์ไลน์โคลนเสียงเดียวกันมาพร้อมใน CLI ของ speech: brew install soniqo/tap/speech แล้ว speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — เหมาะสำหรับสคริปต์หรือพรีเรนเดอร์เป็นชุด ดูขั้นตอนเต็มได้ที่ คู่มือการโคลนเสียง
Speech Studio อยู่ในช่วง preview (v0.0.2) รีโป github.com/soniqo/speech-studio ติดตามแอป GUI star/watch เพื่อรับการแจ้งเตือนรุ่นที่ผ่านการรับรอง บิลด์ Linux และ Windows ตอนนี้คอมไพล์ผ่านเอ็นจิน LiteRT VoxCPM2 ใน speech-core รันไทม์บนอุปกรณ์เชื่อมต่อแล้วแต่ยังไม่ได้ตรวจสอบบนฮาร์ดแวร์จริง
สร้างบนอะไร
Speech Studio เป็น GUI บางๆ บน speech-swift ไลบรารี Swift โอเพนซอร์สที่จัดส่งทุกโมเดลที่ใช้ใน demo:
- VoxCPM2 — โมเดลโคลนเสียง (zero-shot, อ้างอิงสั้น)
- DeepFilterNet3 — ลดสัญญาณรบกวนทั้งตัวอย่างอ้างอิงและเอาต์พุตที่โคลน
- Qwen3-ASR — จับคู่เสียงกับข้อความ (ใช้ในไปป์ไลน์การทดสอบบลายด์ของ demo)
- Forced Alignment — เวลาประทับระดับคำสำหรับการแก้ไข
- การโคลนเสียง คู่มือ — ภาพรวมไปป์ไลน์ทั้งหมด
โรดแมป
- วันนี้: Mac (Apple Silicon)
- ถัดไป: Linux (CUDA + CPU), Windows
- หลังจากนั้น: พื้นที่แก้ไขที่ลึกขึ้น รองรับปลั๊กอินสำหรับโมเดลโคลนที่สับเปลี่ยนได้
ฟีดแบ็ก
เปิด issue ที่ github.com/soniqo/speech-studio/issues — ทุกรายการจะถูกอ่าน