เสียงพูดบนอุปกรณ์
สำหรับผลิตภัณฑ์จริง
การถอดเสียงพร้อมแยกผู้พูด การโคลนเสียงแบบ zero-shot และการสังเคราะห์เสียงพูดยาว — ทำงานบน Apple Silicon, Android และ Linux แบบฝังตัว ไม่ต้องใช้ API บนคลาวด์ ไม่มีการคิดเงินรายนาที และไม่มีข้อมูลออกจากอุปกรณ์
brew install soniqo/tap/speechimplementation("audio.soniqo:speech:0.0.5")Speech AI แบบโลคัลบน MacBook
ทัวร์ไลบรารีโอเพนซอร์สสี่นาที: การถอดเสียงเรียลไทม์ด้วย Nemotron Streaming, speech-to-speech โลคัลด้วย PersonaPlex, และการโคลนเสียงที่ 48 kHz ด้วย VoxCPM2 — ทุกการสาธิตรันบนแล็ปท็อป
ดูบน YouTubeสามกลุ่มกรณีใช้งานบนอุปกรณ์
แต่ละกลุ่มครอบคลุมหลายกรณีย่อยที่ประกอบขึ้นจากคอมโพเนนต์ของ Soniqo ส่งเสียงเข้ามา แล้วได้บทสนทนา ข้อความถอด หรือเสียงที่สร้างขึ้น — แบบโลคัล เรียลไทม์
เอเจนต์เสียง
สร้างอินเตอร์เฟซที่เน้นเสียงเป็นหลัก — ตั้งแต่ speech-to-speech แบบ full-duplex ไปจนถึงไปป์ไลน์ประกอบที่ปลุกด้วยคำสั่งปลุก ทั้งหมดทำงานในเครื่อง
การถอดเสียงเป็นข้อความ
แปลงเสียงเป็นข้อความที่มีโครงสร้าง — สตรีมมิ่งเรียลไทม์สำหรับคำบรรยายสดและการบอกพิมพ์ การประมวลผลแบบแบตช์ความแม่นยำสูงสำหรับคลังเก็บ พร้อมการแยกผู้พูดเพื่อระบุชื่อแต่ละคน
การสังเคราะห์เสียงพูด
สังเคราะห์เสียงพูดด้วยเสียงใดก็ได้ — โคลนเสียงในไม่กี่วินาที อ่านหนังสือเสียงได้นับชั่วโมง หรือสร้างพอดแคสต์หลายผู้พูด ทำงานออฟไลน์ทั้งหมด
มากกว่ายี่สิบโมเดล หนึ่งสแต็ก
ไปป์ไลน์กรณีใช้งานด้านบนสร้างจากโมเดลเหล่านี้ เลือกคอมโพเนนต์เพื่ออ่านสถาปัตยกรรม CLI Swift API และ benchmark ทั้งหมดทำงานบน Apple Silicon ส่วนใหญ่ทำงานบน Android และ Linux ด้วย
เสียงพูดเป็นข้อความ
ข้อความเป็นเสียงพูด
9 langs, zero-shot cloning, 4-bit → bf16
12 Hz codec LM, faster than real-time
48 kHz, 30 langs, voice design + cloning
50 voices, ~45 ms inference
90-min podcasts / audiobooks
9 langs, 5 baked voices, streaming
CosyVoice, Qwen3-TTS ICL, CAM++
