เปิดตัว ChindaTTS — ระบบแปลงข้อความเป็นเสียงพูดไทย-อังกฤษระดับโปรดักชัน พร้อมใช้งานแล้ว

วันนี้เราขอประกาศเปิดตัว ChindaTTS ระบบแปลงข้อความเป็นเสียงพูด (Text-to-Speech) ระดับโปรดักชันสำหรับ ภาษาไทยและภาษาอังกฤษ พูดภาษาไทยด้วยจังหวะและวรรณยุกต์ที่เป็นธรรมชาติ อ่านตัวเลข วันที่ จำนวนเงิน และข้อความที่สลับไทย-อังกฤษได้อย่างถูกต้องเหมือนคนจริง รองรับข้อความยาวได้อย่างต่อเนื่อง พร้อมความสามารถในการโคลนเสียงจากคลิปสั้น ๆ ทั้งหมดนี้อยู่เบื้องหลัง API ที่ ใช้งานแทน iApp TTS v3 ได้ทันที
👉 ฟังทุกเสียงและทุกสไตล์การพูดได้ที่ one.iapp.co.th — โชว์เคส One iApp ใหม่ของเราสำหรับ Text, Voice และ Vision
ทำไมต้อง ChindaTTS
ระบบ TTS ทั่วไปมักมองภาษาไทยเป็นเรื่องรอง — วรรณยุกต์ผิด ตัวสะกดเพี้ยน น้ำเสียงเหมือนหุ่นยนต์ และไม่สามารถผสมภาษาไทยกับภาษาอังกฤษได้ ChindaTTS ถูกออกแบบมาเพื่อภาษาไทยตั้งแต่ต้น ผลลัพธ์คือเสียงพูดที่ฟังเหมือนคนไทยจริง ๆ แม้ในประโยคที่เต็มไปด้วยตัวเลข คำทับศัพท์ภาษาอังกฤษ และชื่อแบรนด์
ความสามารถหลัก
- ไทย + อังกฤษ + สลับภาษาในคำขอเดียว ระบบประมวลผลข้อความอ่านตัวเลข วันที่ สกุลเงิน เปอร์เซ็นต์ เบอร์โทร/เลขบัตร ตัวย่อ อีเมล URL คำตัวพิมพ์ใหญ่ และคำทับศัพท์เทคโนโลยีได้อย่างเป็นธรรมชาติ
- สำเนียงไทยกลางที่ถูกต้อง ประ โยคภาษาอังกฤษล้วนจะสลับไปใช้โหมดเสียงเจ้าของภาษาโดยอัตโนมัติเป็นรายประโยค
- รองรับข้อความยาว พูดจบครบถ้วน ไม่ลากยาว ไม่ตัดทอน สูงสุดประมาณ 100 วินาทีต่อคำขอ
- 3 เสียง (ไข่ต้ม, ไข่มุก, ไข่แดง) × 8 สไตล์การพูด (เป็นกลาง, เป็นมิตร, ร่าเริง, ผ่อนคลาย, จริงจัง, เศร้า, ตื่นเต้น, เห็นอกเห็นใจ)
- โคลนเสียง จากเสียงที่ได้รับความยินยอมเพียง ~10–20 วินาที โดยไม่เก็บข้อมูล — ใช้ครั้งเดียวแล้วลบทิ้ง
- สตรีมมิ่ง เสียงแรกภายในไม่ถึง ~1 วินาที และเป็น endpoint ที่ใช้แทน iApp v3 ได้ทันที
ฟังเสียงจริง
ตัวอย่างเสียงจริงจาก ChindaTTS แบบไม่ตัดต่อ หากต้องการเดโมแบบโต้ตอบเต็มรูปแบบ — ครบทุกเสียง ทุกสไตล์ และโคลนเสียงสด — เช ิญที่ one.iapp.co.th
สามเสียงหลัก
ไข่ต้ม (เสียงเรือธง):
ไข่แดง (เสียงผู้ชาย):
ไข่มุก (เสียงผู้หญิง):
ตัวเลข วันที่ และจำนวนเงิน — อ่านถูกต้อง
การสลับภาษาไทย-อังกฤษ
สไตล์การพูด (เครื่องยนต์เดียวกัน คนละน้ำเสียง)
ร่าเริง:
ผ่อนคลาย:
เห็นอกเห็นใจ:
ChindaTTS Prime (เสริม)
ChindaTTS Prime เพิ่มระบบตรวจสอบด้วยการรู้จำเสียงพูด (speech recognition) ที่จะ "เลือก" เทคที่ดีกว่าหากเทคแรกเพี้ยนหรือขาดหาย — เป็นการ คัดเลือก ไม่ใช่การดัดแปลงเสียง เสียงยังคงเหมือนเดิม สิ่งที่ได้เพิ่มคือ ความเสถียรกับอินพุตที่ยาก โดยเฉพาะสไตล์ที่มีอารมณ์
| ตัวชี้วัด — CER (ยิ่งต่ำยิ่งดี) | ChindaTTS | ChindaTTS Prime |
|---|---|---|
| ข้อความทั่วไป | 3.2% | 3.2% |
| ตัวเลข / วันที่ / สกุลเงิน | 1.8% | 1.4% |
| สลับภาษา | 7.9% | 7.6% |
| สไตล์ที่มีอารมณ์ | 8.3% | 3.9% |
| อัตราเทคเสีย (สไตล์) | 15.0% | 6.7% |
| กรณีแย่สุด p90 (สไตล์) | 31.8% | 11.4% |
ข้อความทั่วไปอยู่ที่ระดับ noise floor ของตัวรู้จำเสียงอยู่แล้ว คุณค่าของ Prime จึงเด่นชัดในสไตล์ที่มีอารมณ์ ลดอัตราเทคเสียลงกว่าครึ่ง
ความเร็ว (ต่อ GPU, ~6–7 เท่าของเรียลไทม์)
| คำขอ | ความยาวเสียง | เวลาประมวลผล |
|---|---|---|
| ~100 ตัวอักษร | ~9 วินาที | ~1.5 วินาที |
| ~300 ตัวอักษร | ~25 วินาที | ~4 วินาที |
| ~1000 ตัวอักษร | ~90 วินาที | ~14 วินาที |
สตรีมมิ่งส่งเสียงแรกภายในไม่ถึง ~1 วินาที และเพิ่ม throughput ได้ด้วยการเพิ่ม GPU
เหมาะกับงานแบบไหน
ผู้ช่วยเสียงและระบบ IVR, การบรรยายในแอปและประกาศต่าง ๆ, งานด้านการเข้าถึง (accessibility), อีเลิร์นนิง, การแจ้งเตือน และทุกผลิตภัณฑ์ที่ต้องการเสียงภาษาไทยที่เป็นธรรมชาติและจัดการภาษาอังกฤษได้อย่างราบรื่น
ร่วมแชร์การเปิดตัว

เริ่มใช้งาน ChindaTTS
- 🔊 ฟังโชว์เคสเสียงจริง: one.iapp.co.th
- 📄 หน้าผลิตภัณฑ์และสเปก: iapp.co.th/products/chindaTTS
- 📬 ปรึกษาเรื่อง pilot: sale@iapp.co.th
ChindaTTS พร้อมสำหรับการทดลองใช้งาน (pilot) แล้ววันนี้ — ทั้งเสียง การโคลนเสียง สตรีมมิ่ง API แบบ iApp v3 และ Prime ล้วนพร้อมใช้งานและผ่านการทดสอบแล้ว เราตั้งตารอที่จะได้เห็นสิ่งที่คุณสร้างด้วย ChindaTTS