Skip to main content

เปิดตัว ChindaTTS — ระบบแปลงข้อความเป็นเสียงพูดไทย-อังกฤษระดับโปรดักชัน พร้อมใช้งานแล้ว

· One min read
Kobkrit Viriyayudhakorn
CEO @ iApp Technology

ChindaTTS — เสียงพูดภาษาไทยที่เป็นธรรมชาติ: วรรณยุกต์ ตัวเลข และการสลับภาษา

วันนี้เราขอประกาศเปิดตัว ChindaTTS ระบบแปลงข้อความเป็นเสียงพูด (Text-to-Speech) ระดับโปรดักชันสำหรับ ภาษาไทยและภาษาอังกฤษ พูดภาษาไทยด้วยจังหวะและวรรณยุกต์ที่เป็นธรรมชาติ อ่านตัวเลข วันที่ จำนวนเงิน และข้อความที่สลับไทย-อังกฤษได้อย่างถูกต้องเหมือนคนจริง รองรับข้อความยาวได้อย่างต่อเนื่อง พร้อมความสามารถในการโคลนเสียงจากคลิปสั้น ๆ ทั้งหมดนี้อยู่เบื้องหลัง API ที่ ใช้งานแทน iApp TTS v3 ได้ทันที

👉 ฟังทุกเสียงและทุกสไตล์การพูดได้ที่ one.iapp.co.th — โชว์เคส One iApp ใหม่ของเราสำหรับ Text, Voice และ Vision

ทำไมต้อง ChindaTTS

ระบบ TTS ทั่วไปมักมองภาษาไทยเป็นเรื่องรอง — วรรณยุกต์ผิด ตัวสะกดเพี้ยน น้ำเสียงเหมือนหุ่นยนต์ และไม่สามารถผสมภาษาไทยกับภาษาอังกฤษได้ ChindaTTS ถูกออกแบบมาเพื่อภาษาไทยตั้งแต่ต้น ผลลัพธ์คือเสียงพูดที่ฟังเหมือนคนไทยจริง ๆ แม้ในประโยคที่เต็มไปด้วยตัวเลข คำทับศัพท์ภาษาอังกฤษ และชื่อแบรนด์

ความสามารถหลัก

  • ไทย + อังกฤษ + สลับภาษาในคำขอเดียว ระบบประมวลผลข้อความอ่านตัวเลข วันที่ สกุลเงิน เปอร์เซ็นต์ เบอร์โทร/เลขบัตร ตัวย่อ อีเมล URL คำตัวพิมพ์ใหญ่ และคำทับศัพท์เทคโนโลยีได้อย่างเป็นธรรมชาติ
  • สำเนียงไทยกลางที่ถูกต้อง ประโยคภาษาอังกฤษล้วนจะสลับไปใช้โหมดเสียงเจ้าของภาษาโดยอัตโนมัติเป็นรายประโยค
  • รองรับข้อความยาว พูดจบครบถ้วน ไม่ลากยาว ไม่ตัดทอน สูงสุดประมาณ 100 วินาทีต่อคำขอ
  • 3 เสียง (ไข่ต้ม, ไข่มุก, ไข่แดง) × 8 สไตล์การพูด (เป็นกลาง, เป็นมิตร, ร่าเริง, ผ่อนคลาย, จริงจัง, เศร้า, ตื่นเต้น, เห็นอกเห็นใจ)
  • โคลนเสียง จากเสียงที่ได้รับความยินยอมเพียง ~10–20 วินาที โดยไม่เก็บข้อมูล — ใช้ครั้งเดียวแล้วลบทิ้ง
  • สตรีมมิ่ง เสียงแรกภายในไม่ถึง ~1 วินาที และเป็น endpoint ที่ใช้แทน iApp v3 ได้ทันที

ฟังเสียงจริง

ตัวอย่างเสียงจริงจาก ChindaTTS แบบไม่ตัดต่อ หากต้องการเดโมแบบโต้ตอบเต็มรูปแบบ — ครบทุกเสียง ทุกสไตล์ และโคลนเสียงสด — เชิญที่ one.iapp.co.th

สามเสียงหลัก

ไข่ต้ม (เสียงเรือธง):

ไข่แดง (เสียงผู้ชาย):

ไข่มุก (เสียงผู้หญิง):

ตัวเลข วันที่ และจำนวนเงิน — อ่านถูกต้อง

การสลับภาษาไทย-อังกฤษ

สไตล์การพูด (เครื่องยนต์เดียวกัน คนละน้ำเสียง)

ร่าเริง:

ผ่อนคลาย:

เห็นอกเห็นใจ:

ChindaTTS Prime (เสริม)

ChindaTTS Prime เพิ่มระบบตรวจสอบด้วยการรู้จำเสียงพูด (speech recognition) ที่จะ "เลือก" เทคที่ดีกว่าหากเทคแรกเพี้ยนหรือขาดหาย — เป็นการ คัดเลือก ไม่ใช่การดัดแปลงเสียง เสียงยังคงเหมือนเดิม สิ่งที่ได้เพิ่มคือ ความเสถียรกับอินพุตที่ยาก โดยเฉพาะสไตล์ที่มีอารมณ์

ตัวชี้วัด — CER (ยิ่งต่ำยิ่งดี)ChindaTTSChindaTTS Prime
ข้อความทั่วไป3.2%3.2%
ตัวเลข / วันที่ / สกุลเงิน1.8%1.4%
สลับภาษา7.9%7.6%
สไตล์ที่มีอารมณ์8.3%3.9%
อัตราเทคเสีย (สไตล์)15.0%6.7%
กรณีแย่สุด p90 (สไตล์)31.8%11.4%

ข้อความทั่วไปอยู่ที่ระดับ noise floor ของตัวรู้จำเสียงอยู่แล้ว คุณค่าของ Prime จึงเด่นชัดในสไตล์ที่มีอารมณ์ ลดอัตราเทคเสียลงกว่าครึ่ง

ความเร็ว (ต่อ GPU, ~6–7 เท่าของเรียลไทม์)

คำขอความยาวเสียงเวลาประมวลผล
~100 ตัวอักษร~9 วินาที~1.5 วินาที
~300 ตัวอักษร~25 วินาที~4 วินาที
~1000 ตัวอักษร~90 วินาที~14 วินาที

สตรีมมิ่งส่งเสียงแรกภายในไม่ถึง ~1 วินาที และเพิ่ม throughput ได้ด้วยการเพิ่ม GPU

เหมาะกับงานแบบไหน

ผู้ช่วยเสียงและระบบ IVR, การบรรยายในแอปและประกาศต่าง ๆ, งานด้านการเข้าถึง (accessibility), อีเลิร์นนิง, การแจ้งเตือน และทุกผลิตภัณฑ์ที่ต้องการเสียงภาษาไทยที่เป็นธรรมชาติและจัดการภาษาอังกฤษได้อย่างราบรื่น

ร่วมแชร์การเปิดตัว

ChindaTTS เปิดตัวแล้ว — โดย iApp Technology

เริ่มใช้งาน ChindaTTS

ChindaTTS พร้อมสำหรับการทดลองใช้งาน (pilot) แล้ววันนี้ — ทั้งเสียง การโคลนเสียง สตรีมมิ่ง API แบบ iApp v3 และ Prime ล้วนพร้อมใช้งานและผ่านการทดสอบแล้ว เราตั้งตารอที่จะได้เห็นสิ่งที่คุณสร้างด้วย ChindaTTS