Skip to main content

เปิดตัว Kaitom Voice V3 - Thai Text-to-Speech รุ่นใหม่

· One min read
Kobkrit Viriyayudhakorn
CEO @ iApp Technology

Kaitom Voice V3 - Thai Text-to-Speech รุ่นใหม่

เรารู้สึกตื่นเต้นที่จะประกาศเปิดตัว Kaitom Voice V3 เวอร์ชันใหม่ล่าสุดของ Thai Text-to-Speech API การอัปเดตครั้งใหญ่นี้นำมาซึ่งการปรับปรุงคุณภาพเสียงอย่างมีนัยสำคัญ แนะนำการปรับข้อความอัจฉริยะ และทำให้การผสานรวมง่ายขึ้นด้วย JSON-based API ที่ทันสมัย

มีอะไรใหม่ใน V3

Kaitom Voice V3 เป็นการปรับปรุง TTS engine ครั้งใหญ่ มอบการสังเคราะห์เสียงพูดภาษาไทยที่เป็นธรรมชาติที่สุดเท่าที่เราเคยสร้างมา

การปรับข้อความอัจฉริยะ

V3 จัดการองค์ประกอบข้อความที่ซับซ้อนโดยอัตโนมัติ ซึ่งก่อนหน้านี้ต้องมีการประมวลผลล่วงหน้า:

ประเภทอินพุตเอาต์พุตที่พูด
ตัวเลข1,234.56"หนึ่งพันสองร้อยสามสิบสี่จุดห้าหก"
วันที่27/01/2569"วันที่ยี่สิบเจ็ดมกราคมพ.ศ.สองพันห้าร้อยหกสิบเก้า"
สกุลเงิน฿1,500"หนึ่งพันห้าร้อยบาท"
เวลา14:30"สิบสี่นาฬิกาสามสิบนาที"
เปอร์เซ็นต์25%"ยี่สิบห้าเปอร์เซ็นต์"

ตรวจจับภาษาอัตโนมัติ

ไม่ต้องระบุโหมดภาษาอีกต่อไป! V3 ตรวจจับและจัดการเนื้อหาผสมไทย-อังกฤษโดยอัตโนมัติ:

Hello and Welcome! ยินดีต้อนรับสู่ iApp Technology ผู้นำด้าน AI ของประเทศไทย

JSON API ที่เรียบง่าย

เราได้ปรับปรุง API ให้ทันสมัยด้วย JSON interface ที่สะอาด:

curl -X POST 'https://api.iapp.co.th/v3/store/audio/tts' \
--header 'apikey: YOUR_API_KEY' \
--header 'Content-Type: application/json' \
--data '{"text": "สวัสดีครับ น้องไข่ต้ม เวอร์ชั่น 3"}'

เอาต์พุตเสียงแบบสตรีม

  • PCM mono 24 kHz แบบสตรีม — เริ่มเล่นได้ทันทีที่ไบต์ถึง
  • Real-time factor ~0.3–0.5 — เสียง 10 วินาทีสังเคราะห์ใน 3–5 วินาที
  • สูงสุด ~1,000 ตัวอักษรไทยต่อคำขอ (ข้อความยาวกว่านี้ระบบจะแบ่งให้อัตโนมัติ)
  • ห่อด้วย WAV header (44 ไบต์) ที่ฝั่ง client เพื่อเล่นหรือบันทึกเป็น .wav

🎤 ใหม่: โคลนเสียงภาษาไทย (Voice Cloning)

V3 เปิดตัว โคลนเสียง สำหรับภาษาไทย เป็น endpoint แยกต่างหาก เพียงส่งคลิปเสียงไทยที่สะอาดยาว 8–12 วินาที พร้อมข้อความที่พูดในคลิปแบบคำต่อคำ ระบบจะสังเคราะห์ข้อความใหม่ด้วยเสียงนั้น:

curl -X POST 'https://api.iapp.co.th/v3/store/audio/tts/clone' \
--header 'apikey: YOUR_API_KEY' \
--form 'text=สวัสดีครับ วันนี้ทดสอบการโคลนเสียง' \
--form 'speed=1.0' \
--form 'ref_text=ฮัลโหล สวัสดีครับ ผมชื่อไข่ต้ม' \
--form 'ref_audio=@reference.wav' \
--output 'output.pcm'

โคลนเสียงปัจจุบันรองรับภาษาไทยเท่านั้น ลอง Demo โคลนเสียงแบบโต้ตอบ ที่อัดเสียงตัวเองในเบราว์เซอร์ได้เลย

เริ่มต้นใช้งานอย่างรวดเร็ว

Python

import requests

url = "https://api.iapp.co.th/v3/store/audio/tts"
headers = {
"apikey": "YOUR_API_KEY",
"Content-Type": "application/json"
}
data = {"text": "สวัสดีครับ น้องไข่ต้ม เวอร์ชั่น 3"}

response = requests.post(url, headers=headers, json=data)
with open("output.wav", "wb") as f:
f.write(response.content)

JavaScript

const response = await fetch("https://api.iapp.co.th/v3/store/audio/tts", {
method: "POST",
headers: {
"apikey": "YOUR_API_KEY",
"Content-Type": "application/json"
},
body: JSON.stringify({ text: "สวัสดีครับ น้องไข่ต้ม เวอร์ชั่น 3" })
});
const blob = await response.blob();

เปรียบเทียบ V3 กับ V2

ฟีเจอร์V2V3
รูปแบบ APIForm DataJSON
โหมดภาษาต้องระบุ (TH / TH_MIX_EN)ตรวจจับอัตโนมัติ
การปรับข้อความพื้นฐานอัจฉริยะ (ตัวเลข, วันที่, สกุลเงิน)
ตัวอักษรสูงสุดไม่จำกัด10,000
คุณภาพเสียงมาตรฐานPCM 24 kHz แบบสตรีม

ราคา

V3 อยู่ในช่วง Alpha และ ใช้ฟรีถึงวันที่ 31 พฤษภาคม 2569 (2026) สำหรับทั้งสอง endpoint:

  • /v3/store/audio/tts (เสียงน้องไข่ต้ม) — ฟรี
  • /v3/store/audio/tts/clone (โคลนเสียงภาษาไทย) — ฟรี

ราคาหลังจบช่วง Alpha จะประกาศก่อนสิ้นสุดช่วงทดสอบ

กรณีการใช้งาน

การเรียนรู้ออนไลน์และการศึกษา

แปลงเนื้อหาการศึกษาเป็นบทเรียนเสียงพร้อมการออกเสียงตัวเลข วันที่ และคำศัพท์ทางเทคนิคที่ถูกต้อง

แชทบอทและผู้ช่วยเสมือน

สร้างการตอบกลับด้วยเสียงที่เป็นธรรมชาติสำหรับแชทบอทภาษาไทยพร้อมการจัดการภาษาอัตโนมัติ

การสร้างสรรค์เนื้อหา

สร้างเสียงพากย์ระดับมืออาชีพสำหรับวิดีโอและพอดคาสต์ด้วยเสียงคุณภาพสูง

การเข้าถึง

ทำให้เนื้อหาดิจิทัลเข้าถึงได้สำหรับผู้บกพร่องทางการมองเห็นด้วยเสียงพูดที่ชัดเจนและเป็นธรรมชาติ

ระบบ IVR

สร้างระบบตอบรับด้วยเสียงอัตโนมัติพร้อมการปรับข้อความอัจฉริยะสำหรับหมายเลขโทรศัพท์ จำนวนเงิน และวันที่

คู่มือการย้ายข้อมูล

การย้ายจาก V2 ไปยัง V3 ทำได้ง่าย:

ก่อน (V2):

curl -X POST 'https://api.iapp.co.th/v3/store/speech/text-to-speech/kaitom' \
--header 'apikey: YOUR_API_KEY' \
--form 'text="สวัสดีครับ"' \
--form 'language="TH"'

หลัง (V3):

curl -X POST 'https://api.iapp.co.th/v3/store/audio/tts' \
--header 'apikey: YOUR_API_KEY' \
--header 'Content-Type: application/json' \
--data '{"text": "สวัสดีครับ"}'

การเปลี่ยนแปลงหลัก:

  1. Endpoint ใหม่: /v3/store/audio/tts
  2. Content-Type: application/json
  3. Request body: รูปแบบ JSON {"text": "..."}
  4. ไม่ต้องระบุพารามิเตอร์ language

ลองใช้งานเลย

พร้อมสัมผัส Thai TTS รุ่นใหม่แล้วหรือยัง?

ฟีเจอร์ที่จะมาถึง

เรากำลังพัฒนา Kaitom Voice อย่างต่อเนื่อง ฟีเจอร์ที่กำลังจะมา:

  • ตัวเลือกเสียงเพิ่มเติม (เร็วๆ นี้)
  • รองรับ SSML สำหรับการควบคุมที่ละเอียด
  • โคลนเสียงสำหรับภาษาอังกฤษและภาษาอื่นๆ

ข้อเสนอแนะ

เราอยากได้ยินความคิดเห็นของคุณเกี่ยวกับ Kaitom Voice V3! เข้าร่วมชุมชนของเรา:


Kaitom Voice V3 พร้อมใช้งานแล้วสำหรับผู้ใช้ iApp API ทุกคน API V1 และ V2 ที่มีอยู่จะยังคงได้รับการสนับสนุนต่อไป