เปิดตัวโคลนเสียงภาษาไทย — โคลนเสียงใครก็ได้ใน 10 วินาที

เรารู้สึกตื่นเต้นที่จะประกาศเปิดตัว โคลนเสียงภาษาไทย (Thai Voice Cloning) ฟีเจอร์ล่าสุดใน Kaitom Voice V3 TTS API เพียงส่งคลิปเสียงไทยที่สะอาดยาว 8–12 วินาที พร้อมข้อความที่พูดในคลิปแบบคำต่อคำ ระบบจะพูดข้อความภาษาไทยที่คุณต้องการด้วยเสียงเดียวกันทันที
นี่คือ Voice Cloning API ระดับโปรดักชันตัวแรกที่ออกแบบสำหรับภาษาไทยโดยเฉพาะ และ ใช้งานฟรีในช่วง Alpha (ถึง 31 พฤษภาคม 2569)
ทำไมโคลนเสียงภาษาไทยถึงสำคัญ
เครื่องมือโคลนเสียงทั่วไปมีมา นานสำหรับภาษาอังกฤษ แต่ภาษาไทยมักถูกลืม — วรรณยุกต์ผิด ตัวสะกดหายไป จังหวะการพูดเหมือนหุ่นยนต์ และจัดการการสลับไทย-อังกฤษไม่ได้
Endpoint โคลนเสียงของ Kaitom Voice V3 เทรนด้วยภาษาไทยตั้งแต่ต้น หมายความว่า:
- วรรณยุกต์ไทย (ไม้เอก, โท, ตรี, จัตวา) ถูกต้องตามผู้พูด
- ตัวสะกด ออกเสียงครบทุกคำ ไม่หายไป
- ตัวเลข วันที่ สกุลเงิน อ่านตามสไตล์ไทยอัตโนมัติ
- ข้อความผสมไทย–อังกฤษ จัดการได้ในประโยคเดียว
คุณจะได้เสียงที่เหมือนคนที่คุณโคลนจริงๆ ไม่ใช่หุ่นยนต์สวมหมวกของเขา
วิธีการทำงาน

คลิปต้นฉบับเก็บลักษณะเสียงแล ะจังหวะการพูด แล้ว V3 engine นำไปใช้กับข้อความไทยที่คุณส่งเข้ามา
ลองได้ใน 60 วินาที
วิธีที่เร็วที่สุดคือ Demo บนเว็บ — อัดเสียงตัวเอง พิมพ์ข้อความไทย ฟังเสียงตัวเองพูดข้อความใหม่ทันที:
เริ่มใช้งาน API
cURL
curl -X POST 'https://api.iapp.co.th/v3/store/audio/tts/clone' \
--header 'apikey: YOUR_API_KEY' \
--form 'text=สวัสดีครับ วันนี้ทดสอบการโคลนเสียงด้วย AI' \
--form 'speed=1.0' \
--form 'ref_text=ฮัลโหล สวัสดีครับ ผมชื่อไข่ต้ม' \
--form 'ref_audio=@reference.wav' \
--output 'output.pcm'
Python
import requests
url = "https://api.iapp.co.th/v3/store/audio/tts/clone"
headers = {"apikey": "YOUR_API_KEY"}
with open("reference.wav", "rb") as ref:
files = {"ref_audio": ref}
data = {
"text": "สวัสดีครับ วันนี้ทดสอบการโคลนเสียงด้วย AI",
"ref_text": "ฮัลโหล สวัสดีครับ ผมชื่อไข่ต้ม",
"speed": "1.0",
}
r = requests.post(url, headers=headers, data=data, files=files)
with open("output.pcm", "wb") as f:
f.write(r.content)
Response ที่ได้คือ PCM signed 16-bit little-endian, mono, 24 kHz สตรีมตามไบต์ที่เข้ามา ห่อด้วย WAV header 44 ไบต์ฝั่ง client หรือใช้ ffmpeg แปลง:
ffmpeg -f s16le -ar 24000 -ac 1 -i output.pcm output.wav
พารามิเตอร์
| ฟิลด์ | ประเภท | จำเป็น | หมายเหตุ |
|---|---|---|---|
text | string | ใช่ | ข้อความภาษาไทยที่ต้องการสังเคราะห์ |
ref_text | string | ใช่ | ข ้อความตามตัวจริง ของ ref_audio (คำต่อคำ ไม่ใช่คำอธิบาย) |
ref_audio | file | ใช่ | WAV หรือ MP3 ความยาว 8–12 วินาที เสียงไทย mono ที่สะอาด |
speed | float | ไม่ | 0.8–1.2, ค่าเริ่มต้น 1.0 |
เคล็ดลับให้โคลนได้ดี
คุณภาพการโคลนขึ้นอยู่กับคลิปต้นฉบับ ใช้เวลาเตรียมไม่กี่นาทีก็คุ้มมาก:
- อัดให้สะอาด ไม่มีเสียงดนตรีพื้นหลัง ไม่มีเสียงรถ ไม่มีเสียงคนซ้อน
- ใช้ผู้พูดเดียว ไม่มีเสียงไอ เสียง "เอ่อ" หรือเสียงคนอื่นแทรก
- ข้อความตรงกับเสียง 100%
ref_textต้องเหมือนref_audioทุกตัวอักษร ถ้าไม่ตรง เสียงจะเพี้ยนหรือเร่งเร็วผิดปกติ - อยู่ในช่วง 8–12 วิ นาที สั้นกว่านี้เก็บโทนเสียงไม่พอ ยาวเกิน 15 วินาที ระบบจะตัดทิ้งและทำให้
ref_textส่วนท้ายไม่ตรง - สไตล์การพูดสม่ำเสมอ ถ้าต้นฉบับพูดเรียบๆ แต่ข้อความใหม่ต้องตะโกน ผลที่ได้จะเพี้ยน
คุณสามารถสร้างอะไรได้บ้าง
หนังสือเสียงส่วนตัว
นักเขียนสามารถพากย์เสียงตัวเองในบทแรก แล้วโคลนเสียงทำบทที่เหลือโดยไม่ต้องเข้าห้องอัดเพิ่ม