เปิดตัว Kaitom Voice V3 - Thai Text-to-Speech รุ่นใหม่

27 มกราคม 2569 · One min read

CEO @ iApp Technology

Kaitom Voice V3 - Thai Text-to-Speech รุ่นใหม่

เรารู้สึกตื่นเต้นที่จะประกาศเปิดตัว Kaitom Voice V3 เวอร์ชันใหม่ล่าสุดของ Thai Text-to-Speech API การอัปเดตครั้งใหญ่นี้นำมาซึ่งการปรับปรุงคุณภาพเสียงอย่างมีนัยสำคัญ แนะนำการปรับข้อความอัจฉริยะ และทำให้การผสานรวมง่ายขึ้นด้วย JSON-based API ที่ทันสมัย

มีอะไรใหม่ใน V3

Kaitom Voice V3 เป็นการปรับปรุง TTS engine ครั้งใหญ่ มอบการสังเคราะห์เสียงพูดภาษาไทยที่เป็นธรรมชาติที่สุดเท่าที่เราเคยสร้างมา

การปรับข้อความอัจฉริยะ

V3 จัดการองค์ประกอบข้อความที่ซับซ้อนโดยอัตโนมัติ ซึ่งก่อนหน้านี้ต้องมีการประมวลผลล่วงหน้า:

ประเภท	อินพุต	เอาต์พุตที่พูด
ตัวเลข	`1,234.56`	"หนึ่งพันสองร้อยสามสิบสี่จุดห้าหก"
วันที่	`27/01/2569`	"วันที่ยี่สิบเจ็ดมกราคมพ.ศ.สองพันห้าร้อยหกสิบเก้า"
สกุลเงิน	`฿1,500`	"หนึ่งพันห้าร้อยบาท"
เวลา	`14:30`	"สิบสี่นาฬิกาสามสิบนาที"
เปอร์เซ็นต์	`25%`	"ยี่สิบห้าเปอร์เซ็นต์"

ตรวจจับภาษาอัตโนมัติ

ไม่ต้องระบุโหมดภาษาอีกต่อไป! V3 ตรวจจับและจัดการเนื้อหาผสมไทย-อังกฤษโดยอัตโนมัติ:

Hello and Welcome! ยินดีต้อนรับสู่ iApp Technology ผู้นำด้าน AI ของประเทศไทย

JSON API ที่เรียบง่าย

เราได้ปรับปรุง API ให้ทันสมัยด้วย JSON interface ที่สะอาด:

curl -X POST 'https://api.iapp.co.th/v3/store/audio/tts' \
    --header 'apikey: YOUR_API_KEY' \
    --header 'Content-Type: application/json' \
    --data '{"text": "สวัสดีครับ น้องไข่ต้ม เวอร์ชั่น 3"}'

เอาต์พุตเสียงแบบสตรีม

PCM mono 24 kHz แบบสตรีม — เริ่มเล่นได้ทันทีที่ไบต์ถึง
Real-time factor ~0.3–0.5 — เสียง 10 วินาทีสังเคราะห์ใน 3–5 วินาที
สูงสุด ~1,000 ตัวอักษรไทยต่อคำขอ (ข้อความยาวกว่านี้ระบบจะแบ่งให้อัตโนมัติ)
ห่อด้วย WAV header (44 ไบต์) ที่ฝั่ง client เพื่อเล่นหรือบันทึกเป็น .wav

🎤 ใหม่: โคลนเสียงภาษาไทย (Voice Cloning)

V3 เปิดตัว โคลนเสียง สำหรับภาษาไทย เป็น endpoint แยกต่างหาก เพียงส่งคลิปเสียงไทยที่สะอาดยาว 8–12 วินาที พร้อมข้อความที่พูดในคลิปแบบคำต่อคำ ระบบจะสังเคราะห์ข้อความใหม่ด้วยเสียงนั้น:

curl -X POST 'https://api.iapp.co.th/v3/store/audio/tts/clone' \
    --header 'apikey: YOUR_API_KEY' \
    --form 'text=สวัสดีครับ วันนี้ทดสอบการโคลนเสียง' \
    --form 'speed=1.0' \
    --form 'ref_text=ฮัลโหล สวัสดีครับ ผมชื่อไข่ต้ม' \
    --form 'ref_audio=@reference.wav' \
    --output 'output.pcm'

โคลนเสียงปัจจุบันรองรับภาษาไทยเท่านั้น ลอง Demo โคลนเสียงแบบโต้ตอบ ที่อัดเสียงตัวเองในเบราว์เซอร์ได้เลย

เริ่มต้นใช้งานอย่างรวดเร็ว

Python

import requests

url = "https://api.iapp.co.th/v3/store/audio/tts"
headers = {
    "apikey": "YOUR_API_KEY",
    "Content-Type": "application/json"
}
data = {"text": "สวัสดีครับ น้องไข่ต้ม เวอร์ชั่น 3"}

response = requests.post(url, headers=headers, json=data)
with open("output.wav", "wb") as f:
    f.write(response.content)

JavaScript

const response = await fetch("https://api.iapp.co.th/v3/store/audio/tts", {
    method: "POST",
    headers: {
        "apikey": "YOUR_API_KEY",
        "Content-Type": "application/json"
    },
    body: JSON.stringify({ text: "สวัสดีครับ น้องไข่ต้ม เวอร์ชั่น 3" })
});
const blob = await response.blob();

เปรียบเทียบ V3 กับ V2

ฟีเจอร์	V2	V3
รูปแบบ API	Form Data	JSON
โหมดภาษา	ต้องระบุ (`TH` / `TH_MIX_EN`)	ตรวจจับอัตโนมัติ
การปรับข้อความ	พื้นฐาน	อัจฉริยะ (ตัวเลข, วันที่, สกุลเงิน)
ตัวอักษรสูงสุด	ไม่จำกัด	10,000
คุณภาพเสียง	มาตรฐาน	PCM 24 kHz แบบสตรีม

ราคา

V3 อยู่ในช่วง Alpha และ ใช้ฟรีถึงวันที่ 31 พฤษภาคม 2569 (2026):

/v3/store/audio/tts (เสียงน้องไข่ต้ม) — ~~1 IC ต่อ 400 ตัวอักษร~~ (ฟรีช่วง Alpha ถึง 31 พฤษภาคม 2569)
/v3/store/audio/tts/clone (โคลนเสียงภาษาไทย) — ~~1 IC ต่อ 400 ตัวอักษร~~ (ฟรีช่วง Alpha ถึง 31 พฤษภาคม 2569)

ราคาหลังจบช่วง Alpha จะประกาศก่อนสิ้นสุดช่วงทดสอบ

กรณีการใช้งาน

การเรียนรู้ออนไลน์และการศึกษา

แปลงเนื้อหาการศึกษาเป็นบทเรียนเสียงพร้อมการออกเสียงตัวเลข วันที่ และคำศัพท์ทางเทคนิคที่ถูกต้อง

แชทบอทและผู้ช่วยเสมือน

สร้างการตอบกลับด้วยเสียงที่เป็นธรรมชาติสำหรับแชทบอทภาษาไทยพร้อมการจัดการภาษาอัตโนมัติ

การสร้างสรรค์เนื้อหา

สร้างเสียงพากย์ระดับมืออาชีพสำหรับวิดีโอและพอดคาสต์ด้วยเสียงคุณภาพสูง

การเข้าถึง

ทำให้เนื้อหาดิจิทัลเข้าถึงได้สำหรับผู้บกพร่องทางการมองเห็นด้วยเสียงพูดที่ชัดเจนและเป็นธรรมชาติ

ระบบ IVR

สร้างระบบตอบรับด้วยเสียงอัตโนมัติพร้อมการปรับข้อความอัจฉริยะสำหรับหมายเลขโทรศัพท์ จำนวนเงิน และวันที่

คู่มือการย้ายข้อมูล

การย้ายจาก V2 ไปยัง V3 ทำได้ง่าย:

ก่อน (V2):

curl -X POST 'https://api.iapp.co.th/v3/store/speech/text-to-speech/kaitom' \
    --header 'apikey: YOUR_API_KEY' \
    --form 'text="สวัสดีครับ"' \
    --form 'language="TH"'

หลัง (V3):

curl -X POST 'https://api.iapp.co.th/v3/store/audio/tts' \
    --header 'apikey: YOUR_API_KEY' \
    --header 'Content-Type: application/json' \
    --data '{"text": "สวัสดีครับ"}'

การเปลี่ยนแปลงหลัก:

Endpoint ใหม่: /v3/store/audio/tts
Content-Type: application/json
Request body: รูปแบบ JSON {"text": "..."}
ไม่ต้องระบุพารามิเตอร์ language

ลองใช้งานเลย

พร้อมสัมผัส Thai TTS รุ่นใหม่แล้วหรือยัง?

Demo แบบโต้ตอบ - ลอง V3 โดยตรงในเบราว์เซอร์
เอกสาร API - ข้อมูลอ้างอิงทางเทคนิคฉบับสมบูรณ์
รับ API Key - เริ่มสร้างวันนี้

ฟีเจอร์ที่จะมาถึง

เรากำลังพัฒนา Kaitom Voice อย่างต่อเนื่อง ฟีเจอร์ที่กำลังจะมา:

ตัวเลือกเสียงเพิ่มเติม (เร็วๆ นี้)
รองรับ SSML สำหรับการควบคุมที่ละเอียด
โคลนเสียงสำหรับภาษาอังกฤษและภาษาอื่นๆ

ข้อเสนอแนะ

เราอยากได้ยินความคิดเห็นของคุณเกี่ยวกับ Kaitom Voice V3! เข้าร่วมชุมชนของเรา:

Discord: discord.gg/kYcpmdEcS2
อีเมล: sale@iapp.co.th
โทรศัพท์: 086-322-5858

Kaitom Voice V3 พร้อมใช้งานแล้วสำหรับผู้ใช้ iApp API ทุกคน API V1 และ V2 ที่มีอยู่จะยังคงได้รับการสนับสนุนต่อไป

เปิดตัว Kaitom Voice V3 - Thai Text-to-Speech รุ่นใหม่

มีอะไรใหม่ใน V3

การปรับข้อความอัจฉริยะ

ตรวจจับภาษาอัตโนมัติ

JSON API ที่เรียบง่าย

เอาต์พุตเสียงแบบสตรีม

🎤 ใหม่: โคลนเสียงภาษาไทย (Voice Cloning)

เริ่มต้นใช้งานอย่างรวดเร็ว

Python

JavaScript

เปรียบเทียบ V3 กับ V2

ราคา

กรณีการใช้งาน

การเรียนรู้ออนไลน์และการศึกษา

แชทบอทและผู้ช่วยเสมือน

การสร้างสรรค์เนื้อหา

การเข้าถึง

ระบบ IVR

คู่มือการย้ายข้อมูล

ลองใช้งานเลย

ฟีเจอร์ที่จะมาถึง

ข้อเสนอแนะ

ChindaX

SpeechFlow

ChindaGO

มีอะไรใหม่ใน V3​

การปรับข้อความอัจฉริยะ​

ตรวจจับภาษาอัตโนมัติ​

JSON API ที่เรียบง่าย​

เอาต์พุตเสียงแบบสตรีม​

🎤 ใหม่: โคลนเสียงภาษาไทย (Voice Cloning)​

เริ่มต้นใช้งานอย่างรวดเร็ว​

Python​

JavaScript​

เปรียบเทียบ V3 กับ V2​

ราคา​

กรณีการใช้งาน​

การเรียนรู้ออนไลน์และการศึกษา​

แชทบอทและผู้ช่วยเสมือน​

การสร้างสรรค์เนื้อหา​

การเข้าถึง​

ระบบ IVR​

คู่มือการย้ายข้อมูล​

ลองใช้งานเลย​

ฟีเจอร์ที่จะมาถึง​

ข้อเสนอแนะ​

มีอะไรใหม่ใน V3

การปรับข้อความอัจฉริยะ

ตรวจจับภาษาอัตโนมัติ

JSON API ที่เรียบง่าย

เอาต์พุตเสียงแบบสตรีม

🎤 ใหม่: โคลนเสียงภาษาไทย (Voice Cloning)

เริ่มต้นใช้งานอย่างรวดเร็ว

Python

JavaScript

เปรียบเทียบ V3 กับ V2

ราคา

กรณีการใช้งาน

การเรียนรู้ออนไลน์และการศึกษา

แชทบอทและผู้ช่วยเสมือน

การสร้างสรรค์เนื้อหา

การเข้าถึง

ระบบ IVR

คู่มือการย้ายข้อมูล

ลองใช้งานเลย

ฟีเจอร์ที่จะมาถึง

ข้อเสนอแนะ