Skip to main content

เปิดตัว Kaitom Voice V3 - Thai Text-to-Speech รุ่นใหม่

· One min read
Kobkrit Viriyayudhakorn
CEO @ iApp Technology

Kaitom Voice V3 - Thai Text-to-Speech รุ่นใหม่

เรารู้สึกตื่นเต้นที่จะประกาศเปิดตัว Kaitom Voice V3 เวอร์ชันใหม่ล่าสุดของ Thai Text-to-Speech API การอัปเดตครั้งใหญ่นี้นำมาซึ่งการปรับปรุงคุณภาพเสียงอย่างมีนัยสำคัญ แนะนำการปรับข้อความอัจฉริยะ และทำให้การผสานรวมง่ายขึ้นด้วย JSON-based API ที่ทันสมัย

มีอะไรใหม่ใน V3

Kaitom Voice V3 เป็นการปรับปรุง TTS engine ครั้งใหญ่ มอบการสังเคราะห์เสียงพูดภาษาไทยที่เป็นธรรมชาติที่สุดเท่าที่เราเคยสร้างมา

การปรับข้อความอัจฉริยะ

V3 จัดการองค์ประกอบข้อความที่ซับซ้อนโดยอัตโนมัติ ซึ่งก่อนหน้านี้ต้องมีการประมวลผลล่วงหน้า:

ประเภทอินพุตเอาต์พุตที่พูด
ตัวเลข1,234.56"หนึ่งพันสองร้อยสามสิบสี่จุดห้าหก"
วันที่27/01/2569"วันที่ยี่สิบเจ็ดมกราคมพ.ศ.สองพันห้าร้อยหกสิบเก้า"
สกุลเงิน฿1,500"หนึ่งพันห้าร้อยบาท"
เวลา14:30"สิบสี่นาฬิกาสามสิบนาที"
เปอร์เซ็นต์25%"ยี่สิบห้าเปอร์เซ็นต์"

รองรับการออกเสียง IPA

สำหรับคำศัพท์ทางเทคนิค ชื่อแบรนด์ หรือคำที่ต้องการการออกเสียงเฉพาะ ตอนนี้คุณสามารถใช้สัทอักษรสากล (IPA) ได้:

พูด {IPA: kʰun} ให้ถูกต้อง

สิ่งนี้มีประโยชน์อย่างยิ่งสำหรับ:

  • ชื่อต่างชาติและชื่อแบรนด์
  • คำศัพท์ทางเทคนิค
  • ภาษาถิ่นหรือสำเนียงภูมิภาค
  • การออกเสียงที่กำหนดเอง

ตรวจจับภาษาอัตโนมัติ

ไม่ต้องระบุโหมดภาษาอีกต่อไป! V3 ตรวจจับและจัดการเนื้อหาผสมไทย-อังกฤษโดยอัตโนมัติ:

Hello and Welcome! ยินดีต้อนรับสู่ iApp Technology ผู้นำด้าน AI ของประเทศไทย

JSON API ที่เรียบง่าย

เราได้ปรับปรุง API ให้ทันสมัยด้วย JSON interface ที่สะอาด:

curl -X POST 'https://api.iapp.co.th/v3/store/audio/tts/generate' \
--header 'apikey: YOUR_API_KEY' \
--header 'Content-Type: application/json' \
--data '{"text": "สวัสดีครับ น้องไข่ต้ม เวอร์ชั่น 3"}'

เสียงคุณภาพสูง

  • เอาต์พุต WAV 44.1 kHz - คุณภาพเสียงระดับมืออาชีพ
  • รองรับตัวอักษรมากขึ้น - สูงสุด 10,000 ตัวอักษรต่อคำขอ
  • ประมวลผลเร็วขึ้น - ปรับให้เหมาะสมเพื่อความเร็วโดยไม่ลดทอนคุณภาพ

เริ่มต้นใช้งานอย่างรวดเร็ว

Python

import requests

url = "https://api.iapp.co.th/v3/store/audio/tts/generate"
headers = {
"apikey": "YOUR_API_KEY",
"Content-Type": "application/json"
}
data = {"text": "สวัสดีครับ น้องไข่ต้ม เวอร์ชั่น 3"}

response = requests.post(url, headers=headers, json=data)
with open("output.wav", "wb") as f:
f.write(response.content)

JavaScript

const response = await fetch("https://api.iapp.co.th/v3/store/audio/tts/generate", {
method: "POST",
headers: {
"apikey": "YOUR_API_KEY",
"Content-Type": "application/json"
},
body: JSON.stringify({ text: "สวัสดีครับ น้องไข่ต้ม เวอร์ชั่น 3" })
});
const blob = await response.blob();

เปรียบเทียบ V3 กับ V2

ฟีเจอร์V2V3
รูปแบบ APIForm DataJSON
โหมดภาษาต้องระบุ (TH / TH_MIX_EN)ตรวจจับอัตโนมัติ
การปรับข้อความพื้นฐานอัจฉริยะ (ตัวเลข, วันที่, สกุลเงิน)
รองรับ IPAไม่ใช่
ตัวอักษรสูงสุดไม่จำกัด10,000
คุณภาพเสียงมาตรฐาน44.1 kHz

ราคา

V3 ยังคงใช้ราคาที่แข่งขันได้เช่นเดียวกับเวอร์ชันก่อนหน้า:

  • ค่าใช้จ่าย: 1 IC ต่อ 400 ตัวอักษร
  • เครดิตทดลองใช้ฟรี สำหรับผู้ใช้ใหม่

กรณีการใช้งาน

การเรียนรู้ออนไลน์และการศึกษา

แปลงเนื้อหาการศึกษาเป็นบทเรียนเสียงพร้อมการออกเสียงตัวเลข วันที่ และคำศัพท์ทางเทคนิคที่ถูกต้อง

แชทบอทและผู้ช่วยเสมือน

สร้างการตอบกลับด้วยเสียงที่เป็นธรรมชาติสำหรับแชทบอทภาษาไทยพร้อมการจัดการภาษาอัตโนมัติ

การสร้างสรรค์เนื้อหา

สร้างเสียงพากย์ระดับมืออาชีพสำหรับวิดีโอและพอดคาสต์ด้วยเสียงคุณภาพสูง

การเข้าถึง

ทำให้เนื้อหาดิจิทัลเข้าถึงได้สำหรับผู้บกพร่องทางการมองเห็นด้วยเสียงพูดที่ชัดเจนและเป็นธรรมชาติ

ระบบ IVR

สร้างระบบตอบรับด้วยเสียงอัตโนมัติพร้อมการปรับข้อความอัจฉริยะสำหรับหมายเลขโทรศัพท์ จำนวนเงิน และวันที่

คู่มือการย้ายข้อมูล

การย้ายจาก V2 ไปยัง V3 ทำได้ง่าย:

ก่อน (V2):

curl -X POST 'https://api.iapp.co.th/v3/store/speech/text-to-speech/kaitom' \
--header 'apikey: YOUR_API_KEY' \
--form 'text="สวัสดีครับ"' \
--form 'language="TH"'

หลัง (V3):

curl -X POST 'https://api.iapp.co.th/v3/store/audio/tts/generate' \
--header 'apikey: YOUR_API_KEY' \
--header 'Content-Type: application/json' \
--data '{"text": "สวัสดีครับ"}'

การเปลี่ยนแปลงหลัก:

  1. Endpoint ใหม่: /v3/store/audio/tts/generate
  2. Content-Type: application/json
  3. Request body: รูปแบบ JSON {"text": "..."}
  4. ไม่ต้องระบุพารามิเตอร์ language

ลองใช้งานเลย

พร้อมสัมผัส Thai TTS รุ่นใหม่แล้วหรือยัง?

ฟีเจอร์ที่จะมาถึง

เรากำลังพัฒนา Kaitom Voice อย่างต่อเนื่อง ฟีเจอร์ที่กำลังจะมา:

  • ตัวเลือกเสียงเพิ่มเติม (เร็วๆ นี้)
  • รองรับ SSML สำหรับการควบคุมที่ละเอียด
  • เอาต์พุตเสียงแบบ streaming สำหรับแอปพลิเคชันเรียลไทม์

ข้อเสนอแนะ

เราอยากได้ยินความคิดเห็นของคุณเกี่ยวกับ Kaitom Voice V3! เข้าร่วมชุมชนของเรา:


Kaitom Voice V3 พร้อมใช้งานแล้วสำหรับผู้ใช้ iApp API ทุกคน API V1 และ V2 ที่มีอยู่จะยังคงได้รับการสนับสนุนต่อไป