泰语语音克隆上线 — 10秒克隆任何泰语声音
· 6 分钟阅读

我们激动地宣布 泰语语音克隆 (Thai Voice Cloning) 正式上线,这是 Kaitom Voice V3 TTS API 中最新推出的能力。只需提供一段干净的泰语录音(8–12 秒)以及它的逐字文本,API 就能用同样的声音朗读你想要的任何泰语内容。
这是首个专为泰语打造的生产级语音克隆 API。
为什么泰语语音克隆很重要
通用语音克隆工具在英语领域已经存在很久了,但泰语一直被忽视 — 声调错误、尾辅音丢失、节奏机械、无法处理泰英混合。
Kaitom Voice V3 的克隆 endpoint 从一开始就用泰语训练,这意味着:
- 泰语声调 (ไม้เอก, โท, ตรี, จัตวา) 按照说话人保留正确
- 尾辅音 自然发音,不会被吞掉
- 数字、日期、货币 自动按泰语习惯朗读
- 泰英混合 内容在一个句子内自然处理
你得到的是真正像那个人的声音 — 而不是一个戴着他帽子的机器人。
工作原理

参考音频捕获说话人的音色和韵律,V3 引擎将其应用到你提供的任何泰语文本上。
60 秒上手体验
最快的方式是浏览器内的演示 — 录制自己的声音,输入泰语文本,立即听到自己的声音说出新内容:
👉 打开交互式演示
API 快速开始
cURL
curl -X POST 'https://api.iapp.co.th/v3/store/audio/tts/clone' \
--header 'apikey: YOUR_API_KEY' \
--form 'text=สวัสดีครับ วันนี้ทดสอบการโคลนเสียงด้วย AI' \
--form 'speed=1.0' \
--form 'ref_text=ฮัลโหล สวัสดีครับ ผมชื่อไข่ต้ม' \
--form 'ref_audio=@reference.wav' \
--output 'output.pcm'
Python
import requests
url = "https://api.iapp.co.th/v3/store/audio/tts/clone"
headers = {"apikey": "YOUR_API_KEY"}
with open("reference.wav", "rb") as ref:
files = {"ref_audio": ref}
data = {
"text": "สวัสดีครับ วันนี้ทดสอบการโคลนเสียงด้วย AI",
"ref_text": "ฮัลโหล สวัสดีครับ ผมชื่อไข่ต้ม",
"speed": "1.0",
}
r = requests.post(url, headers=headers, data=data, files=files)
with open("output.pcm", "wb") as f:
f.write(r.content)
返回的是有符号 16 位小端 PCM、单声道、24 kHz 的原始字节流。在客户端添加 44 字节的 WAV header,或使用 ffmpeg 转换:
ffmpeg -f s16le -ar 24000 -ac 1 -i output.pcm output.wav
请求字段
| 字段 | 类型 | 是否必需 | 说明 |
|---|---|---|---|
text | string | 是 | 要合成的泰语文本 |
ref_text | string | 是 | ref_audio 的逐字文本(不是描述,是说话内容) |
ref_audio | file | 是 | WAV 或 MP3,8–12 秒的干净泰语单声道语音 |
speed | float | 否 | 0.8–1.2,默认 1.0 |
获得高质量克隆的小贴士
克隆质量取决于参考音频,花几分钟筛选样本非常值得:
- 录音要干净。 没有背景音乐、没有车流声、没有人声叠加
- 只用一个说话人。 不要包含其他人的咳嗽、"嗯"、口头禅
- 文本与音频完全一致。
ref_text必须逐字匹配ref_audio,不一致会导致韵律漂移和语速失真 - 保持在 8–12 秒区间。 太短捕获不到音色,超过 15 秒会被静默截断,使
ref_text末尾对不上 - 保持说话风格一致。 如果参考音频是平静的,但目标文本要喊出来,结果会不可预测
应用场景
个性化有声书
作者可以用自己的声音录制部分章节,然后克隆声音补充剩余章节,无需再次进入录音棚。
大规模品牌声音
品牌代言人录制 10 秒样本一次,即可生成无限的泰语营销视频、IVR 提示和产品演示,全部使用相同的声音。
声音保存
帮助声音功能逐渐丧失的患者 — 现在录制样本,未来仍能"说话"。
泰国市场本地化
将国际内容引入泰国受众,使用观众熟悉的同一位说话人。无需选角、无需录音棚日程。
无障碍与在线教育
用老师本人的声音生成教育内容音频,配以正确的泰语数字、日期、货币朗读。
价格
语音克隆价格为 1 IC / 400 字符。
| Endpoint | Method | 费用 |
|---|---|---|
/v3/store/audio/tts (默认 Kaitom 声音) | POST | 1 IC / 400 字符 |
/v3/store/audio/tts/clone (泰语语音克隆) | POST | 1 IC / 400 字符 |
负责任地使用
语音克隆功能强大但容易被滥用,iApp Technology 要求用户:
- 获得说话人明确同意后再克隆其声音