泰语语音克隆上线 — 10秒克隆任何泰语声音

我们激动地宣布 泰语语音克隆 (Thai Voice Cloning) 正式上线,这是 Kaitom Voice V3 TTS API 中最新推出的能力。只需提供一段干净的泰语录音(8–12 秒)以及它的逐字文本,API 就能用同样的声音朗读你想要的任何泰语内容。
这是首个专为泰语打造的生产级语音克隆 API,Alpha 期间免费使用(截至 2026 年 5 月 31 日)。
为什么泰语语音克隆很重要
通用语音克隆工具在英语领域已经存在很久了,但泰语一直被忽视 — 声调错误、尾辅音丢失、节奏机械、无法处理泰英混合。
Kaitom Voice V3 的克隆 endpoint 从一开始就用泰语训练,这意味着:
- 泰语声调 (ไม้เอก, โท, ตรี, จัตวา) 按照说话人保留正确
- 尾辅音 自然发音,不会被吞掉
- 数字、日期、货币 自动按泰语习惯朗读
- 泰英混合 内容在一个句子内自然处理
你得到的是真正像那个人的声音 — 而不是一个戴着他帽子的机器人。
工作原理

参考音频捕获说话人的音色和韵律,V3 引擎将其应用到你提供的任何泰语文本上。
60 秒上手体验
最快的方式是浏览器内的演示 — 录制自己的声音,输入泰语文本,立即听到自己的声音说出新内容:
👉 打开交互式演示
API 快速开始
cURL
curl -X POST 'https://api.iapp.co.th/v3/store/audio/tts/clone' \
--header 'apikey: YOUR_API_KEY' \
--form 'text=สวัสดีครับ วันนี้ทดสอบการโคลนเสียงด้วย AI' \
--form 'speed=1.0' \
--form 'ref_text=ฮัลโหล สวัสดีครับ ผมชื่อไข่ต้ม' \
--form 'ref_audio=@reference.wav' \
--output 'output.pcm'
Python
import requests
url = "https://api.iapp.co.th/v3/store/audio/tts/clone"
headers = {"apikey": "YOUR_API_KEY"}
with open("reference.wav", "rb") as ref:
files = {"ref_audio": ref}
data = {
"text": "สวัสดีครับ วันนี้ทดสอบการโคลนเสียงด้วย AI",
"ref_text": "ฮัลโหล สวัสดีครับ ผมชื่อไข่ต้ม",
"speed": "1.0",
}
r = requests.post(url, headers=headers, data=data, files=files)
with open("output.pcm", "wb") as f:
f.write(r.content)
返回的是有符号 16 位小端 PCM、单声道、24 kHz 的原始字节流。在客户端添加 44 字节的 WAV header,或使用 ffmpeg 转换:
ffmpeg -f s16le -ar 24000 -ac 1 -i output.pcm output.wav
请求字段
| 字段 | 类型 | 是否必需 | 说明 |
|---|---|---|---|
text | string | 是 | 要合成的泰语文本 |
ref_text | string | 是 | ref_audio 的逐字文本(不是描述,是说话内容) |
ref_audio | file | 是 | WAV 或 MP3,8–12 秒的干净泰语单声道语音 |
speed | float | 否 | 0.8–1.2,默认 1.0 |
获得高质量克隆的小贴士
克隆质量取决于参考音频,花几分钟筛选样本非常值得:
- 录音要干净。 没有背景音乐、没有车流声、没有人声叠加
- 只用一个说话人。 不要包含其他人的咳嗽、"嗯"、口头禅
- 文本与音频完全一致。
ref_text必须逐字匹配ref_audio,不一致会导致韵律漂移和语速失真 - 保持在 8–12 秒区间。 太短捕获不到音色,超过 15 秒会被静默截断,使
ref_text末尾对不上 - 保持说话风格一致。 如果参考音频是平静的,但目标文本要喊出来,结果会不可预测
应用场景
个性化有声书
作者可以用自己的声音录制部分章节,然后克隆声音补充剩余章节,无需再次进入录音棚。
大规模品牌声音
品牌代言人录制 10 秒样本一次,即可生成无限的泰语营销视频、IVR 提示和产品演示,全部使用相同的声音。
声音保存
帮助声音功能逐渐丧失的患者 — 现在录制样本,未来仍能"说话"。
泰国市场本地化
将国际内容引入泰国受众,使用观众熟悉的同一位说话人。无需选角、无需录音棚日程。
无障碍与在线教育
用老师本人的声音生成教育内容音频,配以正确的泰语数字、日期、货币朗读。
价格
语音克隆在 Alpha 期间 2026 年 5 月 31 日前免费使用。之后将公布 GA 价格 — Alpha 用户会优先收到通知。
| Endpoint | Method | 费用(Alpha) |
|---|---|---|
/v3/store/audio/tts (默认 Kaitom 声音) | POST | |
/v3/store/audio/tts/clone (泰语语音克隆) | POST |
负责任地使用
语音克隆功能强大但容易被滥用,iApp Technology 要求用户:
- 获得说话人明确同意后再克隆其声音
- 披露合成音频 在涉及真实性的场景中(新闻、公开声明、客服身份验证)
- 不得冒充真实人物 进行欺诈、骚扰或散布虚假信息
违反上述要求即违反我们的服务条款,并可能违反泰国法律(PDPA、计算机犯罪法)。我们会记录所有克隆请求,并配合执法部门处理被举报的滥用行为。
Alpha 期间限制
- 仅支持泰语 — 英语和中文克隆在路线图上
- 克隆请求按服务器串行处理,高并发时可能排队
- 参考音频最长 15 秒(超出会被截断)
- 输出为原始 PCM,需在客户端添加 WAV header 才能播放
立即开始
- 尝试交互式演示 — 在浏览器中录制和克隆
- 阅读完整 API 文档 — 完整技术参考
- 获取 API Key — 立即开始构建
反馈
目前是 Alpha 阶段,您的反馈将影响 GA 版本。
- Discord: discord.gg/kYcpmdEcS2
- 邮箱: sale@iapp.co.th
- 电话: 086-322-5858
泰语语音克隆是 Kaitom Voice V3 的一部分,现已向所有 iApp API 用户开放,Alpha 期间免费使用。