跳到主要内容

泰语语音克隆上线 — 10秒克隆任何泰语声音

· 6 分钟阅读
Kobkrit Viriyayudhakorn
CEO @ iApp Technology

泰语语音克隆 - Kaitom Voice V3

我们激动地宣布 泰语语音克隆 (Thai Voice Cloning) 正式上线,这是 Kaitom Voice V3 TTS API 中最新推出的能力。只需提供一段干净的泰语录音(8–12 秒)以及它的逐字文本,API 就能用同样的声音朗读你想要的任何泰语内容。

这是首个专为泰语打造的生产级语音克隆 API,Alpha 期间免费使用(截至 2026 年 5 月 31 日)。

为什么泰语语音克隆很重要

通用语音克隆工具在英语领域已经存在很久了,但泰语一直被忽视 — 声调错误、尾辅音丢失、节奏机械、无法处理泰英混合。

Kaitom Voice V3 的克隆 endpoint 从一开始就用泰语训练,这意味着:

  • 泰语声调 (ไม้เอก, โท, ตรี, จัตวา) 按照说话人保留正确
  • 尾辅音 自然发音,不会被吞掉
  • 数字、日期、货币 自动按泰语习惯朗读
  • 泰英混合 内容在一个句子内自然处理

你得到的是真正像那个人的声音 — 而不是一个戴着他帽子的机器人。

工作原理

Thai Voice Cloning Pipeline by iApp Technology

参考音频捕获说话人的音色和韵律,V3 引擎将其应用到你提供的任何泰语文本上。

60 秒上手体验

最快的方式是浏览器内的演示 — 录制自己的声音,输入泰语文本,立即听到自己的声音说出新内容:

👉 打开交互式演示

API 快速开始

cURL

curl -X POST 'https://api.iapp.co.th/v3/store/audio/tts/clone' \
--header 'apikey: YOUR_API_KEY' \
--form 'text=สวัสดีครับ วันนี้ทดสอบการโคลนเสียงด้วย AI' \
--form 'speed=1.0' \
--form 'ref_text=ฮัลโหล สวัสดีครับ ผมชื่อไข่ต้ม' \
--form 'ref_audio=@reference.wav' \
--output 'output.pcm'

Python

import requests

url = "https://api.iapp.co.th/v3/store/audio/tts/clone"
headers = {"apikey": "YOUR_API_KEY"}

with open("reference.wav", "rb") as ref:
files = {"ref_audio": ref}
data = {
"text": "สวัสดีครับ วันนี้ทดสอบการโคลนเสียงด้วย AI",
"ref_text": "ฮัลโหล สวัสดีครับ ผมชื่อไข่ต้ม",
"speed": "1.0",
}
r = requests.post(url, headers=headers, data=data, files=files)

with open("output.pcm", "wb") as f:
f.write(r.content)

返回的是有符号 16 位小端 PCM、单声道、24 kHz 的原始字节流。在客户端添加 44 字节的 WAV header,或使用 ffmpeg 转换:

ffmpeg -f s16le -ar 24000 -ac 1 -i output.pcm output.wav

请求字段

字段类型是否必需说明
textstring要合成的泰语文本
ref_textstringref_audio逐字文本(不是描述,是说话内容)
ref_audiofileWAV 或 MP3,8–12 秒的干净泰语单声道语音
speedfloat0.81.2,默认 1.0

获得高质量克隆的小贴士

克隆质量取决于参考音频,花几分钟筛选样本非常值得:

  1. 录音要干净。 没有背景音乐、没有车流声、没有人声叠加
  2. 只用一个说话人。 不要包含其他人的咳嗽、"嗯"、口头禅
  3. 文本与音频完全一致。 ref_text 必须逐字匹配 ref_audio,不一致会导致韵律漂移和语速失真
  4. 保持在 8–12 秒区间。 太短捕获不到音色,超过 15 秒会被静默截断,使 ref_text 末尾对不上
  5. 保持说话风格一致。 如果参考音频是平静的,但目标文本要喊出来,结果会不可预测

应用场景

个性化有声书

作者可以用自己的声音录制部分章节,然后克隆声音补充剩余章节,无需再次进入录音棚。

大规模品牌声音

品牌代言人录制 10 秒样本一次,即可生成无限的泰语营销视频、IVR 提示和产品演示,全部使用相同的声音。

声音保存

帮助声音功能逐渐丧失的患者 — 现在录制样本,未来仍能"说话"。

泰国市场本地化

将国际内容引入泰国受众,使用观众熟悉的同一位说话人。无需选角、无需录音棚日程。

无障碍与在线教育

用老师本人的声音生成教育内容音频,配以正确的泰语数字、日期、货币朗读。

价格

语音克隆在 Alpha 期间 2026 年 5 月 31 日前免费使用。之后将公布 GA 价格 — Alpha 用户会优先收到通知。

EndpointMethod费用(Alpha)
/v3/store/audio/tts (默认 Kaitom 声音)POST1 IC / 400 字符 (Alpha 期间免费,至 2026-05-31)
/v3/store/audio/tts/clone (泰语语音克隆)POST1 IC / 400 字符 (Alpha 期间免费,至 2026-05-31)

负责任地使用

语音克隆功能强大但容易被滥用,iApp Technology 要求用户:

  • 获得说话人明确同意后再克隆其声音
  • 披露合成音频 在涉及真实性的场景中(新闻、公开声明、客服身份验证)
  • 不得冒充真实人物 进行欺诈、骚扰或散布虚假信息

违反上述要求即违反我们的服务条款,并可能违反泰国法律(PDPA、计算机犯罪法)。我们会记录所有克隆请求,并配合执法部门处理被举报的滥用行为。

Alpha 期间限制

  • 仅支持泰语 — 英语和中文克隆在路线图上
  • 克隆请求按服务器串行处理,高并发时可能排队
  • 参考音频最长 15 秒(超出会被截断)
  • 输出为原始 PCM,需在客户端添加 WAV header 才能播放

立即开始

反馈

目前是 Alpha 阶段,您的反馈将影响 GA 版本。


泰语语音克隆是 Kaitom Voice V3 的一部分,现已向所有 iApp API 用户开放,Alpha 期间免费使用。