泰语语音克隆上线 — 10秒克隆任何泰语声音

2026年4月28日 · 6 分钟阅读

CEO @ iApp Technology

泰语语音克隆 - Kaitom Voice V3

我们激动地宣布 泰语语音克隆 (Thai Voice Cloning) 正式上线，这是 Kaitom Voice V3 TTS API 中最新推出的能力。只需提供一段干净的泰语录音（8–12 秒）以及它的逐字文本，API 就能用同样的声音朗读你想要的任何泰语内容。

这是首个专为泰语打造的生产级语音克隆 API。

为什么泰语语音克隆很重要

通用语音克隆工具在英语领域已经存在很久了，但泰语一直被忽视 — 声调错误、尾辅音丢失、节奏机械、无法处理泰英混合。

Kaitom Voice V3 的克隆 endpoint 从一开始就用泰语训练，这意味着：

泰语声调 (ไม้เอก, โท, ตรี, จัตวา) 按照说话人保留正确
尾辅音 自然发音，不会被吞掉
数字、日期、货币 自动按泰语习惯朗读
泰英混合 内容在一个句子内自然处理

你得到的是真正像那个人的声音 — 而不是一个戴着他帽子的机器人。

工作原理

Thai Voice Cloning Pipeline by iApp Technology

参考音频捕获说话人的音色和韵律，V3 引擎将其应用到你提供的任何泰语文本上。

60 秒上手体验

最快的方式是浏览器内的演示 — 录制自己的声音，输入泰语文本，立即听到自己的声音说出新内容：

👉 打开交互式演示

API 快速开始

cURL

curl -X POST 'https://api.iapp.co.th/v3/store/audio/tts/clone' \
    --header 'apikey: YOUR_API_KEY' \
    --form 'text=สวัสดีครับ วันนี้ทดสอบการโคลนเสียงด้วย AI' \
    --form 'speed=1.0' \
    --form 'ref_text=ฮัลโหล สวัสดีครับ ผมชื่อไข่ต้ม' \
    --form 'ref_audio=@reference.wav' \
    --output 'output.pcm'

Python

import requests

url = "https://api.iapp.co.th/v3/store/audio/tts/clone"
headers = {"apikey": "YOUR_API_KEY"}

with open("reference.wav", "rb") as ref:
    files = {"ref_audio": ref}
    data = {
        "text": "สวัสดีครับ วันนี้ทดสอบการโคลนเสียงด้วย AI",
        "ref_text": "ฮัลโหล สวัสดีครับ ผมชื่อไข่ต้ม",
        "speed": "1.0",
    }
    r = requests.post(url, headers=headers, data=data, files=files)

with open("output.pcm", "wb") as f:
    f.write(r.content)

返回的是有符号 16 位小端 PCM、单声道、24 kHz 的原始字节流。在客户端添加 44 字节的 WAV header，或使用 ffmpeg 转换：

ffmpeg -f s16le -ar 24000 -ac 1 -i output.pcm output.wav

请求字段

字段	类型	是否必需	说明
`text`	string	是	要合成的泰语文本
`ref_text`	string	是	`ref_audio` 的逐字文本（不是描述，是说话内容）
`ref_audio`	file	是	WAV 或 MP3，8–12 秒的干净泰语单声道语音
`speed`	float	否	`0.8`–`1.2`，默认 `1.0`

获得高质量克隆的小贴士

克隆质量取决于参考音频，花几分钟筛选样本非常值得：

录音要干净。 没有背景音乐、没有车流声、没有人声叠加
只用一个说话人。 不要包含其他人的咳嗽、"嗯"、口头禅
文本与音频完全一致。 ref_text 必须逐字匹配 ref_audio，不一致会导致韵律漂移和语速失真
保持在 8–12 秒区间。 太短捕获不到音色，超过 15 秒会被静默截断，使 ref_text 末尾对不上
保持说话风格一致。 如果参考音频是平静的，但目标文本要喊出来，结果会不可预测

应用场景

个性化有声书

作者可以用自己的声音录制部分章节，然后克隆声音补充剩余章节，无需再次进入录音棚。

大规模品牌声音

品牌代言人录制 10 秒样本一次，即可生成无限的泰语营销视频、IVR 提示和产品演示，全部使用相同的声音。

声音保存

帮助声音功能逐渐丧失的患者 — 现在录制样本，未来仍能"说话"。

泰国市场本地化

将国际内容引入泰国受众，使用观众熟悉的同一位说话人。无需选角、无需录音棚日程。

无障碍与在线教育

用老师本人的声音生成教育内容音频，配以正确的泰语数字、日期、货币朗读。

价格

语音克隆价格为 1 IC / 400 字符。

Endpoint	Method	费用
`/v3/store/audio/tts` (默认 Kaitom 声音)	POST	1 IC / 400 字符
`/v3/store/audio/tts/clone` (泰语语音克隆)	POST	1 IC / 400 字符

负责任地使用

语音克隆功能强大但容易被滥用，iApp Technology 要求用户：

获得说话人明确同意后再克隆其声音
披露合成音频 在涉及真实性的场景中（新闻、公开声明、客服身份验证）
不得冒充真实人物 进行欺诈、骚扰或散布虚假信息

违反上述要求即违反我们的服务条款，并可能违反泰国法律（PDPA、计算机犯罪法）。我们会记录所有克隆请求，并配合执法部门处理被举报的滥用行为。

Alpha 期间限制

仅支持泰语 — 英语和中文克隆在路线图上
克隆请求按服务器串行处理，高并发时可能排队
参考音频最长 15 秒（超出会被截断）
输出为原始 PCM，需在客户端添加 WAV header 才能播放

立即开始

尝试交互式演示 — 在浏览器中录制和克隆
阅读完整 API 文档 — 完整技术参考
获取 API Key — 立即开始构建

反馈

目前是 Alpha 阶段，您的反馈将影响 GA 版本。

Discord: discord.gg/kYcpmdEcS2
邮箱: sale@iapp.co.th
电话: 086-322-5858

泰语语音克隆是 Kaitom Voice V3 的一部分，现已向所有 iApp API 用户开放。

泰语语音克隆上线 — 10秒克隆任何泰语声音

为什么泰语语音克隆很重要

工作原理

60 秒上手体验

API 快速开始

cURL

Python

请求字段

获得高质量克隆的小贴士

应用场景

个性化有声书

大规模品牌声音

声音保存

泰国市场本地化

无障碍与在线教育

价格

负责任地使用

Alpha 期间限制

立即开始

反馈

ChindaX

SpeechFlow

ChindaGO

为什么泰语语音克隆很重要​

工作原理​

60 秒上手体验​

API 快速开始​

cURL​

Python​

请求字段​

获得高质量克隆的小贴士​

应用场景​

个性化有声书​

大规模品牌声音​

声音保存​

泰国市场本地化​

无障碍与在线教育​

价格​

负责任地使用​

Alpha 期间限制​

立即开始​

反馈​

为什么泰语语音克隆很重要

工作原理

60 秒上手体验

API 快速开始

cURL

Python

请求字段

获得高质量克隆的小贴士

应用场景

个性化有声书

大规模品牌声音

声音保存

泰国市场本地化

无障碍与在线教育

价格

负责任地使用

Alpha 期间限制

立即开始

反馈