chinese-speech-to-text-base
import Text2TextDemo from '@site/src/components/Text2TextBox';
import DemoNlpCommonResult from '@site/src/components/DemoResult/nlp'
# 🇨🇳 การแปลงเสียงพูดภาษาจีนเป็นข้อความ (ASR) พื้นฐาน 🆕
🆕 ระบบแปลงเสียงพูดภาษาไทยเป็นข้อความ


<img src="/img/api/iApp-ASR-Base-Model.png" alt="iApp Text to Speech API" width="400"/>
## ทดลองใช้งาน
<Text2TextDemo
endpointUrl="https://api.iapp.co.th/v1/audio/stt/zh/transcriptions"
exampleFile="/audio/john-china.wav"
firstinputTitle="เลือกขนาดชิ้นส่วนของคุณ"
firsttextInput="7"
keyendpoint="asr"
submitTitle="ประมวลผล"
customDemoResultView={(result,question,apiType,isSafari) => DemoNlpCommonResult(result,question,apiType,isSafari)}
/>
## เริ่มต้นใช้งาน
### ข้อกำหนดเบื้องต้น
- API key จาก ไอแอพพ์เทคโนโลยี
- ไฟล์เสียงในรูปแบบที่รองรับ
- ความยาวไฟล์สูงสุด: ไม่เกิน 10 ชั่วโมง
### คุณสมบัติหลัก
- การดึงข้อความจากไฟล์เสียง
- การแยกเสียงพูดสำหรับการสนทนาหลายคน
- รองรับรูปแบบไฟล์เสียงต่างๆ
- การถอดเสียงที่มีคุณภาพสูงพร้อมกับการแสดงเวลา
### ความปลอดภัยและการปฏิบัติตามกฎระเบียบ
- การตรวจสอบความถูกต้องด้วย API key
- เป็นไปตาม GDPR และ PDPA
## การใช้งาน API
### รูปแบบไฟล์ที่รองรับ
API รองรับรูปแบบไฟล์เสียงและวิดีโอต่อไปนี้:
- เสียง: `.mp3`, `.wav`, `.m4a`, `.aac`, `.aif`, `.cda`, `.flac`, `.mid`, `.ogg`, `.wma`
**Endpoint**: `POST /v1/audio/stt/zh/transcriptions`
**Header**:
- `Content-Type`: multipart/form-data
- `apikey`: API key ของคุณสำหรับการตรวจสอบความถูกต้อง
**พารามิเตอร์แบบฟอร์ม**:
| พารามิเตอร์ | ชนิด | จำเป็นต้องใช้ | ค่าเริ่มต้น | คำอธิบาย |
| ------------ | ------- | -------- | -------- | ------------------------------------------- |
| `file` | ไฟล์ | ใช่ | - | ไฟล์เสียงที่จะถอดเสียง |
| `prompt` | ข้อความ | ไม่ใช่ | `"base"` | เทมเพลตพรอมต์ที่จะใช้ |
| `chunk_size` | จำนวนเต็ม | ไม่ใช่ | `20` | ขนาดเป็นวินาทีสำหรับการประมวลผลชิ้นส่วนเสียง |
**ตัวอย่างคำขอ**:
```bash
curl -X POST "http://api.iapp.co.th/v1/audio/stt/zh/transcriptions" \
-H "Content-Type: multipart/form-data" \
-F "file=@/path/to/your/audio.mp3" \
-F "prompt=base" \
-F "chunk_size=20"
ตัวอย่างการตอบสนอง:
{
"output": [
{
"text": "ข้อความที่ถอดเสียงจากส่วนที่หนึ่ง",
"start": 0.0,
"end": 5.28,
"speaker": "SPEAKER_00",
"segment": 0
},
{
"text": "ข้อความที่ถอดเสียงจากส่วนที่สอง",
"start": 5.28,
"end": 10.56,
"speaker": "SPEAKER_01",
"segment": 1
}
],
"audio_duration_in_seconds": 60.5,
"uploaded_file_name": "example.mp3",
"processing_time_in_seconds": 12.34,
"use_asr_pro": false,
"asr_pro_is_used": false,
"iapp": {
"seconds": 60.5
}
}
รหัสสถานะการตอบสนอง
200 OK
: คำขอสำเร็จ400 Bad Request
: คำขอไม่ถูกต้อง (เช่น ไม่มีไฟล์อัปโหลด รูปแบบไฟล์ไม่รองรับ)404 Not Found
: ไม่พบ ID งาน500 Internal Server Error
: การประมวลผลล้มเหลว ข้อผิดพลาดของเซิร์ฟเวอร์
หม ายเหตุ
- รองรับการแยกเสียงพูด โดยส่วนต่างๆ จะมีทั้ง ID ผู้พูดและข้อมูลเวลา
ตัวอย่างโค้ด
ตัวอย่าง Python
import requests
def transcribe_audio(file_path, api_key):
url = "http://api.iapp.co.th/v1/audio/stt/zh/transcriptions"
headers = {"apikey": api_key}
files = {"file": open(file_path, "rb")}
data = {
"prompt": "base",
"chunk_size": 20
}
response = requests.post(url, headers=headers, files=files, data=data)
if response.status_code == 200:
return response.json()
else:
return f"Error: {response.status_code}, {response.text}"