跳到主要内容

📄 通用泰语文档 OCR

1 IC每页
✅ 活跃📄 OCR

欢迎使用泰语文档 OCR API(2.0 版本),这是由艾艾普科技有限公司开发的一款人工智能产品。我们的 API 可以自动将打印的泰语文档转换为可编辑的文本格式,并具有高准确性。该 API 支持图像(PNG、JPEG、JPG)、PDF 文件以及 Microsoft Office 文档(Word、Excel、PowerPoint),并可将其处理为三种不同的输出格式。

试用演示!

Example Images (Click to try)

Example 1Example 2

入门指南

  1. 先决条件

    • 艾艾普科技的 API 密钥
    • 泰语文档(图像、PDF 或 Office 文件)
    • 支持的格式:PNG、JPEG、JPG、PDF、DOC、DOCX、XLS、XLSX、PPT、PPTX
    • 最大文件大小:30MB
  2. 快速入门

    • 处理速度快
    • 文本提取准确率高
    • 多种输出格式可选
  3. 主要特点

    • 三种输出格式:
      • 可编辑文本 (.txt)
      • 结构化 JSON (.json)
      • Microsoft Word 文件 (.docx)
    • 自动识别文档组件
    • 支持泰语和英语文本
  4. 安全与合规

    • 符合 GDPR 和 PDPA 标准
    • URL 文件路径有效期仅为 10 分钟

API 端点

端点方法描述费用
/v3/store/ocr/document/ocr
旧版 :/document-ocr/ocr
POST通用泰语文档 OCR 为纯文本每页 1 IC
/v3/store/ocr/document/layout
旧版 :/document-ocr/layout
POST通用泰语文档 OCR 为带布局信息分析的布局 JSON每页 1 IC
/v3/store/ocr/document/docx
旧版 :/document-ocr/docx
POST通用泰语文档 OCR 并转换为 Microsoft Word (DOCX)每页 1 IC

功能与能力

核心功能

  • 从文档中提取文本
  • 文档结构分析
  • 多种输出格式
  • 支持泰语和英语文本
  • 支持 PDF 文件

支持的字段

  • 页面边界检测
  • 标题识别
  • 段落检测
  • 图像检测
  • 表格识别
  • 泰语字符识别
  • 英语字符识别
  • 特殊字符支持

示例

执行 OCR 并返回原始文本

  • 示例请求
curl --location 'https://api.iapp.co.th/v3/store/ocr/document/ocr' \
--header 'apikey: {YOUR API KEY}' \
--form 'file=@"{YOUR UPLOADED FILE}"'
  • 示例响应
{
"text": ["ด่วนที่สุด\nที่ มท ๐๔๐๒.๖ มั่นคงและชุมชนพึ่งตนเองได้\nภายในปี ๒๕๖๕ ..."],
"time": 1.1443967819213867,
"iapp": { "page": 0, "char": 1376 }
}

执行文档结构分析、OCR 并返回带边界框和原始文本的 JSON 格式

  • 示例请求
curl --location 'https://api.iapp.co.th/v3/store/ocr/document/layout' \
--header 'apikey: {YOUR API KEY}' \
--form 'file=@"{YOUR UPLOADED FILE}"'
  • 示例响应
{
"pages": [
{
"page": 1,
"components": [
{
"text": "ให้ไว้ ณ วันที่ 10 กุมภาพันธ์ 2554\n(นาย น ง ปานทอง\nอัยการผู้เชี่ยวชาญ สํานักงานอัยการภาค 5\nรักษาการในตาแหน่งอัยการจังหวัดเชียงใหม่",
"bb_left": 228.6162872314453,
"bb_top": 433.568115234375,
"bb_right": 436.36279296875,
"bb_bottom": 554.9218139648438,
"type": "Signature"
},
{
"text": "หนังสือรับรองฉบับนี้ออกให้เพื่อรับรองว่า ห้างหุ้นส่วนจำกัด เชียงใหม่แฮร์แคร์เอ็นจิเนียริ่ง ซึ่ง\nจดทะเบียนเป็นนิติบุคคล ณ สำนักงานทะเบียนหุ้นส่วนบริษัทจังหวัดเชียงใหม่ กรมพัฒนาธุรกิจการค้า\nกระทรวงพาณิชย์ มีสำนักงานใหญ่ ตั้งอยู่ เลขที่ 58/19 หมู่ที่ 4 ตำบลหนองหอย อำาเภอเมืองเชียงใหม่ จังหวัด\nเชียงใหม่ 50000 จ้างเหมาครุภัณฑ์สำนักงานเครื่องปรับอากาศพร้อมติดตั้ง ทั้งนี้",
"bb_left": 120.08554077148438,
"bb_top": 194.70896911621094,
"bb_right": 560.1184692382812,
"bb_bottom": 271.0887756347656,
"type": "Para1"
},
{
"text": "FUSION รุ่น FUC24Ff124 (ฉลากเบอร์ 5) แบบฟอกอากาศ จํานวน 3 เครื่อง พร้อมติดตั้ง\nรายละเอียดตาม สัญญาเลขที่ 1/2554 ลงวันที่ 13 มกราคม พ.ศ. 2554 จํานวนเงินตามสัญญารวมทั้ง\nสามรายการ เป็นเงินทั้งสิ้น 512,255 บาท (ห้าแสนหนึ่งหมื่นสองพันสองร้อยห้าสิบห้าบาทถ้วน) ซึ่งผู้จ้างได้",
"bb_left": 109.7691650390625,
"bb_top": 353.8553161621094,
"bb_right": 551.1951293945312,
"bb_bottom": 418.5770568847656,
"type": "Para1"
},
{ "text": "", "bb_left": 281.7373046875, "bb_top": 47.54597854614258, "bb_right": 348.1979675292969, "bb_bottom": 117.07936096191406, "type": "Logo" },
{
"text": "FISION รุ่น FIC MARUDT1 (ฉลากเบอร์ 5) แบบฟอกอากาศ จํานวน 11 เครื่อง พร้อมติดตั้ง\n3. เครื่องปรับอากาศแบบแยกส่วน ชนิดตั้งพื้นหรือชนิดแขวน ขนาด 25,182.95 ยู ยี่ห้อ",
"bb_left": 107.63800048828125,
"bb_top": 313.69549560546875,
"bb_right": 527.8297119140625,
"bb_bottom": 355.0850524902344,
"type": "Para1"
},
{
"text": "FUSION รุ่น FUCK1201128 (ฉลากเบอร์ 5) แบบฟอกอากาศ จํานวน 11 เครื่อง พร้อมติดตั้ง\n2. เครื่องปรับอากาศแบบแยกส่วน ชนิดตั้งพื้นหรือชนิดแขวน ขนาด 18,087.01 บีทียู ยี่ห้อ",
"bb_left": 108.46659088134766,
"bb_top": 279.6349182128906,
"bb_right": 536.12890625,
"bb_bottom": 322.54345703125,
"type": "Para1"
},
{
"text": "สํานักงานอัยการจังหวัดเชียงใหม่\nคน ราชการจังหวัดเชียงใหม่\nถ.โชตนา ชม 50300",
"bb_left": 374.2991638183594,
"bb_top": 95.19263458251953,
"bb_right": 509.24542236328125,
"bb_bottom": 156.33181762695312,
"type": "UpperRight"
},
{ "text": "หนังสือรับรองผลงาน", "bb_left": 282.33282470703125, "bb_top": 165.2444610595703, "bb_right": 374.5608215332031, "bb_bottom": 184.74752807617188, "type": "Date" },
{
"text": "1. เครื่องปรับอากาศแบบแยกส่วน ชนิดตั้งพื้นหรือชนิดแขวน ขนาด 13,942.80 บีทียู ยี่หัอ\nFUSION 1UCk120112 (ฉลากเบอร์ 5) แบบฟอกอากาศ จํานวน 11 เครื่อง พร้อมติดตั้ง",
"bb_left": 114.9815902709961,
"bb_top": 269.22735595703125,
"bb_right": 521.8577270507812,
"bb_bottom": 306.366943359375,
"type": "Para1"
},
{ "text": "ที่ ทส (ชม) 0037/435", "bb_left": 122.62628936767578, "bb_top": 98.11686706542969, "bb_right": 224.76698303222656, "bb_bottom": 116.89942932128906, "type": "NextPage" },
{
"text": "FLE\n2. เครื่องปรับอากาศแบบแยกส่วน ชนิดตั้งพื้นหรือชนิดแขวน ขนาด 18,087.01 บีทียู ยี่ห้อ\nFIISION รุ่น FIC MARUIDT1 (ฉลากเบอร์ 5) แบบฟอกอากาศ จํานวน 11 เอง พร้อมติดตั้ง",
"bb_left": 108.22515106201172,
"bb_top": 293.6889953613281,
"bb_right": 529.6473388671875,
"bb_bottom": 338.7919616699219,
"type": "Para1"
},
{
"text": "เชียงใหม่ 50000 จ้างเหมาครุ ณ สานักงานเครื่องปรับอากาศพร้อมสด ง.\n1. เครื่องปรับอากาศแบบแยกส่วน ชนิดตั้งพื้นหรือชนิดแขวน ขนาด 13,942.80 บีทียู ยี่ห้อ",
"bb_left": 112.15975189208984,
"bb_top": 255.9883575439453,
"bb_right": 546.0884399414062,
"bb_bottom": 290.6558532714844,
"type": "Para1"
}
]
}
],
"time": 4.234404563903809,
"iapp": { "page": 1, "char": 1673 }
}

执行文档结构分析、OCR 并返回转换后的 Microsoft Word (.docx) 文件的 URL 路径。

  • 示例请求
curl --location 'https://api.iapp.co.th/v3/store/ocr/document/docx' \
--header 'apikey: {YOUR API KEY}' \
--form 'file=@"{YOUR UPLOADED FILE}"'
  • 示例响应
{
"path": "https://storage.googleapis.com/iapp-ocr-docx/document_trial2-250114-074403.docx?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=ai-ocr%40iapp-ai-357013.iam.gserviceaccount.com%2F20250114%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20250114T074407Z&X-Goog-Expires=600&X-Goog-SignedHeaders=host&X-Goog-Signature=425b62bc36eec0cc5c0ca7442f863ae960f7a41302f8da5c312b7392011cbfe6119b4814bade146fac81da427a231142cce5d67a56c35e242437cf5a7990bc48290c403052af23eb2293da55e5249cdb803bb4c18a5b15d6262caa4b773487417dd3ed62fe47a75e42d7aa5e631e08efa1320c589042b0e244c7ba0c10ec236303f6b92d1546d49f3f1b1f4aca7ceb9715036470b6bd6caf6aecb862eef180d213f8787e65dc5f97decf0b05add6ce28499a5b76ef31112884442affc3b79dde8531a014e90352a9e73ffdc1f118e2d082294509fb41c26e3f4d55c2854c73e3142298ef75d40ee95dbe63c4c2ec4de4a170c9c746986f7d248f99f0ef9a12f9",
"time": 1.728440761566162,
"iapp": { "pages": 1, "char": 1229 }
}

API 参考

端点

端点方法URL描述内容类型
文本提取POSThttps://api.iapp.co.th/v3/store/ocr/document/ocr返回原始文本输出multipart/form-data
布局分析POSThttps://api.iapp.co.th/v3/store/ocr/document/layout返回带有边界框和文本的 JSONmultipart/form-data
DOCX 转换POSThttps://api.iapp.co.th/v3/store/ocr/document/docx返回 .docx 文件下载 URLmultipart/form-data

所需参数

参数是否必需描述
apikey您的 API 密钥
file文档图像/PDF 文件

代码示例

Python

import requests

url = "https://api.iapp.co.th/v3/store/ocr/document/ocr"

payload = {}
files=[
('file',('{YOUR UPLOADED FILE}',open('{YOUR UPLOADED FILE}','rb'),'application/pdf'))
]
headers = {
'apikey': '{YOUR API KEY}'
}

response = requests.request("POST", url, headers=headers, data=payload, files=files)

print(response.text)

JavaScript

const axios = require("axios")
const FormData = require("form-data")
const fs = require("fs")
let data = new FormData()
data.append("file", fs.createReadStream("{YOUR UPLOADED FILE}"))

let config = {
method: "post",
maxBodyLength: Infinity,
url: "https://api.iapp.co.th/v3/store/ocr/document/ocr",
headers: {
apikey: "{YOUR API KEY}",
...data.getHeaders(),
},
data: data,
}

axios
.request(config)
.then((response) => {
console.log(JSON.stringify(response.data))
})
.catch((error) => {
console.log(error)
})

PHP

<?php

$curl = curl_init();

curl_setopt_array($curl, array(
CURLOPT_URL => 'https://api.iapp.co.th/v3/store/ocr/document/ocr',
CURLOPT_RETURNTRANSFER => true,
CURLOPT_ENCODING => '',
CURLOPT_MAXREDIRS => 10,
CURLOPT_TIMEOUT => 0,
CURLOPT_FOLLOWLOCATION => true,
CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
CURLOPT_CUSTOMREQUEST => 'POST',
CURLOPT_POSTFIELDS => array('file'=> new CURLFILE('{YOUR UPLOADED FILE}')),
CURLOPT_HTTPHEADER => array(
'apikey: {YOUR API KEY}'
),
));

$response = curl_exec($curl);

curl_close($curl);
echo $response;

Swift

let parameters = [
[
"key": "file",
"src": "{YOUR UPLOADED FILE}",
"type": "file"
]] as [[String: Any]]

let boundary = "Boundary-\(UUID().uuidString)"
var body = Data()
var error: Error? = nil
for param in parameters {
if param["disabled"] != nil { continue }
let paramName = param["key"]!
body += Data("--\(boundary)\r\n".utf8)
body += Data("Content-Disposition:form-data; name=\"\(paramName)\"".utf8)
if param["contentType"] != nil {
body += Data("\r\nContent-Type: \(param["contentType"] as! String)".utf8)
}
let paramType = param["type"] as! String
if paramType == "text" {
let paramValue = param["value"] as! String
body += Data("\r\n\r\n\(paramValue)\r\n".utf8)
} else {
let paramSrc = param["src"] as! String
let fileURL = URL(fileURLWithPath: paramSrc)
if let fileContent = try? Data(contentsOf: fileURL) {
body += Data("; filename=\"\(paramSrc)\"\r\n".utf8)
body += Data("Content-Type: \"content-type header\"\r\n".utf8)
body += Data("\r\n".utf8)
body += fileContent
body += Data("\r\n".utf8)
}
}
}
body += Data("--\(boundary)--\r\n".utf8);
let postData = body


var request = URLRequest(url: URL(string: "https://api.iapp.co.th/v3/store/ocr/document/ocr")!,timeoutInterval: Double.infinity)
request.addValue("{YOUR API KEY}", forHTTPHeaderField: "apikey")
request.addValue("multipart/form-data; boundary=\(boundary)", forHTTPHeaderField: "Content-Type")

request.httpMethod = "POST"
request.httpBody = postData

let task = URLSession.shared.dataTask(with: request) { data, response, error in
guard let data = data else {
print(String(describing: error))
return
}
print(String(data: data, encoding: .utf8)!)
}

task.resume()

Kotlin

val client = OkHttpClient()
val mediaType = "text/plain".toMediaType()
val body = MultipartBody.Builder().setType(MultipartBody.FORM)
.addFormDataPart("file","{YOUR UPLOADED FILE}",
File("{YOUR UPLOADED FILE}").asRequestBody("application/octet-stream".toMediaType()))
.build()
val request = Request.Builder()
.url("https://api.iapp.co.th/v3/store/ocr/document/ocr")
.post(body)
.addHeader("apikey", "{YOUR API KEY}")
.build()
val response = client.newCall(request).execute()

Java

OkHttpClient client = new OkHttpClient().newBuilder()
.build();
MediaType mediaType = MediaType.parse("text/plain");
RequestBody body = new MultipartBody.Builder().setType(MultipartBody.FORM)
.addFormDataPart("file","{YOUR UPLOADED FILE}",
RequestBody.create(MediaType.parse("application/octet-stream"),
new File("{YOUR UPLOADED FILE}")))
.build();
Request request = new Request.Builder()
.url("https://api.iapp.co.th/v3/store/ocr/document/ocr")
.post(body)
.addHeader("apikey", "{YOUR API KEY}")
.build();
Response response = client.newCall(request).execute();

Dart

var headers = {
'apikey': '{YOUR API KEY}'
};
var request = http.MultipartRequest('POST', Uri.parse('https://api.iapp.co.th/v3/store/ocr/document/ocr'));
request.files.add(await http.MultipartFile.fromPath('file', '{YOUR UPLOADED FILE}'));
request.headers.addAll(headers);

http.StreamedResponse response = await request.send();

if (response.statusCode == 200) {
print(await response.stream.bytesToString());
}
else {
print(response.reasonPhrase);
}

准确性和性能

  • 文档组件分析准确率:96.97% AP 分数
  • OCR 准确率(词级别)
    • 英语准确率 ~98%
    • 泰语准确率 ~96%

代码示例

Curl

curl -X POST https://api.iapp.co.th/v3/store/ocr/document \
-H "apikey: YOUR_API_KEY" \
-F "file=@/path/to/document.pdf"

Python

import requests

url = "https://api.iapp.co.th/v3/store/ocr/document/ocr"
files = {"file": ("("/path/to/document.pdf", "rb"))}
headers = {"apikey": "YOUR_API_KEY"}

response = requests.post(url, headers=headers, files=files)
print(response.json())

JavaScript

const axios = require("axios");
const FormData = require("form-data");
const fs = require("fs");

let data = new FormData();
data.append("file", fs.createReadStream("/path/to/document.pdf"));

let config = {
method: "post",
url: "https://api.iapp.co.th/v3/store/ocr/document/ocr",
headers: {
apikey: "YOUR_API_KEY",
...data.getHeaders(),
},
data: data,
};

axios(config)
.then((response) => console.log(response.data))
.catch((error) => console.log(error));

PHP

<?php
$curl = curl_init();

curl_setopt_array($curl, array(
CURLOPT_URL => 'https://api.iapp.co.th/v3/store/ocr/document/ocr',
CURLOPT_RETURNTRANSFER => true,
CURLOPT_POST => true,
CURLOPT_POSTFIELDS => array(
'file'=> new CURLFILE('/path/to/document.pdf')
),
CURLOPT_HTTPHEADER => array(
'apikey: YOUR_API_KEY'
),
));

$response = curl_exec($curl);
curl_close($curl);
echo $response;
?>

Swift

import Foundation

let url = URL(string: "https://api.iapp.co.th/v3/store/ocr/document/ocr")!
var request = URLRequest(url: url)
request.httpMethod = "POST"
request.addValue("YOUR_API_KEY", forHTTPHeaderField: "apikey")

let boundary = "Boundary-\(UUID().uuidString)"
request.setValue("multipart/form-data; boundary=\(boundary)", forHTTPHeaderField: "Content-Type")

var body = Data()
body.append("--\(boundary)\r\n".data(using: .utf8)!)
body.append("Content-Disposition: form-data; name=\"file\"; filename=\"file.jpg\"\r\n".data(using: .utf8)!)
body.append("Content-Type: image/jpeg\r\n\r\n".data(using: .utf8)!)

if let fileData = try? Data(contentsOf: URL(fileURLWithPath: "/path/to/document.pdf")) {
body.append(fileData)
}
body.append("\r\n--\(boundary)--\r\n".data(using: .utf8)!)

request.httpBody = body

let task = URLSession.shared.dataTask(with: request) { data, response, error in
if let data = data {
print(String(data: data, encoding: .utf8)!)
}
}
task.resume()

Kotlin

import okhttp3.*
import okhttp3.MediaType.Companion.toMediaTypeOrNull
import okhttp3.RequestBody.Companion.asRequestBody
import java.io.File

val client = OkHttpClient()

val file = File("/path/to/document.pdf")
val requestBody = MultipartBody.Builder().setType(MultipartBody.FORM)
.addFormDataPart("file", file.name, file.asRequestBody("image/jpeg".toMediaTypeOrNull()))
.build()

val request = Request.Builder()
.url("https://api.iapp.co.th/v3/store/ocr/document/ocr")
.post(requestBody)
.addHeader("apikey", "YOUR_API_KEY")
.build()

client.newCall(request).execute().use { response ->
println(response.body?.string())
}

Java

import okhttp3.*;
import java.io.File;

OkHttpClient client = new OkHttpClient();

File file = new File("/path/to/document.pdf");

RequestBody requestBody = new MultipartBody.Builder()
.setType(MultipartBody.FORM)
.addFormDataPart("file", file.getName(),
RequestBody.create(MediaType.parse("image/jpeg"), file))
.build();

Request request = new Request.Builder()
.url("https://api.iapp.co.th/v3/store/ocr/document/ocr")
.addHeader("apikey", "YOUR_API_KEY")
.post(requestBody)
.build();

try (Response response = client.newCall(request).execute()) {
System.out.println(response.body().string());
}

Dart

import 'package:http/http.dart' as http;

var request = http.MultipartRequest(
'POST',
Uri.parse('https://api.iapp.co.th/v3/store/ocr/document/ocr')
);

request.files.add(await http.MultipartFile.fromPath(
'file',
'/path/to/document.pdf'
));

request.headers.addAll({
'apikey': 'YOUR_API_KEY'
});

var response = await request.send();
var responseBody = await response.stream.bytesToString();
print(responseBody);

定价

AI API 服务名称端点定价本地部署
文档 OCR/v3/store/ocr/document/ocr1 IC/页联系我们
带布局结构 JSON 的文档 OCR/v3/store/ocr/document/layout1 IC/页联系我们
文档 OCR 转换为 Microsoft Word (DOCX)/v3/store/ocr/document/docx1 IC/页联系我们