Datasets

We believe in contributing to the AI research community by sharing high-quality datasets. Below you can find datasets we've created and made available for research purposes.

Available Datasets on Hugging Face 🤗

All our open datasets are available on Hugging Face 🤗

Evaluation & Benchmarking

OpenThaiEval

Size:1200 items

Comprehensive evaluation dataset for Thai language models covering various tasks and domains.

📊 Model evaluation and benchmarking

OpenAI HumanEval-TH

Size:164 items

Downloads:22+

Thai translation of OpenAI's HumanEval dataset for evaluating code generation capabilities in Thai context.

📊 Code generation evaluation

Mathematics & Reasoning

AIME 2024-TH

Size:30 items

Downloads:11+

Thai version of American Invitational Mathematics Examination (AIME) 2024 problems for testing mathematical reasoning.

📊 Mathematical problem-solving evaluation

Math-500-TH

Size:500 items

Downloads:21+

Collection of 500 mathematics problems in Thai for training and evaluating mathematical reasoning capabilities.

📊 Math problem-solving training and evaluation

AIMO Validation AIME-TH

Size:90 items

Downloads:22+

Validation set for AI Mathematical Olympiad problems in Thai.

📊 Advanced mathematical reasoning evaluation

Training Datasets

Thai-R1-Distill-SFT

Size:10,000 items

Downloads:23+

Supervised fine-tuning dataset distilled from reasoning models for Thai language.

📊 Fine-tuning language models with reasoning capabilities

Code Generation Lite-TH

Size:111 items

Downloads:29+

Lightweight dataset for training and evaluating code generation in Thai context.

📊 Code generation model training

Specialized Domains

⭐

Thai Handwriting Dataset

Size:13,600 items

Downloads:895+

Extensive collection of Thai handwritten text samples for OCR and handwriting recognition.

📊 Handwriting recognition, OCR training

Various writing styles
Diverse handwriting samples
Ground truth annotations

RAG Thai Laws

Size:42,800 items

Downloads:42+

Comprehensive collection of Thai legal documents optimized for Retrieval-Augmented Generation (RAG) systems.

📊 Legal AI systems, RAG applications

Legal texts and regulations
Pre-processed for RAG applications
Structured legal information

Dataset Guidelines

📋 Usage Terms

All datasets are provided for research purposes only
Commercial use requires explicit permission
Please cite our work when using these datasets
Respect privacy and ethical guidelines

📚 How to Cite

@dataset{iapp_datasets_2024,
  author = {iApp Technology Research Team},
  title = {Dataset Name},
  year = {2024},
  publisher = {iApp Technology},
  url = {https://iapp.co.th/researches/datasets}
}

🤝 Contribute

We welcome contributions to our datasets. If you have:

Corrections or improvements to existing datasets
New data to contribute
Suggestions for new datasets

Please contact our research team.

🚀 Upcoming Datasets

We're actively working on releasing more datasets:

Thai Legal Text Corpus
Thai Medical Terminology Dataset
Thai Sentiment Analysis Dataset
Multi-dialect Thai Speech Dataset

📄 License Information

Different datasets come with different licenses. Please review the license terms for each dataset before use.

For commercial licensing inquiries, please contact us.

We're committed to advancing AI research in Thailand through open collaboration and data sharing.