Skip to main content

การประเมินผล ChindaLLM ผู้ช่วยแชทบอท AI ภาษาไทย

· One min read
Kobkrit Viriyayudhakorn
CEO @ iApp Technology

การประเมินนี้ตรวจสอบประสิทธิภาพของ ChindaLLM ผู้ช่วยแชทบอท AI ภาษาไทย ที่ออกแบบมาเพื่อให้คำตอบที่มีความแม่นยำสูงในเอกสารหลากหลายประเภท โดยใช้ OpenThaiGPT ซึ่งเป็นโมเดล LLM ภาษาไทยที่ทันสมัยที่สุดในปัจจุบัน ChindaLLM สามารถให้คำตอบได้ใน 10 ภาษา ซึ่งช่วยพัฒนาการสื่อสารภายในองค์กรและการบริการลูกค้าได้อย่างมีประสิทธิภาพ

1. บทนำเกี่ยวกับ ChindaLLM

การประเมินนี้ตรวจสอบประสิทธิภาพของ ChindaLLM ผู้ช่วยแชทบอท AI ภาษาไทย ซึ่งออกแบบมาเพื่อให้คำตอบที่มีความแม่นยำสูงในเอกสารหลากหลายประเภท โดยใช้ OpenThaiGPT ซึ่งเป็นโมเดล LLM ภาษาไทยที่ทันสมัยที่สุดในปัจจุบัน ChindaLLM สามารถให้คำตอบได้ใน 10 ภาษา ซึ่งช่วยพัฒนาการสื่อสารภายในองค์กรและการบริการลูกค้าได้อย่างมีประสิทธิภาพ
ฟีเจอร์หลักของระบบประกอบด้วย Retrieval-Augmented Generation (RAG) พร้อมระบบที่สามารถจัดการเอกสารหลายชุด การเชื่อมต่อผ่าน LINE, Messenger และเว็บไซต์ รวมถึงการใช้ฟังก์ชันเฉพาะและการเรียกใช้เครื่องมือโดยใช้ AI แบบ agent-based รองรับโมเดลและการปรับแต่งส่วนบุคคล ความสามารถในการค้นหาผ่านเว็บ รองรับหลายโหมดการทำงาน เช่น การแปลงข้อความเป็นเสียง การแปลงเสียงเป็นข้อความ และการสร้างภาพ
ระบบนี้ได้รับการประเมินโดยใช้ชุดข้อมูลสามชุด ได้แก่ TyDiQA, XQuAD และ iapp_wiki_qa_squad ซึ่งประกอบด้วยคำถาม-คำตอบที่สกัดจากภาษาไทยพร้อมกับบริบทจากตัวอย่าง 2,695 รายการ

การตั้งค่าการประเมินผล

การตั้งค่าของโมเดล

  • โมเดล: OpenThaiGPT1.5 7B
  • อุณหภูมิ: 0.2
    เราได้รวบรวมบริบทที่ไม่ซ้ำจากชุดข้อมูลและเก็บไว้ สำหรับแต่ละคำถาม ระบบจะดึงเอกสารที่เกี่ยวข้องมากที่สุดจำนวน k อันดับ และประเมินว่ามันตรงกับเอกสารที่ถูกต้องหรือไม่
    ใน P@k หากเอกสารในชุดที่ดึงมาตรงกับเอกสารที่ถูกต้อง มันจะได้รับคะแนน 1 ถ้าไม่ตรงจะได้คะแนน 0 จากนั้นคำนวณคะแนนเฉลี่ยสำหรับทุกคำถาม
    ใน MRR@k จะได้รับคะแนนตามอันดับของเอกสาร: คะแนน 1rank หากเอกสารในชุดที่ดึงมาตรงกับเอกสารที่ถูกต้อง และ 0 หากไม่ตรง คำนวณคะแนนเฉลี่ยจากทุกคำถาม จากนั้นใช้เอกสารที่ดึงมาและคำถามเพื่อสร้างคำตอบสำหรับการเปรียบเทียบ

ชุดข้อมูลการประเมินผล

TyDiQA (763 ตัวอย่าง): การตอบคำถามที่ครอบคลุม 11 ภาษา โดยมีคำถาม-คำตอบ 204,000 คู่ (รวมถึงภาษาไทย) ชุดข้อมูลนี้ใช้เพื่อหลีกเลี่ยงผลกระทบจากการแปลภาษา โดยคำถามจะถูกเขียนโดยมนุษย์และข้อมูลจะถูกรวบรวมโดยตรงในแต่ละภาษา
XQuAD (1,190 ตัวอย่าง): ชุดข้อมูลมาตรฐานสำหรับการประเมินผลการตอบคำถามข้ามภาษา ซึ่งประกอบด้วยคำถาม-คำตอบจากชุดข้อมูล SQuAD v1.1 ที่แปลเป็น 10 ภาษา
Iapp_wiki_qa_squad (742 ตัวอย่าง): ชุดข้อมูลการตอบคำถามที่สกัดจากบทความใน Wikipedia ภาษาไทย และดัดแปลงจากชุดข้อมูล iapp-wiki-qa-dataset เป็นรูปแบบ SQuAD

คีย์เมตริกส์

  • P@K (Precision at K): วัดประสิทธิภาพของระบบในการดึงเอกสารที่ตรงกับคำตอบจากชุดเอกสารที่มีอันดับ K
  • MRR@K (Mean Reciprocal Rank at K): วัดการดึงเอกสารที่ตรงกับคำตอบและพิจารณาคะแนนตามอันดับของเอกสารในชุด K

ผลลัพธ์การประเมิน

Precision@K

ชุดข้อมูลPrecision@1Precision@5Precision@10
TyDiQA0.89120.98790.9934
XQuAD0.90590.99160.9941
iapp_wiki_qa_squad0.92860.96630.9784

MRR@K

ชุดข้อมูลMRR@10
TyDiQA0.9343
XQuAD0.9439
iapp_wiki_qa_squad0.9446

สรุป

  • Precision@1 สูงสุดใน iapp_wiki_qa_squad (0.9286) → ระบบสามารถดึงเอกสารที่ตรงกับคำตอบได้ในอันดับแรกได้บ่อยครั้งในชุดข้อมูลนี้
  • Precision@5 และ Precision@10 ใกล้เคียงกับ 1.0 ในทุกชุดข้อมูล → หมายความว่าเอกสารที่ดึงมาใน 5 อันดับแรกและ 10 อันดับแรกมักจะมีเอกสารที่ตรงกับคำตอบ
  • ในชุด XQuAD, Precision@5 และ Precision@10 สูงสุด (0.9916 และ 0.9941) → แสดงให้เห็นว่าระบบดึงเอกสารที่เกี่ยวข้องได้อย่างแม่นยำในชุดข้อมูลนี้
  • MRR@10 สูงสุดใน iapp_wiki_qa_squad (0.9446) → เอกสารที่เกี่ยวข้องมักจะถูกดึงในอันดับที่ 1 - 2
  • XQuAD ตามมาด้วย MRR@10 (0.9439) → ซึ่งใกล้เคียงกับ iapp_wiki_qa_squad
  • TyDiQA มี MRR@10 ต่ำสุด (0.9343) → ถึงแม้ว่าจะต่ำสุดในทั้งสามชุดข้อมูล แต่มันยังคงสูงมาก โดยเอกสารที่เกี่ยวข้องมักจะปรากฏในอันดับ 1 - 2