Pantip.com เปิดตัวฟีเจอร์ Auto-tag อย่างเป็นทางการ ต้อนรับขวบปีที่ 20 ของเว็บพันทิป โดย Auto-tag เป็นฟีเจอร์ที่จะวิเคราะห์เนื้อหาในกระทู้และแนะนำแท็กที่เหมาะสมให้โดยอัตโนมัติ โดยความร่วมมือของ Pantip, INOX และม.เกษตรศาสตร์
สถิติของเว็บพันทิปตอนนี้คนเข้าเว็บ 4.2 ล้านคน 16 ล้านเพจวิว 4-5 พันกระทู้ต่อวัน มีสมาชิก 3 ล้านบัญชี มีแท็กในระบบ 1 หมื่นแท็ก โดยพันทิปเริ่มใช้แท็กตั้งแต่ปี 2013 และแท็กยอดนิยมคือ ความรัก, ชีวิตวันรุ่น, หุ้น, การเมือง, แฟชั่น, ความงาม, สมาร์ทโฟน, โทรศัพท์มือถือ ซึ่งเมื่อแท็กเยอะคน ผู้ใช้มากขึ้นก็ทำให้เกิดปัญหาปวดหัวกับการตั้งแท็กของผู้ใช้
ข้อดีของระบบแท็กคือรวบรวมกระทู้ที่เป็นเรื่องเดียวกันมาอยู่ในที่เดียวกันได้ แต่ปัญหาตอนนี้คือผู้ใช้ที่ยังไม่เข้าใจระบบแท็ก ทำให้ติดแท็กมั่ว กระทู้ก็ไปอยู่ในกลุ่มที่ไม่ควรอยู่ ซึ่งทีมงานต้องปลดลงจากเว็บและแจ้งเจ้าของกระทู้ให้แก้ไข ซึ่งใช้แรงงานคนมาก
Pantip จึงปรึกษากับทาง INOX หรือบริษัท Innovative Extremist ที่ดูแลเซิร์ฟเวอร์พันทิปมาหลายปี ว่ามีแนวทางในการพัฒนาเทคโนโลยีเพื่อแก้ปัญหาเรื่องแท็กได้หรือไม่ INOX จึงคุยกับมหาวิทยาลัยเกษตรศาสตร์ถึงการวิจัยเรื่องการประมวลผลข้อมูลภาษาไทย จึงออกมาเป็นผลงาน Auto-tag ชุดนี้
INOX เป็นผู้เชี่ยวชาญเรื่องโครงสร้างพื้นฐาน ระบบประมวลผลขนาดใหญ่ รวมถึงการให้บริการ Video Streaming และ CDN ที่เว็บแบไต๋ใช้บริการอยู่ด้วย
งานวิจัยของม.เกษตรศาสตร์นั้นเป็นผลงานของ MIKE lab (Massive Informative & Knowledge Engineering Lab) แล็ปนี้จะทำงานเกี่ยวกับข้อมูลขนาดใหญ่ โดยความท้าทายของโปรเจกนี้คือ
- ข้อมูลเป็นภาษาไทยที่ซับซ้อนกว่าภาษาอังกฤษ
- เว็บพันทิปมีข้อมูลเยอะมาก แท็กเยอะ กระทู้เยอะ
- ต้องทำให้ระบบทำงานรวดเร็ว ไม่กวนระบบเดิม
MIKE lab จึงใช้ Big data และ Machine learning แก้ปัญหา นำกระทู้เก่าที่ทีมงานแปะแท็กถูกต้องแล้วมาให้ระบบเรียนรู้ โดยระบบจะสร้างโมเดลของแท็กขึ้นมาว่าแต่ละแท็กจะมีลักษณะอย่างไร ใช้คำอย่างไร เมื่อมีกระทู้ใหม่ ระบบจะถอดลักษณะกระทู้ใหม่ไปเทียบกับโมเดลแท็กที่เคยสร้าง แล้วคำนวณความน่าจะเป็นแท็กนั้นนี้ออกมาเป็นแท็กแนะนำ ซึ่งด้วยกระบวนการคิดแบบ Machine Learning นี้ ทำให้ระบบสามารถพัฒนาตัวเองไปได้เรื่อยๆ เมื่อมีเนื้อหาใหม่เข้ามา (แต่ในช่วงแรกเหตุการณ์ใหม่มาก อาจยังวิเคราะห์ไม่ถูกเพราะระบบยังเชื่อมโยงไม่ได้) นอกจากนี้ระบบยังสามารถแจ้งเตือนกระทู้ป่วนได้ด้วย ซึ่งการพัฒนานี้พันทิปไม่เสียค่าใช้จ่ายในการวิจัยเพราะถือว่าให้ข้อมูลจำนวนมากเพื่อให้ม. เกษตรศาสตร์ได้วิเคราะห์
Pantip.com จึงเป็นเว็บแรกในไทยที่มีระบบ Auto-tag ภาษาไทย ที่จะแนะนำแท็กที่เหมาะสมให้ผู้ใช้โดยอัตโนมัติ ซึ่งแก้ปัญหาบรรยากาศในห้องสนทนาและลดการใช้แรงงานคนไปได้มาก ส่วนในอนาคต INOX จะพัฒนาเทคโนโลยีให้สามารถใช้งานผ่าน cloud ได้ สำหรับเปิดให้ใช้กับเว็บอื่นๆ หรืออาจพัฒนาให้สามารถวิเคราะห์ถึงอารมณ์ในเนื้อหาต่างๆ ที่อยู่บนอินเทอร์เน็ตได้ ซึ่งมีประโยชน์กับแบรนด์ต่างๆ ในการรับรู้อารมณ์ของลูกค้า