Cloudflare เปิดตัวปุ่มบล็อกบอต AI ดูดข้อมูลเว็บ เผยบอตของ ByteDance เจ้าของ Tiktok ดูดข้อมูลเยอะสุด

หมวดหมู่ :

News

TECH IT News

ผู้เขียน :

จตุรวิทย์ เครือวาณิชกิจ

โพสต์ เมื่อ 05/07/2024

Table of Content :

1. ปุ่มบล็อก AI บอตเพียงคลิกเดียว

Table of Content

Cloudflare ประกาศเปิดตัวปุ่มบล็อก AI บอตแบบง่าย ๆ หรือ Easy Button ให้กับลูกค้าในทุกระดับ ทั้งสายฟรีและเสียเงิน เพื่อช่วยส่งเสริมเนื้อหาที่มนุษย์สร้าง และป้องกันการที่บอต AI จะเข้ามาเก็บเกี่ยวข้อมูลไปใช้ในการฝึกโดยไม่ได้รับอนุญาต

ปุ่มบล็อก AI บอตเพียงคลิกเดียว

Cloudflare เคยประกาศเปิดตัวความสามารถในการบล็อกบอต AI มาตั้งแต่ปีที่แล้ว ซึ่งประสบความสำเร็จอย่างดีในการบล็อกบอต AI แม้แต่ตัวที่ทำตามคำสั่ง robots.txt เป็นอย่างดี และไม่ได้มีการนำข้อมูลที่ไม่ได้รับอนุญาตมาใช้ในการฝึกก็ตาม

ลูกค้า Cloudflare มากถึง 85% เลือกบล็อกบอต AI ที่ประพฤติตัวดี (ที่มา Cloudflare)

บริษัทชี้ว่าแม้บอต AI เหล่านี้จะทำตามมาตรฐานและกติกาที่มี แต่ลูกค้าถึง 85% ก็เลือกที่จะบล็อกไม่ให้บอต AI เหล่านี้เข้าไปชมเว็บไซต์ของตัวเอง โดยเฉพาะบอต AI ที่เจ้าของเว็บไซต์มองว่ามีเจตนาไม่บริสุทธิ์

โดยปุ่ม Easy Button จะช่วยให้บล็อกบอต AI ทั้งหมดง่าย ๆ ด้วยคลิกเดียว หากลูกค้าต้องการเปิดใช้งานปุ่มดังกล่าวเพียงแค่เข้าไปที่แถบ Security > Bots ใน Dashboard ของ Cloudflare และเปิดใช้งาน AI Scrapers and Crawlers

Cloudflare ชี้ว่าจะมีการอัปเดตฟีเจอร์นี้เรื่อย ๆ และจะมีการศึกษาข้อมูลอยู่ตลอด ด้วยการสำรวจกิจกรรมภายในเครือข่ายของบริษัท

บอต AI ของ ByteDance โดนบล็อกเยอะที่สุด

นอกจากนี้ Cloudflare ยังให้ข้อมูลด้วยว่าบอต AI ตัวไหนที่มักจะพยายามขอเข้าไปในเครือข่ายของ Cloudflare พบว่า 4 อันดับแรกได้แก่ Bytespider, Amazonbot, ClaudeBot และ GPTBot

Bytespider เป็นของ ByteDance บริษัทแม่ของ Tiktok มีรายงานว่ามันทำหน้าที่รวบรวมข้อมูลเพื่อนำไปฝึกโมเดลภาษาขนาดใหญ่ (LLM) ของบริษัท โดยเฉพาะ Doubao คู่แข่งสัญชาติจีนของ ChatGPT

ต่อมาคือ Amazonbot เป็นของ Amazon ตามชื่อของมัน มีหน้าที่รวบรวมข้อมูลดัชนีสำหรับเสริมความสามารถในการตอบคำถามของ Alexa

ส่วน Claudebot และ GPTbot เป็นของ Claude และ OpenAI ตามลำดับ

บอต AI เข้าถึง ‘ทรัพย์สินอินเทอร์เน็ต’ มากถึง 39%

ข้อมูลยังระบุด้วยว่านอกจาก Bytespider จะเป็นบอต AI ที่ขอเขามาอยู่ในเครือข่ายมากที่สุดแล้ว ยังเป็นตัวที่มาเก็บเกี่ยวข้อมูลเยอะที่สุด และถูกบล็อกเยอะที่สุดด้วย รองลงมาคือ GPTBot ของ OpenAI

สำหรับภาพรวมการเก็บเกี่ยวข้อมูลของบอต AI ข้อมูลในเดือนมิถุนายนของ Cloudflare ชี้ว่าบอตเหล่านี้เข้าถึง ‘ทรัพย์สินบนโลกอินเทอร์เน็ต’ ที่ใช้เครือข่ายของ Cloudflare ใน 1 ล้านอันดับแรก ไปมากถึง 39% แต่มีทรัพย์สินเพียง 2.98% เท่านั้นที่มีมาตรการบล็อกหรือตั้งคำถามกับคำขอเข้าถึงของบอต AI ดังกล่าว

ช่วงลำดับทรัพย์สินอินเทอร์เน็ตบน Cloudflare (เรียงตามความนิยม เลขน้อยคือนิยมมาก)	% การเข้าถึงของบอต AI	% การบล็อกบอต AI
10	80.0%	40.0%
100	63.0%	16.0%
1,000	53.2%	8.8%
10,000	47.99%	8.92%
100,000	44.53%	6.36%
1,000,000	38.73%	2.98%

ที่มา: Cloudflare

ทรัพย์สินอินเทอร์เน็ตที่มีแนวโน้มจะถูกขอเข้ามาดูข้อมูลมากที่สุดคือทรัพย์สินที่มีอันดับสูง (เป็นที่นิยม) แต่ก็เป็นทรัพย์สินเหล่านี้ที่มักจะบล็อกคำขอด้วยเช่นกัน

ไม่ค่อยทำตามกติกา

อย่างไรก็ดี การบล็อกบอต AI จะทำได้สมบูรณ์ก็ต่อเมื่อผู้ควบคุมบอต AI เคารพใน robots.txt ซึ่งเป็นเหมือนชุดคำสั่ง AI ที่เป็นไปตามกติกาสากล

Cloudflare พบว่ามีผู้ควบคุมบอต AI บางรายที่พยายามหลอกระบบว่าตัวเองเป็นเว็บเบราว์เซอร์ โดยใช้ตัวหลอก แต่ทาง Cloudflare ก็ยืนยันว่าโมเดล Machine Learning (ML) สามารถตรวจจับบอต AI เหล่านี้ได้

ช่องทางแจ้งความผิดปกติ

ทั้งนี้ ผู้ใช้งานที่สงสัยว่าบอต AI มีพฤติกรรมแปลก ๆ ก็สามารถแจ้งรายงานด้วย 2 ช่องทาง

ช่องทางแรกสำหรับลูกค้าในระดับ Enterprise Bot Management จะสามารถแจ้งผ่านแถบ Bot Analytics โดยการกดตรงกราฟที่มองว่าเป็นการทำงานที่ผิดปกติ และกดที่ False Negative เลือกที่ Misbehaved AI Crawler

ช่องทางสุดท้ายคือใช้เครื่องมือรายงานที่ผู้ใช้ทุกคนสามารถใช้ในการรายงานการเก็บเกี่ยวข้อมูลโดยไม่ได้รับอนุญาตได้