เมื่อไม่นานมานี้ The New York Times ได้รายงานละเอียดเกี่ยวกับการโดนแฮ็กของ OpenAI หลังจาก ลีโอโพลด์ แอสเชนเบรนเนอร์ (Leopold Aschenbrenner) อดีตพนักงานของ OpenAI ออกมาเปิดเผยผ่านพอดแคสต์เกี่ยวกับ “เหตุการณ์ด้านความปลอดภัยที่สำคัญ” หรือการโดนแฮ็กของ OpenAI แต่สำนักข่าว Times อ้างแหล่งข่าวของบริษัทว่าแฮ็กเกอร์สามารถเจาะเข้าไปถึงแค่ฟอรั่มหรือเว็บบอร์ดการสนทนาของพนักงานเท่านั้น ดูผิวเผินแม้จะดูเล็กน้อย แต่ก็บ่งบอกได้ว่าบริษัท AI เป็นเป้าหมายที่มีค่าสำหรับแฮ็กเกอร์ เพราะเป็นผู้ดูแลข้อมูลที่มีค่าจำนวนมหาศาล
OpenAI และบริษัท AI อื่น ๆ จะมีข้อมูลที่สร้างขึ้นหรือมีสิทธิ์ในการเข้าถึงอยู่ 3 ประเภท ได้แก่ ข้อมูลการฝึกโมเดลคุณภาพสูง การพูดคุยโต้ตอบกับผู้ใช้ และข้อมูลของลูกค้า ถ้าพูดถึงข้อมูลสำหรับการฝึกโมเดลคงไม่มีใครรู้ว่าบริษัทเอามาจากไหน เนื่องจากบริษัทต่าง ๆ ล้วนปิดเป็นความลับ ทั้งนี้คาดว่าเป็นข้อมูลดิบขนาดใหญ่ที่ดูดมาจากเว็บต่าง ๆ และต้องใช้แรงคนจำนวนมากมาช่วยคัดเลือก แต่มีบางส่วนที่ดึงมาได้อัตโนมัติ
วิศกรด้านแมชชีนเลิร์นนิงให้ความเห็นว่า ถ้าไปดูดข้อมูลจาก Twitter และ Reddit มาฝึกโมเดล ก็ไม่มีทางที่เอไอจะพูดได้ไพเราะและฉลาดเท่ากับการฝึกโมเดลด้วยผลงานตีพิมพ์มากมายในช่วงศตวรรษที่ผ่านมา ซึ่งประเด็นนี้มีผู้เขียนนวนิยายได้ฟ้องร้อง OpenAI, Google และ Meta ที่คัดลอกผลงานที่มีลิขสิทธิ์ไปฝึกเอไอ และ OpenAI ได้ออกมาแย้งว่าบริษัทมีสิทธิ์ใช้เนื้อหาเหล่านี้ตามกฎหมายลิขสิทธิ์ “เพื่อส่งเสริมความก้าวหน้าทางวิทยาศาสตร์และศิลปะที่มีประโยชน์” และต่อมาเผยว่าได้ลบชุดข้อมูลขนาดใหญ่ที่มีหนังสือที่ตีพิมพ์มากกว่า 100,000 เล่มออกไปแล้ว สรุปง่าย ๆ ว่ากว่าจะได้ดาต้าเซ็ตสำหรับฝึกเอไอไม่ใช่เรื่องง่าย ๆ มันมีค่ามาก ๆ
ข้อมูลต่อไปก็คือ คลังข้อมูลที่จัดเก็บการสนทนาโต้ตอบระหว่างผู้ใช้กับ ChatGPT นับพันล้านครั้งในหลายแสนหัวข้อ ซึ่งเป็นข้อมูลที่มีค่าช่วยให้บริษัทสามารถติดตามและวิเคราะห์เชิงลึกเกี่ยวกับผู้ใช้ได้ มีความคล้ายกับคีย์เวิร์ดที่ค้นหาใน Google ซึ่งสามารถวิเคราะห์เทรนด์ของผู้ใช้ได้ ทั้งนี้ข้อมูลสนทนากับ ChatGPT จะมีสเกลที่เล็กกว่า แต่มีการพูดคุยลงรายละเอียดที่ลึกกว่า และสามารถถูกนำไปฝึกต่อยอดความฉลาดให้แก่โมเดลได้อีก เว้นแต่ผู้ใช้ไม่อนุญาต
ข้อมูลประเภทสุดท้าย อาจมีมูลค่าสูงสุด เพราะผู้ใช้และบางบริษัท ได้ตั้งค่าให้ระบบของเอไอสามารถเข้าถึงฐานข้อมูลของบริษัท หรือได้มีการอัพโหลดไฟล์ขึ้นไปให้เอไอวิเคราะห์ข้อมูล เช่น เอกสารงบประมาณ บันทึกบุคลากร และข้อมูลสำคัญอื่น ๆ ซึ่งข้อมูลเหล่านี้เป็นความลับของธุรกิจและอุตสาหกรรม แม้จะบอกว่าระบบมีความปลอดภัย แต่ OpenAI ก็ไม่ได้รายงานข้อเท็จจริงเกี่ยวกับการโดนแฮ็ก