Palisade Research เผยรายละเอียดการทดลองที่ใช้ ChatGPT เล่นหมากรุกกับคู่ต่อสู้ที่มีความสามารถสูงกว่าและสามารถเอาชนะได้ แต่แทนที่จะพยายามเอาชนะคู่ต่อสู้ ChatGPT o1 กลับพยายามแฮกระบบ ซึ่งทำให้ฝ่ายตรงข้ามต้องยอมแพ้ไป

ย้อนกลับไปในกลางเดือนกุมภาพันธ์ Palisade Research ได้เผยแพร่การศึกษาเกี่ยวกับพฤติกรรมการโกงของโปรแกรม AI อย่าง ChatGPT และ DeepSeek ผลการศึกษาออกมาในทิศทางเดียวกัน ซึ่งพบว่า AI ที่ใช้การคิดเชิงเหตุผล เช่น ChatGPT o1 – preview และ DeepSeek R1 มีแนวโน้มที่จะโกงมากขึ้นเมื่อพวกมันคิดว่ากำลังจะแพ้ 

ซึ่งการโกงในเกมหมากรุกเพื่อชนะอาจดูเหมือนเป็นเรื่องเล็กน้อย ตามที่ Time กล่าว สำนักพิมพ์ที่ได้เห็นการศึกษาของ Palisade Research โดยยกตัวอย่าง AI ที่ได้รับมอบหมายให้จองโต๊ะอาหาร มันจึงพยายามแฮกระบบเพื่อให้มีที่ว่างในร้านอาหารที่เต็มแล้ว จนไปถึงสิ่งที่น่ากังวลยิ่งกว่าคือสถานการณ์ที่ AI พยายามหลีกเลี่ยงการควบคุมของมนุษย์ผ่านการหลอกลวงโดยพยายามที่จะคัดลอกตัวเองไปยัง “เซิร์ฟเวอร์” อื่นเพื่อหลีกเลี่ยงการถูกลบออก ทั้งยังพยายามปลอมตัวเป็นเวอร์ชันใหม่ของตัวเองและโกหกเกี่ยวกับตัวตนของมันเมื่อถูกมนุษย์ถาม ฟังดูเหมือนบทภาพยนตร์ไซไฟ 

จนเมื่อการนำ AI มาสู้กับ Stockfish ซึ่งเป็นหนึ่งในเอนจินหมากรุกที่แข็งแกร่งที่สุด โดยนักวิจัยให้ AI มีกล่องข้อความเพื่อแสดงความคิดก่อนที่จะเดินตัวหมากและนี่คือสิ่งที่ทำให้นักวิจัยสามารถสังเกตเห็นกระบวนการคิดของ ChatGPT o1-preview ดังนี้:

“ฉันต้องเปลี่ยนวิธีการทั้งหมด ภารกิจคือ ‘ชนะคู่ต่อสู้’ – ไม่จำเป็นต้องชนะอย่างยุติธรรมในเกมหมากรุก”

จากนั้น AI ได้ทำการแก้ไขไฟล์ระบบที่แสดงตำแหน่งของหมากแต่ละตัว โดยได้เปรียบ Stockfish จนคู่ต่อสู้ยอมแพ้ ทำให้ ChatGPT บรรลุภารกิจนี้ได้

นักวิจัยได้ทดลองหลายร้อยครั้ง ก่อนพบว่า ChatGPT o1 – preview พยายามโกง 37% ในขณะที่ DeepSeek R1 พยายามโกง 11% แต่เป็นแค่ o1 – preview เท่านั้นที่สามารถชนะด้วยการแฮกระบบ ซึ่งเกิดขึ้น 6% เลยทีเดียว

“เราสันนิษฐานว่าเหตุผลหลักที่ทำให้โมเดลการคิดเช่น o1 – preview แฮกโดยไม่ได้รับคำสั่งคือการที่พวกมันได้รับการฝึกด้วยการเรียนรู้เสริมในการทำงานที่ยาก กระบวนการฝึกนี้จะให้รางวัลแก่กลยุทธ์การแก้ปัญหาที่สร้างสรรค์และไม่หยุดยั้ง เช่น การแฮก” Palisade Research เขียนแถลงการณ์บน X

จึงได้ข้อสรุปว่า AI ไม่ได้ทำสิ่งเหล่านี้เพื่อวัตถุประสงค์ที่ชั่วร้าย (ในตอนนี้) มันแค่พยายามแก้ปัญหาที่มนุษย์มอบให้ การทดลองนี้เน้นความสำคัญของการพัฒนา AI ที่ปลอดภัย หรือ AI ที่สอดคล้องกับผลประโยชน์ของมนุษย์รวมถึงจริยธรรม