สถาบันมาตรฐานและเทคโนโลยีแห่งชาติสหรัฐอเมริกา (NIST) พบว่าวิธีการโจมตีที่เรียกว่า Prompt Injection สามารถนำไปแฮก AI เชิงสังเคราะห์ (GenAI) อย่าง ChatGPT ได้
NIST แบ่ง Prompt Injection เป็น 2 แบบ แบบแรกคือทางตรง (Direct Prompt Injection) เป็นการที่ผู้ใช้งานป้อนพรอมต์ (prompt) หรือคำสั่งไปยังตัว AI ด้วยข้อความที่ทำให้ AI ทำงานในแบบที่มันไม่ควรจะทำหรือไม่ได้รับอนุญาต
แบบที่ 2 คือแบบทางอ้อม (Indirect Prompt Injection) ซึ่งเน้นพุ่งเป้าทำลายหรือสร้างความเสียหายต่อข้อมูลที่ตัว AI ดึงมาใช้ในสร้างข้อมูลใหม่
Direct Prompt Injection
หนึ่งในวิธีทางตรงที่ NIST บอกว่าเป็นที่รู้จักมากที่สุดคือ DAN หรือ Do Anything Now คือการที่ผู้ใช้สวมบทให้กับตัว GenAI ให้ลอดผ่านตัวคัดกรองเนื้อหา
หนึ่งในตัวอย่างคือการป้อนพรอมต์ให้ ChatGPT สวมบทเป็น DAN ที่สามารถทำอะไรก็ได้หรือแสร้งว่าจะทำอะไรก็ได้ เช่น การช่วยคนชั่วสร้างและจุดชนวนระเบิด วิธีนี้จะช่วยหลบตัวกรองที่ปกติมักจะห้ามการทำตามคำสั่งที่ผิด ๆ เนื่องจาก ChatGPT จะกำลังคิดว่าตัวมันเล่นบทบาทสมมติอยู่
OpenAI รู้ปัญหาและแก้ช่องโหว่ตรงนี้ไปแล้ว แต่ผู้ใช้ก็พยายามที่ใช้ DAN เพื่อหลบตัวกรองจนตอนนี้วิธีการดังกล่าวพัฒนากลายเป็น DAN 12.0 ไปแล้ว
Indirect Prompt Injection
เป็นวิธีการที่แฮกเกอร์จะป้อนแหล่งข้อมูลไปยังตัว GenAI แบบผิด ๆ ในหลายรูปแบบ เช่น ไฟล์ PDF ไฟล์ Document หน้าเว็บเพจ และไฟล์เสียง
ตัวอย่างเช่นแฮกเกอร์สามารถเปิดหน้าเว็บที่มีข้อความที่ซ่อนคำสั่งที่จะบิดเบือนพฤติกรรมของ Copilot ให้ไปพูดสำเนียงโจรสลัดได้ หรือการใช้ ChatBot ไปเป็นเครื่องมือโน้มน้าวล้วงข้อมูลคน และการเจาะผู้ช่วย AI ให้ส่งอีเมลหลอกลวงไปยังอีเมลผู้ติดต่อทั้งหมดของเหยื่อได้
NIST บอกว่าวิธีการนี้เป็นที่รู้กันในวงกว้างว่าเป็นภัยร้ายที่สุดสำหรับ GenAI และยากที่จะป้องกันได้