เมื่อช่วงบ่ายที่ผ่านมา (24 กรกฎาคม) CrowdStrike บริษัทผู้ให้บริการซอฟต์แวร์ด้านความปลอดภัยไซเบอร์ได้ออกประกาศ Post Incident Review (PIR) เพื่อชี้แจงเหตุการณ์ที่ตัวอัปเดตของ Falcon Sensor ทำระบบปฏิบัติการ Windows ล่มทั่วโลก และแนวทางแก้ไข ผ่านเว็บไซต์ทางการของบริษัท

เกิดอะไรขึ้น

ในคำชี้แจง บริษัทอธิบายถึงเหตุการที่เกิดขึ้นว่าได้มีการปล่อยตัวอัปเดต ในประเภทที่เรียกว่า Rapid Response Content สำหรับตัว Falcon Sensor ซอฟต์แวร์แอนตี้ไวรัสที่ใช้ใน Windows เพื่อรวบรวมข้อมูลเกี่ยวกับเทคนิคการโจมตีไซเบอร์ในรูปแบบใหม่ ๆ

แต่ตัวอัปเดตดังกล่าวกลับมีปัญหาที่ซ่อนอยู่ ซึ่งสร้างความเสียหายให้กับ Windows ที่ใช้ Falcon Sensor ในเวอร์ชัน 7.11 ขึ้นไปที่เปิดใช้งานระหว่างวันที่ 19 กรกฎาคม เวลา 04.09 UTC (11.09 เวลาประเทศไทย) จนถึง 05.27 UTC (12.27 ตามเวลาไทย) และได้รับตัวอัปเดตดังกล่าว แต่ตัวอัปเดตได้รับการถอนออกไปในเวลา 05.27 UTC ของวันเดียวกัน ทำให้อุปกรณ์ Windows ที่เปิดใช้งานหลังจากช่วงเวลานี้ หรือไม่ได้ออนไลน์อยู่ในช่วงที่เกิดปัญหา ไม่ได้รับผลกระทบแต่อย่างใด

อะไรคือ Rapid Response Content

Rapid Response Content เป็นรูปแบบตัวอัปเดตเพื่อปรับแต่งเนื้อหา (Content Configuration) ของ Falcon Sensor ที่ได้รับการออกแบบมาเพื่อตอบสนองต่อสภาพภัยคุกคามที่เปลี่ยนแปลงไปอย่างทันท่วงที ตัวมันมีหน้าที่ในการค้นหาข้อมูลและเทียบเคียงพฤติกรรมของภัยคุกคามไซเบอร์ในรูปแบบต่าง ๆ เพื่อนำมาเสริมความสามารถในการตรวจจับและป้องกันภัยดังกล่าว

โดยหลักแล้วระบบการอัปเดตข้อมูลของแพลตฟอร์ม Falcon บนคลาวด์ประกอบด้วย 3 ระบบหลัก ได้แก่ ระบบการปรับแต่งเนื้อหา (Content Configuration System) ตัวอ่านค่าเนื้อหา (Content Interpreter) และเอนจินตรวจจับเซนเซอร์ (Sensor Detection Engine)

ตัว Content Configuration System มีหน้าที่สร้าง Template Instances ที่ได้รับการออกแบบขึ้นมาให้กำกับพฤติกรรมเฉพาะตัวของภัยคุกคามในแต่ละประเภท ภายใน Content Configuration System จะมีระบบที่เรียกว่า Content Validation ที่จะทำหน้าที่ตรวจสอบความถูกต้องของ Template Instances ที่ถูกสร้างขึ้นมา ก่อนจะปล่อยสู่ภายนอก โดยตัว Rapid Response Content เจ้าปัญหาก็ถูกปล่อยออกมาในฐานะ Template Instances ตัวหนึ่ง

Template Instances ที่ถูกสร้างขึ้นยังได้รับการตรวจสอบความถูกต้องและปล่อยเข้าสู่ Sensor Detection Engine ผ่านกลไกที่เรียกว่า Channel File ซึ่งเป็นช่องทางในการเก็บและอัปเดตข้อมูลการปรับแต่งเนื้อหาลงบนดิสก์ของโฮสต์

อย่างไรก็ดี ในวันเกิดเหตุ ระบบ Content Validator มีบั๊กที่ทำให้ไม่สามารถตรวจพบความบกพร่องใน Templates Instances ประเภท Inter-Process Communication (IPC) ที่ถูกปล่อย 2 ตัวในวันเดียวกันได้ เมื่อ Template Instance ตัวดังกล่าวถูกส่งผ่าน Sensor Detection Engine และโหลดเข้าไปใน Content Interpreter แล้ว เนื้อหาที่บกพร่องที่อยู่ใน Channel File 291 ทำให้เกิดปัญหาที่เกี่ยวกับการอ่านหน่วยความจำ นำไปสู่เหตุจอฟ้าใน Windows

แนวทางแก้ปัญหา

CrowdStrike ออกมาเผยแนวทางแก้ปัญหาของการปล่อยตัวอัปเดตของบริษัท ด้วยการยกระดับการตรวจสอบตัวอัปเดตประเภท Rapid Response Content เพิ่มมากขึ้น เพิ่มสิ่งที่ต้องตรวจสอบความถูกต้องเพิ่มเติมให้กับ Content Validator ไม่ให้ปล่อยเนื้อหาที่มีปัญหาไปยังลูกค้าอีกในอนาคต และเสริมความสามารถในการแก้ปัญหาที่มีอยู่ของ Content Interpreter

นอกจากนี้ ยังมีการนำกลยุทธ์ในการปล่อยเนื้อหา เพิ่มการตรวจสอบประสิทธิภาพของตัวเซนเซอร์และการทำงานของระบบ เก็บข้อมูลผลลัพธ์การปล่อยตัว Rapid Response Content ในช่วงการทยอยปล่อยตัว ให้ลูกค้ามีอิสระในการเลือกรับตัวอัปเดต Rapid Response Content มากขึ้น ว่าจะรับเวลาใดและส่วนไหนของระบบบ้าง และจะมีการบอกรายละเอียดของตัวอัปเดตผ่านสื่อรูปแบบต่าง ๆ ที่ลูกค้าสามารถสมัครเลือกรับได้

CrowdStrike ยังบอกด้วยว่าจะปล่อย Root Cause Analysis ซึ่งเป็นผลการวิเคราะห์ต้นกำเนิดของปัญหาหลังจากที่การตรวจสอบเสร็จสิ้นลงแล้ว