NVIDIA เปิดตัวโมเดลรุ่นล่าสุดที่สามารถแปลงข้อความเป็นวิดีโอความละเอียดสูงได้

ทีมวิจัย NVIDIA ได้เปิดตัวโมเดลรุ่นใหม่ล่าสุดที่มีความสามารถในการแปลงชุดข้อความเป็นวิดีโอความละเอียดสูงที่มีชื่อว่า Latent Diffusion Model (LDM)

Latent Diffusion Model เป็นโมเดลรูปแบบการจำลองกระจายรูปแบบใหม่ที่ช่วยให้ผู้ใช้สามารถป้อนชุดข้อความ และให้โมเดลสร้างวิดีโอตามข้อความที่มีความยาว 113 เฟรมบนความละเอียด 1280 X 2048 พิกเซล และแสดงผล 24 เฟรมได้

เบื้องหลังการทำงานของโมเดลตัวนี้คือ เมื่อทำการทดลองโมเดล LDM สำหรับการสร้างวิดีโอจะใช้ทรัพยากรของเครื่องที่สูง ต่อมานักวิจัยก็ได้ปรับใช้โมเดลนี้ในพื้นที่แฝงที่มีมิติต่ำ และสามารถสร้างรูปภาพความละเอียดสูงได้ พร้อมกับใช้ทรัพยากรของเครื่องที่น้อยลง หลังจากนั้นก็ได้ปรับปรุงให้โมเดลตัวนี้ใช้สำหรับงานสร้างวิดีโอความละเอียดสูงได้เช่นกัน

Text prompt: “A teddy bear is playing the electric guitar, high definition, 4k.”

อนาคตของการผลิตวิดีโอ และภาพยนตร์คงเป็นเรื่องที่ง่ายมาก ๆ อย่างไม่น่าเชื่อ เมื่อเทคโนโลยี AI ในตอนนี้มันก้าวหน้าอย่างว่องไว ลองนึกภาพจินตนาการดูสิว่า เพียงแค่พิมพ์คำบรรยายของฉากในแต่ละฉาก และให้ AI สร้างวิดีโอ หรือภาพยนตร์ออกมา นี่คงไม่ใช่เรื่องไกลเกินความเป็นจริง และอาจจะเข้ามาปฏิวัติวงการสร้างวิดีโอแบบเดิม ๆ ก็เป็นไปได้

ที่มา : NVIDIA Research

พิสูจน์อักษร : สุชยา เกษจำรัส