สรุป Google I/O 2024 ส่องภาพ AI อีกปี จะพัฒนาแค่ไหน เปิดตัว Veo Text to Video, Project Astra และ Gemini 1.5 Flash

ผ่านไปแล้วเมื่อคืนกับงาน Google I/O 2024 งานเปิดตัวโปรดักต์ใหม่ ๆ ในเชิงซอฟต์แวร์โดยนักพัฒนา Google ซึ่งมีการเปิดตัวของใหม่ และอัปเดตของเก่าเยอะแยะไปหมด และที่น่าสนใจมากอย่าง Project Astra และ Veo วันนี้จะมาเล่าแบบ Wrap Up ให้ฟัง

Gemini 1.5 Flash

Google เปิดตัว AI ตัวแรงรุ่นใหม่ ใช้ชื่อว่า Gemini 1.5 Flash ซึ่งถูกปรับปรุงเพื่อใช้งานได้หลากหลายด้าน และงานที่ต้องใช้ Latency ต่ำ ทำให้การตอบสนองของ Gemini 1.5 Flash นั้นรวดเร็วกว่าเดิมขึ้นไปอีก และยังมีการปรับปรุงในเรื่องของทักษะการแปลภาษา การเข้าใจเหตุและผล รวมไปถึงการโคดดิง และที่โหดที่สุดคงเป็นการปรับ Input Windows ให้เป็นสองเท่า จาก 1 ล้าน Tokens เป็น 2 ล้าน Tokens ซึ่งในเชิงการพัฒนาแล้ว ยิ่ง Input ที่รับได้เยอะ ก็แปลว่าโมเดลจะเก่งมากขึ้นแบบทวีคูณ

Gemini 1.5 Flash เป็นการ optimize ระบบให้เล็กลง เหมาะกับการใช้งานในหลาย ๆ ด้านที่ไม่ซับซ้อนมากยิ่งขึ้น

พร้อมยังเตรียมอัปเดตให้ Gemini เข้าไปเป็นผู้ช่วยในเครื่องมือต่าง ๆ ของ Google Workspace อย่าง Docs, Sheets, Slides, Drive, และ Gmail (ซึ่งแน่นอนว่าต้องใช้ตัวเสียเงินอย่าง Gemini Advance) ท้ายสุดปิดด้วยการอัปเดตให้ Gemini สามารถตอบคำถามจาก Google Photo ได้แล้ว กล่าวก็คือเราสามารถถามคำถามที่ต้องไปหาคำตอบจากคลังรูปภาพ และเจ้าตัว Gemini จะไปวิ่งผ่านภาพทุกภาพเพื่อหาคำตอบมาให้เรานั่นเอง

Gemini Live: คู่หูทำงานเรียลไทม์

ด้วยเนื่องจาก Google อยากให้ Gemini สามารถพูดคุยกับมนุษย์ได้ลื่นไหล เป็นธรรมชาติเหมือนมนุษย์มากขึ้น เลยเกิดการพัฒนา Gemini Live ซึ่งตัว Live จะถูกปรับปรุงให้เริ่มมีนิสัยมากขึ้น และสามารถขัดจังหวะการพูดคุยได้ รวมถึงเปิดให้ดูข้อมูลในสมาร์ตโฟนได้มากขึ้น และตอบคำถามแบบเรียลไทม์ ซึ่งเดี๋ยวจะมีอัปเดตให้อ่านข้อมูลจาก Google Calendar, Tasks, และ Keep สำหรับใช้ในการวางแผน และตอบคำถามเราได้ด้วย

ซึ่งดูแล้วคล้าย ๆ GPT-4o ที่ OpenAI เปิดตัวตัดหน้าไปไม่กี่ชั่วโมงอยู่นะ

Veo: Text to Video

ในที่สุดก็ถึงตาที่ Google จะเปิดตัว AI แบบ Text to Video ของตัวเองกันแล้วอย่าง Veo ที่เป็นคู่แข่งตัวสำคัญของ Sora ของ OpenAI เลยทีเดียว ตัวโมเดลมีเป้าหมายในการ Generate ภาพเคลื่อนไหวที่ 1080p เป็นหลัก โดยเหมือนกันกับ Imagen คือรับ Input เป็น Text Prompt และ Generated ออกมาเป็นวิดีโอ ซึ่ง ณ ตอนนี้ยังไม่มีกำหนดว่าจะเปิดให้บริการเมื่อไหร่ แต่มีการหยิบให้เหล่า Influencer ใน YouTube ใช้กันบ้างแล้ว ก็ต้องคอยติดตามกันต่อ

โดยยังมีการอัปเดต SynthID หรือการทำลายน้ำแบบเข้ารหัสในเนื้อหาเลย ใส่เพิ่มให้กับ Veo ด้วย หรือก็แปลว่าในอนาคตที่ Veo เปิดให้ใช้โดยทั่วกัน เราจะสามารถแยกวิดีโอที่ใช้ AI สร้างขึ้นมาได้อย่างง่ายได้

Project Astra: AI รับภาพ-เสียงมาตอบเรา

หนึ่งในอีกโปรดักต์ที่น่าตื่นเต้นเมื่อค่ำคืนที่ผ่านมาก็คือ Project Astra หรือ Multimodal AI Assistant ที่สามารถรับ Input อย่างฟีดจากกล้องแบบ Real Time และเสียงจากเรา และข้อมูลที่มีอยู่ในเครื่องอีก สามารถทำให้เราใช้เครื่องสมาร์ตโฟนในการส่องดูภาพความเป็นจริง พร้อมกับถามคำถามได้หมดทุกอย่าง ตั้งแต่การมองหาสิ่งของ ไปจนถึงการถามเรื่องโคดดิง

ซึ่งในตอนจบของคลิป Demo จะเห็นว่า Google โชว์อุปกรณ์ใหม่ที่มีลักษณะคล้ายกับ Google Glasses รุ่นใหม่ ซึ่งก็มีการนำเอา Project Astra และ Google Deepmind เข้าไปใช้ร่วมกัน เห็นแล้วนึกถึงแว่น EDITH ของ Tony Stark ใน Spider Man เลย

Imagen 3

Imagen เป็น AI แบบ Text to Image ของ Google ซึ่งในรุ่นใหม่รุ่นที่ 3 ที่มีการปรับปรุงหลักในการรับ Input และวิเคราะห์ก่อนนำมาใช้งานได้ดีขึ้นกว่าเดิม ก็แปลว่าเจ้า Imagen 3 จะสามารถรับคำสั่งที่มีรายละเอียดได้มากขึ้น เข้าใจได้มากขึ้นนั่นเอง ทำให้ผลลัพท์ที่ออกมามีรายละเอียดที่มากขึ้นด้วย

Music AI Sandbox

Google บอกว่ากำลังพัฒนา Music AI Sandbox กับศิลปินชื่อดังอย่าง Wyclef Jean และ Bjorn เพื่อทดสอบผลลัทธ์ให้เห็นว่า AI จะมาเป็นเครื่องมือให้เหล่านักแต่งเพลงทำงานได้รวดเร็วมากขึ้น

Circle To Search

อีกหนึ่งอัปเดตใหญ่ของ Google Circle to Search ที่พึ่งเปิดตัวไปไม่นาน ซึ่งในอัปเดตใหม่จะสามารถ “ช่วยแก้ปัญหาโจทย์เลขได้” ซึ่งตัว Circle To Search จะแตกย่อยสเต็ปในการแก้โจทย์ให้ แต่ไม่ได้ output ออกมาเป็นคำตอบในทันที และอีกหนึ่งอัปเดตคือ AI Overviews เปลี่ยนชื่อจาก Search Generative Experience ซึ่งเป็นฟีเจอร์ของการสรุปย่อยรวมคำตอบจากหน้าเว็บที่เราวงนั่นเอง ก็ถูกปรับปรุงรูปแบบการแสดงผลใหม่

ยังมีรายละเอียดอัปเดตจากที่เราคัดเรื่องเด่น ๆ มา ใครสนใจสามารถรับชมฉบับเต็มได้ที่นี่ แต่ถ้าใครดูเต็ม ๆ จะเห็นว่า Android แทบจะหายไปจากงานนี้เลย ปกติ Google I/O จะเป็นงานประกาศ Android รุ่นใหม่ ๆ แต่ปีนี้มีสไลด์เดียวว่า Android 15 Beta 2 มาพรุ่งนี้ ที่เหลือโดน AI แย่งซีนไปหมดแล้ว

ยุคสมัยของ AI เริ่มต้นแล้ว

สรุป Google I/O 2024 ส่องภาพ AI อีกปี จะพัฒนาแค่ไหน เปิดตัว Veo Text to Video, Project Astra และ Gemini 1.5 Flash

Table of Content

Gemini 1.5 Flash

Gemini Live: คู่หูทำงานเรียลไทม์

Veo: Text to Video

Project Astra: AI รับภาพ-เสียงมาตอบเรา

Imagen 3

Music AI Sandbox

Circle To Search

DOOGEE เปิดตัว U11 Pro : แท็บเล็ตเน้นใช้งานหนัก, RAM มหาศาลถึง 30 GB

Realme GT 7 จะมาพร้อมแบตฯ ใหญ่ 7,200 mAh ภายใต้บอดี้ที่บางเพียง 8.25 กรัม

Samsung Galaxy Z Fold7 พร้อมซอฟต์แวร์ One UI 8 (Android 16) ได้รับการทดสอบบน Geekbench

Samsung เปิดตัวรุ่นสุดอึด Galaxy XCover7 Pro และ Tab Active5 Pro : ชิปเร็วขึ้น, แบตเตอรี่ใหญ่ขึ้น

ปริศนาต้นกำเนิดการบอกเวลาของมนุษย์ | เดอะวิทย์ด้อม

Realme GT 7 จะมาพร้อมแบตฯ ใหญ่ 7,200 mAh ภายใต้บอดีที่บางเพียง 8.25 กรัม

ไม่ตกเทรนด์: OPPO เตรียมเปิดตัว K13 พร้อมแบตฯ ใหญ่ 7,000 mAh

Samsung เปิดตัวรุ่นสุดอึด Galaxy XCover7 Pro และ Tab Active5 Pro : ชิปเร็วขึ้น, แบตเตอรี่ใหญ่ขึ้น

Samsung ระงับการอัปเดต One UI 7 หลังพบบั๊กร้ายแรงในซอฟต์แวร์