เผยแพร่: 22 พฤษภาคม 2025
AI กำลังเปลี่ยนแปลงวิธีที่นักพัฒนาเว็บสร้างเว็บไซต์และเว็บแอปพลิเคชัน ในงาน Google I/O 2025 เราได้แชร์สิ่งที่เราทํามาตลอดปีที่ผ่านมา สาธิตวิธีที่พาร์ทเนอร์ของเราใช้ AI ในเว็บ และประกาศ AI API ใหม่ที่ติดตั้งมาในตัว
พลาดกิจกรรมไปใช่ไหม เรามีข่าวดีมาแจ้งให้ทราบว่าตอนนี้คุณรับชมการบรรยายแบบออนดีมานด์ได้แล้ว
AI ในตัวที่ใช้งานได้จริงด้วย Gemini Nano ใน Chrome
พันธกิจหลักของเราคือการทําให้ Chrome และเว็บฉลาดขึ้นสําหรับนักพัฒนาซอฟต์แวร์และผู้ใช้ทุกคน ในการบรรยายครั้งนี้ Thomas Steiner จะแชร์ข้อมูลอัปเดตเกี่ยวกับAI ในตัว กรณีการใช้งานจริง และภาพรวมอนาคต
AI ในตัวจะเรียกใช้โมเดลฝั่งไคลเอ็นต์ในเบราว์เซอร์ ซึ่งมีข้อดีหลายประการดังนี้
- ส่วนตัว: ข้อมูลที่ละเอียดอ่อนของผู้ใช้จะยังคงอยู่ในอุปกรณ์โดยไม่จำเป็นต้องออกจากเบราว์เซอร์
- ออฟไลน์: แอปพลิเคชันเข้าถึงความสามารถของ AI ได้แม้จะไม่ได้เชื่อมต่ออินเทอร์เน็ต
- มีประสิทธิภาพ: API เหล่านี้มีประสิทธิภาพยอดเยี่ยมเนื่องจากการเร่งฮาร์ดแวร์
ดูตัวอย่างโค้ดสําหรับ AI API ในตัวแต่ละรายการ รับข้อมูลอัปเดตเกี่ยวกับสถานะ และดูว่าบริษัทใดบ้างที่ใช้เทคโนโลยีนี้
Multimodal API
เรากําลังพัฒนา API แบบหลายรูปแบบใหม่ล่าสุด ซึ่งหมายความว่าคุณสามารถถาม Gemini Nano เกี่ยวกับสิ่งที่ "เห็น" ในเนื้อหาภาพหรือ "ได้ยิน" ในเนื้อหาเสียง เช่น รับคำแนะนำสำหรับข้อความแสดงแทนในรูปภาพที่อัปโหลดในแพลตฟอร์มบล็อก ซึ่งผู้ใช้สามารถปรับแต่งได้ หรือจะขอให้ Gemini Nano เขียนคำอธิบายหรือถอดเสียงพอดแคสต์ก็ได้
AI แบบผสม
ปัญหาหนึ่งที่นักพัฒนาซอฟต์แวร์พบเกี่ยวกับ AI ฝั่งไคลเอ็นต์คือแพลตฟอร์มและเบราว์เซอร์บางรุ่นไม่เป็นไปตามข้อกําหนดของฮาร์ดแวร์ในการใช้งานโมเดลในอุปกรณ์ Gemini และ Firebase ได้ร่วมมือกันสร้าง Firebase Web SDK เพื่อให้คุณเปลี่ยนไปใช้ Gemini Nano ในเซิร์ฟเวอร์ได้เมื่อการติดตั้งใช้งานฝั่งไคลเอ็นต์ไม่พร้อมใช้งาน
การทำงานร่วมกับคุณ
เรายินดีที่ได้ร่วมงานกับนักพัฒนาแอปจำนวนมากเกี่ยวกับ AI API ในตัว เราไม่อาจบรรลุเป้าหมายได้หากไม่มีคุณ
- โปรแกรมตัวอย่างก่อนเปิดตัว: นักพัฒนาแอปมากกว่า 16,000 คนเข้าร่วม EPP เพื่อทดสอบ API ใหม่ ค้นพบกรณีการใช้งานใหม่ๆ และให้ความคิดเห็นเพื่อสร้าง AI ที่ดีขึ้นสำหรับเว็บ
- แฮ็กแฮทแค็ต: เราได้จัดแฮ็กแฮทแค็ต 2 ครั้ง และคุณสร้างเว็บไซต์และส่วนขยายที่ยอดเยี่ยม
งานของคุณยังไม่จบ โปรดแชร์ความคิดเห็นและทดสอบ API ในตัวใหม่ต่อไป เราจะปรับปรุงอย่างต่อเนื่อง คุณยังช่วยกำหนดมาตรฐาน API เหล่านี้ได้ด้วยโดยการเข้าร่วมกลุ่มชุมชนแมชชีนเลิร์นนิงในเว็บของ W3C
อนาคตของส่วนขยาย Chrome ที่มี Gemini ในเบราว์เซอร์
จำนวนชิ้นงานที่ใช้ระบบ AI เพิ่มขึ้นเป็น 2 เท่าในช่วง 2 ปีที่ผ่านมา ความจริงแล้ว 10% ของส่วนขยายทั้งหมดที่ติดตั้งจาก Chrome เว็บสโตร์ใช้ AI ในการบรรยายครั้งนี้ Sebastian Benz จะแสดงตัวอย่างการใช้งานจริงที่แสดงให้เห็นว่าเหตุใดส่วนขยาย Chrome และ Gemini จึงทำงานร่วมกันได้อย่างมีประสิทธิภาพ
ตัวอย่างมีตั้งแต่วิธีทำให้เบราว์เซอร์มีประโยชน์มากขึ้นด้วยการดึงข้อมูลและประมวลผลข้อมูลจากเว็บไซต์ในไคลเอ็นต์โดยใช้ Prompt API ที่เพิ่งเปิดตัวใหม่ของ Chrome
การสาธิตความสามารถแบบมัลติโมดัลใหม่ของ Prompting API ของ Chrome ในส่วนขยาย Chrome เพื่อให้ผู้ใช้เข้าถึงเสียงและรูปภาพได้ง่ายขึ้น
มาดูอนาคตของการท่องเว็บด้วยการอธิบายวิธีที่ Project Mariner ของ Google DeepMind ใช้ส่วนขยาย Chrome และ Gemini Cloud API ล่าสุดเพื่อสร้างตัวแทนเบราว์เซอร์ที่สมบูรณ์
สำรวจศักยภาพของการใช้ Gemini ในระบบคลาวด์หรือในเบราว์เซอร์ในส่วนขยาย Chrome เพื่อสร้างประสบการณ์การท่องเว็บแบบใหม่และทำให้เบราว์เซอร์มีประโยชน์มากขึ้น
กรณีการใช้งานและกลยุทธ์ของ Web AI ในชีวิตจริง
Yuriko Hirota และ Swetha Gopalakrishnan ได้ยกตัวอย่างการใช้งาน AI บนเว็บในชีวิตจริงของธุรกิจต่างๆ เพื่อปรับปรุงธุรกิจและประสบการณ์ของผู้ใช้ ไม่ว่าโซลูชันจะใช้โมเดลฝั่งไคลเอ็นต์ ฝั่งเซิร์ฟเวอร์ หรือโซลูชันแบบผสม สิ่งที่สําคัญคือฟังก์ชันและฟีเจอร์ใหม่ๆ ที่น่าตื่นเต้นที่คุณมอบให้ผู้ใช้ได้ในตอนนี้
BILIBILI ทำให้สตรีมวิดีโอน่าสนใจยิ่งขึ้นด้วยฟีเจอร์ใหม่อย่างความคิดเห็นแบบข้อความไฮไลต์ โดยแสดงความคิดเห็นของผู้ใช้แบบเรียลไทม์ในวิดีโอ ซึ่งจะแสดงผลอยู่หลังผู้พูด โดยจะใช้การแบ่งกลุ่มรูปภาพ ซึ่งเป็นแนวคิดแมชชีนเลิร์นนิงที่เข้าใจได้ง่าย ผลที่ได้คือระยะเวลาเซสชันเพิ่มขึ้น 30% Tokopedia ลดปัญหาในกระบวนการยืนยันตัวตนผู้ขายโดยใช้โมเดลการตรวจจับใบหน้าเพื่อประเมินคุณภาพของรูปภาพที่อัปโหลด ส่งผลให้ลดการอนุมัติด้วยตนเองได้เกือบ 70%
Vision Nanny เป็นแพลตฟอร์มเว็บสำหรับเด็กที่มีความบกพร่องทางสายตาจากสมอง (CVI) ซึ่งมีกิจกรรมกระตุ้นการมองเห็นที่ทำงานด้วยระบบ AI โดยจะใช้คลัง MediaPipe หลายรายการ รวมถึงโมเดลการตรวจจับจุดสังเกตของมือ ซึ่งจะระบุจุดสำคัญของมือในรูปภาพ วิดีโอ หรือแบบเรียลไทม์ โปรแกรมนำร่องที่มีเด็ก 50 คนแสดงให้เห็นว่า Vision Nanny ตอบสนองได้เร็วกว่ากิจกรรมกระตุ้นด้วยภาพด้วยตนเอง 5 เท่า นักบำบัดรายงานว่าประหยัดเวลาได้เฉลี่ย 3 ชั่วโมงต่อเซสชันด้วยการยกเลิกการตั้งค่าด้วยตนเอง
Google Meet มีฟีเจอร์หลายอย่างที่ทำงานด้วยระบบ AI ตั้งแต่การปรับแสงไปจนถึงการลดวิดีโอที่เบลอและแตก ความท้าทายที่ใหญ่ที่สุดคือฟีเจอร์เหล่านี้ต้องทำงานแบบเรียลไทม์ ด้วยเหตุนี้ WebAssembly (Wasm) จึงเข้ามามีบทบาทเพื่อใช้พลังของ CPU ของคอมพิวเตอร์อย่างเต็มรูปแบบและเปิดใช้การประมวลผลวิดีโอแบบเรียลไทม์
ตัวอย่างข้างต้นเป็นเพียงตัวอย่างบางส่วนของการใช้งาน AI ที่เกิดขึ้นจริงบนเว็บ บริษัทอื่นๆ หลายแห่งได้ทดสอบ API ของ AI ในตัว โดยบางบริษัทได้แชร์ผลงานของตนในกรณีศึกษา
ตัวแทน AI บนเว็บฝั่งไคลเอ็นต์เพื่อสร้างประสบการณ์การใช้งานที่ชาญฉลาดยิ่งขึ้นในอนาคต
Jason Mayes พาไปดูอนาคตของอินเทอร์เน็ต: ตัวแทน AI บนเว็บ เว็บมีอนาคตที่เต็มไปด้วยตัวแทน ซึ่งจะนําความสามารถของ AI ไปยังเบราว์เซอร์โดยตรง เพื่อทํางานอันเป็นประโยชน์ในนามของคุณ นอกเหนือจากความสามารถของโมเดลภาษาขนาดใหญ่ (LLM)
การใช้แนวทางฝั่งไคลเอ็นต์จะเพิ่มความเป็นส่วนตัว ลดเวลาในการตอบสนอง และอาจช่วยประหยัดต้นทุนได้อย่างมาก ตัวแทนช่วยให้คุณอัปเกรดเว็บไซต์ที่มีอยู่เพื่อทำงานให้กับผู้ใช้แบบอิสระ โดยเลือกและใช้เครื่องมือที่แสดงแบบไดนามิก ซึ่งอาจทำงานซ้ำๆ กัน ช่วยให้ตัวแทนทำงานที่ซับซ้อนหรือมีหลายขั้นตอนให้เสร็จสมบูรณ์ได้
ตัวแทนจะทำสิ่งต่อไปนี้ได้
- วางแผนและแบ่งงานย่อยเพื่อจัดการปัญหาที่ซับซ้อนมากขึ้นผ่านการวางแผนแบบหลายขั้นตอนเพื่อแบ่งงานออกเป็นขั้นตอนที่สมเหตุสมผลจนเสร็จสมบูรณ์
- เลือกเครื่องมือที่ดีที่สุด ไม่ว่าจะเป็นฟังก์ชัน การใช้ API หรือดาต้าสตोर ในการเข้าถึงความรู้พื้นฐานของโมเดลภาษาที่เพิ่มประสิทธิภาพ จากนั้นดําเนินการต่างๆ ในโลกภายนอก
- เก็บหน่วยความจําตามบริบทตามเอาต์พุตก่อนหน้าจากตัวแทนหรือเครื่องมือภายนอก หน่วยความจำระยะสั้นจะทํางานเหมือนบัฟเฟอร์ FIFO ของประวัติบริบทที่มีขนาดเท่ากับกรอบเวลาบริบทของโมเดล เทียบกับหน่วยความจําระยะยาวที่สามารถใช้ฐานข้อมูลเวกเตอร์เพื่อจัดเก็บข้อมูลไว้เรียกใช้ตามต้องการจากเซสชันการสนทนาก่อนหน้าหรือแหล่งข้อมูลอื่นๆ ทั้งหมด
ตัวแทน AI บนเว็บออกแบบมาเพื่อผสานรวมกับเทคโนโลยีเว็บที่มีอยู่ในรูปแบบ JavaScript ท้ายที่สุดแล้ว เราจำเป็นต้องเร่งพัฒนาฮาร์ดแวร์ต่อไปเพื่อให้โมเดลทำงานในเบราว์เซอร์ได้ดีที่สุด เมื่อมองไปในอนาคต เทคโนโลยีอย่าง WebNN จะมีบทบาทสําคัญในการเพิ่มประสิทธิภาพการเรียกใช้โมเดลใน CPU, GPU และ NPU แนวโน้มที่ LLM จะมีขนาดเล็กลงและความก้าวหน้าอย่างต่อเนื่องจะทำให้เครื่องมือนี้มีประสิทธิภาพมากขึ้นในอนาคต
ลองใช้แนวทางแบบผสมผสาน ซึ่งรวมการประมวลผลในอุปกรณ์เข้ากับการเรียกใช้ระบบคลาวด์อย่างมีกลยุทธ์ เพื่อให้คุณสร้างประสบการณ์การใช้งานที่ชาญฉลาด ตอบสนองได้รวดเร็ว และปรับเปลี่ยนในแบบของคุณในเบราว์เซอร์ได้ในตอนนี้ ในไม่ช้า ผลตอบแทนจากการลงทุนในแนวทาง AI บนเว็บจะส่งผลดีเมื่ออุปกรณ์สามารถใช้งาน LLM ได้มากขึ้น
สรุปข้อมูลเกี่ยวกับ Google I/O 2025
เราได้เผยแพร่การบรรยายทั้งหมดของ Google I/O 2025 แล้ว โดยมีเพลย์ลิสต์สำหรับนักพัฒนาเว็บโดยเฉพาะ ดูข้อมูลเพิ่มเติมที่ io.google/2025