Giám đốc điều hành Google Sundar Pichai đã công bố ra mắt Gemini 2.0, một mô hình thể hiện bước tiếp theo trong tham vọng cách mạng hóa AI của Google.
Một năm sau khi giới thiệu mô hình Gemini 1.0, bản nâng cấp lớn này kết hợp các khả năng đa phương thức nâng cao, chức năng tác nhân và các công cụ người dùng đổi mới được thiết kế để vượt qua các ranh giới trong công nghệ do AI điều khiển.
Bước nhảy vọt về phía AI biến đổi
Phản ánh về sứ mệnh 26 năm của Google là tổ chức và làm cho thông tin của thế giới có thể truy cập được, Pichai nhận xét: “Nếu Gemini 1.0 hướng đến việc tổ chức và hiểu thông tin thì Gemini 2.0 hướng đến việc làm cho thông tin trở nên hữu ích hơn nhiều”.
Gemini 1.0, được phát hành vào tháng 12 năm 2022, gây chú ý vì là mô hình AI đa phương thức nguyên bản đầu tiên của Google. Lần lặp đầu tiên đã xuất sắc trong việc hiểu và xử lý văn bản, video, hình ảnh, âm thanh và mã. Phiên bản 1.5 nâng cao của nó đã được các nhà phát triển đón nhận rộng rãi nhờ khả năng hiểu ngữ cảnh lâu dài, hỗ trợ các ứng dụng như NotebookLM tập trung vào năng suất.
Giờ đây, với Gemini 2.0, Google đặt mục tiêu đẩy nhanh vai trò của AI như một trợ lý toàn cầu có khả năng tạo ra hình ảnh và âm thanh tự nhiên, lý luận và lập kế hoạch tốt hơn cũng như khả năng ra quyết định trong thế giới thực. Theo cách nói của Pichai, sự phát triển này tượng trưng cho buổi bình minh của “kỷ nguyên đại lý”.
Pichai giải thích: “Chúng tôi đã đầu tư vào việc phát triển nhiều mô hình tác nhân hơn, nghĩa là chúng có thể hiểu nhiều hơn về thế giới xung quanh bạn, suy nghĩ trước nhiều bước và hành động thay mặt bạn với sự giám sát của bạn”.
Gemini 2.0: Các tính năng cốt lõi và tính khả dụng
Trọng tâm của thông báo ngày hôm nay là việc phát hành thử nghiệm Gemini 2.0 Flash, mẫu hàng đầu của thế hệ thứ hai của Gemini. Nó được xây dựng dựa trên nền tảng được đặt ra bởi những phiên bản tiền nhiệm đồng thời mang lại thời gian phản hồi nhanh hơn và hiệu suất nâng cao.
Gemini 2.0 Flash hỗ trợ đầu vào và đầu ra đa phương thức, bao gồm khả năng tạo hình ảnh gốc kết hợp với văn bản và tạo ra âm thanh đa ngôn ngữ chuyển văn bản thành giọng nói có thể điều khiển được. Ngoài ra, người dùng có thể hưởng lợi từ việc tích hợp công cụ gốc như Google Tìm kiếm và thậm chí cả các chức năng do người dùng bên thứ ba xác định.
Các nhà phát triển và doanh nghiệp sẽ có quyền truy cập vào Gemini 2.0 Flash thông qua API Gemini trong Studio AI của Google Và AI đỉnhtrong khi kích thước mẫu lớn hơn dự kiến sẽ được phát hành rộng rãi hơn vào tháng 1 năm 2024.
Để có khả năng truy cập toàn cầu, ứng dụng Gemini hiện có phiên bản được tối ưu hóa cho trò chuyện của mô hình thử nghiệm Flash 2.0. Những người dùng đầu tiên có thể trải nghiệm trợ lý cập nhật này trên máy tính để bàn và thiết bị di động, đồng thời sắp triển khai ứng dụng dành cho thiết bị di động.
Các sản phẩm như Google Tìm kiếm cũng đang được cải tiến với Gemini 2.0, mở khóa khả năng xử lý các truy vấn phức tạp như các bài toán nâng cao, truy vấn Token hoá và câu hỏi đa phương thức.
Bộ cải tiến AI toàn diện
Sự ra mắt của Gemini 2.0 đi kèm với các công cụ mới hấp dẫn thể hiện khả năng của nó.
Một tính năng như vậy, Deep Research, hoạt động như một trợ lý nghiên cứu AI, đơn giản hóa quá trình điều tra các chủ đề phức tạp bằng cách tổng hợp thông tin thành các báo cáo toàn diện. Một bản nâng cấp khác giúp tăng cường Tìm kiếm với Tổng quan về AI do Gemini hỗ trợ để giải quyết các truy vấn phức tạp, gồm nhiều bước của người dùng.
Mô hình này được đào tạo bằng cách sử dụng Bộ xử lý kéo căng (TPU) thế hệ thứ sáu của Google, được gọi là Trillium, mà Pichai lưu ý rằng “cung cấp 100% hoạt động đào tạo và suy luận của Gemini 2.0”.
Trillium bây giờ là có sẵn dành cho các nhà phát triển bên ngoài, cho phép họ hưởng lợi từ cùng cơ sở hạ tầng hỗ trợ những tiến bộ của chính Google.
Trải nghiệm đại lý tiên phong
Đi kèm với Gemini 2.0 là các nguyên mẫu “tác nhân” thử nghiệm được xây dựng để khám phá tương lai của sự hợp tác giữa con người và AI, bao gồm:
- Project Astra: Trợ lý AI phổ quát
Được giới thiệu lần đầu tiên tại I/O đầu năm nay, Project Astra khai thác hiểu biết đa phương thức của Gemini 2.0 để cải thiện các tương tác AI trong thế giới thực. Những người thử nghiệm đáng tin cậy đã dùng thử trợ lý này trên Android, đưa ra phản hồi giúp tinh chỉnh khả năng hội thoại đa ngôn ngữ, khả năng lưu giữ bộ nhớ và khả năng tích hợp với các công cụ của Google như Tìm kiếm, Ống kính và Bản đồ. Astra cũng đã chứng minh độ trễ đàm thoại gần giống con người, với nghiên cứu sâu hơn đang được tiến hành để ứng dụng nó vào công nghệ thiết bị đeo, chẳng hạn như kính AI nguyên mẫu.
- Project Mariner: Định nghĩa lại tự động hóa web
Project Mariner là một trợ lý duyệt web thử nghiệm sử dụng khả năng của Gemini 2.0 để suy luận về văn bản, hình ảnh và các yếu tố tương tác như biểu mẫu trong trình duyệt. Trong các thử nghiệm ban đầu, nó đạt được tỷ lệ thành công 83,5% trên điểm chuẩn WebVoyager khi hoàn thành các tác vụ web từ đầu đến cuối. Những người thử nghiệm ban đầu sử dụng tiện ích mở rộng của Chrome đang giúp cải tiến các khả năng của Mariner trong khi Google đánh giá các biện pháp an toàn nhằm đảm bảo công nghệ này vẫn thân thiện và an toàn với người dùng.
- Jules: Một đại lý Token hoá cho các nhà phát triển
Jules, một trợ lý hỗ trợ AI được xây dựng dành cho các nhà phát triển, tích hợp trực tiếp vào quy trình làm việc của GitHub để giải quyết các thách thức về Token hoá. Nó có thể tự động đề xuất các giải pháp, lập kế hoạch và thực hiện các nhiệm vụ dựa trên mã—tất cả đều dưới sự giám sát của con người. Nỗ lực thử nghiệm này là một phần trong mục tiêu dài hạn của Google nhằm tạo ra các tác nhân AI linh hoạt trên nhiều lĩnh vực khác nhau.
- Ứng dụng chơi game và hơn thế nữa
Mở rộng phạm vi tiếp cận của Gemini 2.0 vào môi trường ảo, Google DeepMind đang hợp tác với các đối tác trò chơi như Supercell về các tác nhân trò chơi thông minh. Những người bạn đồng hành AI thử nghiệm này có thể diễn giải các hành động trong trò chơi theo thời gian thực, đề xuất chiến lược và thậm chí truy cập kiến thức rộng hơn thông qua Tìm kiếm. Nghiên cứu cũng đang được tiến hành để tìm hiểu cách lý luận Lĩnh vực của Gemini 2.0 có thể hỗ trợ chế tạo robot, mở ra cánh cửa cho các ứng dụng trong thế giới vật lý trong tương lai.
Giải quyết trách nhiệm trong phát triển AI
Khi khả năng của AI mở rộng, Google nhấn mạnh tầm quan trọng của việc ưu tiên các cân nhắc về an toàn và đạo đức.
Google tuyên bố Gemini 2.0 đã trải qua các đánh giá rủi ro sâu rộng, được hỗ trợ bởi sự giám sát của Ủy ban Trách nhiệm và An toàn nhằm giảm thiểu rủi ro tiềm ẩn. Ngoài ra, khả năng suy luận được nhúng của nó cho phép “nhóm đỏ” nâng cao, cho phép các nhà phát triển đánh giá các tình huống bảo mật và tối ưu hóa các biện pháp an toàn trên quy mô lớn.
Google cũng đang khám phá các biện pháp bảo vệ để giải quyết quyền riêng tư của người dùng, ngăn chặn việc lạm dụng và đảm bảo các tác nhân AI vẫn đáng tin cậy. Ví dụ: Project Mariner được thiết kế để ưu tiên hướng dẫn người dùng đồng thời chống lại việc tiêm nhắc độc hại, ngăn chặn các mối đe dọa như lừa đảo hoặc giao dịch gian lận. Trong khi đó, các biện pháp kiểm soát quyền riêng tư trong Project Astra giúp người dùng dễ dàng quản lý dữ liệu phiên và tùy chọn xóa.
Pichai tái khẳng định cam kết của công ty đối với sự phát triển có trách nhiệm, đồng thời nêu rõ: “Chúng tôi tin chắc rằng cách duy nhất để xây dựng AI là phải chịu trách nhiệm ngay từ đầu”.
Với bản phát hành Gemini 2.0 Flash, Google đang tiến gần hơn đến tầm nhìn của mình về việc xây dựng một trợ lý đa năng có khả năng chuyển đổi các tương tác giữa các miền.
Xem thêm: Loại bỏ máy: Các nhà nghiên cứu khiến mô hình AI ‘quên’ dữ liệu
Bạn muốn tìm hiểu thêm về AI và dữ liệu lớn từ các nhà lãnh đạo ngành? Kiểm tra Triển lãm AI & Dữ liệu lớn diễn ra ở Amsterdam, California và London. Sự kiện toàn diện này được tổ chức cùng với các sự kiện hàng đầu khác bao gồm Hội nghị tự động hóa thông minh, BlockX, Tuần lễ Chuyển đổi sốVà An ninh mạng & Triển lãm Cloud.
Khám phá các sự kiện và hội thảo Online về công nghệ doanh nghiệp sắp tới khác do TechForge cung cấp đây.