nhân loại đã công bố nâng cấp danh mục AI của mình, bao gồm mô hình Claude 3.5 Sonnet nâng cao và giới thiệu Claude 3.5 Haiku, cùng với tính năng “điều khiển máy tính” trong phiên bản beta công khai.
Claude 3.5 Sonnet được nâng cấp thể hiện những cải tiến đáng kể trên tất cả các số liệu, với những tiến bộ đặc biệt đáng chú ý về khả năng Token hoá. Mô hình này đã đạt được số điểm ấn tượng 49,0% trên điểm chuẩn đã được xác minh của SWE-bench, vượt qua tất cả các mô hình có sẵn công khai, bao gồm cả các sản phẩm của OpenAI và các hệ thống Token hoá chuyên dụng.
Trong một bước phát triển tiên phong, Anthropic đã giới thiệu chức năng sử dụng máy tính cho phép Claude tương tác với máy tính tương tự như con người: xem màn hình, điều khiển con trỏ, nhấp chuột và gõ. Khả năng này, hiện đang ở giai đoạn thử nghiệm công khai, đánh dấu Claude 3.5 Sonnet là mô hình AI biên giới đầu tiên cung cấp chức năng như vậy.
Một số công ty công nghệ lớn đã bắt đầu triển khai những khả năng mới này.
GitLab báo cáo: “Claude 3.5 Sonnet được nâng cấp thể hiện một bước nhảy vọt đáng kể đối với Token hoá được hỗ trợ bởi AI”, ghi nhận lý do mạnh mẽ hơn tới 10% trong các use case mà không có thêm độ trễ.
Mẫu Claude 3.5 Haiku mới, dự kiến ra mắt vào cuối tháng này, phù hợp với hiệu suất của Claude 3 Opus trước đó trong khi vẫn duy trì hiệu quả về chi phí và tốc độ. Đáng chú ý, nó đã đạt được 40,6% trên SWE-bench Verify, vượt trội so với nhiều mẫu cạnh tranh bao gồm Claude 3.5 Sonnet và GPT-4o ban đầu.
Về khả năng điều khiển máy tính, Anthropic đã thực hiện một cách tiếp cận đo lường, thừa nhận những hạn chế hiện tại đồng thời nêu bật tiềm năng. Trên điểm chuẩn OSWorld, chuyên đánh giá khả năng điều hướng giao diện máy tính, Claude 3.5 Sonnet đạt được 14,9% trong các bài kiểm tra chỉ chụp ảnh màn hình, vượt trội đáng kể so với 7,8% của hệ thống tốt nhất tiếp theo.
Các bước phát triển này đã trải qua quá trình đánh giá an toàn nghiêm ngặt, với thử nghiệm trước khi triển khai được thực hiện với sự hợp tác của cả Viện An toàn AI của Hoa Kỳ và Vương quốc Anh. Anthropic khẳng định rằng Tiêu chuẩn ASL-2, như được nêu chi tiết trong Chính sách mở rộng có trách nhiệm của họ, vẫn phù hợp với các mô hình này.
(Nguồn Hình Ảnh: Nhân chủng học)
Xem thêm: IBM công bố các mô hình AI Granite 3.0 với cam kết nguồn mở
Bạn muốn tìm hiểu thêm về AI và dữ liệu lớn từ các nhà lãnh đạo ngành? Kiểm tra Triển lãm AI & Dữ liệu lớn diễn ra ở Amsterdam, California và London. Sự kiện toàn diện này được tổ chức cùng với các sự kiện hàng đầu khác bao gồm Hội nghị tự động hóa thông minh, BlockX, Tuần lễ Chuyển đổi sốVà An ninh mạng & Triển lãm Cloud.
Khám phá các sự kiện và hội thảo Online về công nghệ doanh nghiệp sắp tới khác do TechForge cung cấp đây.