Ôm mặt đã công bố phát hành Idefics2, một mô hình linh hoạt có khả năng hiểu và tạo phản hồi văn bản dựa trên cả hình ảnh và văn bản. Mô hình này đặt ra một tiêu chuẩn mới để trả lời các câu hỏi trực quan, mô tả nội dung trực quan, tạo câu chuyện từ hình ảnh, trích xuất thông tin tài liệu và thậm chí thực hiện các phép tính số học dựa trên đầu vào trực quan.
Idefics2 vượt trội so với người tiền nhiệm của nó, Idefics1, chỉ với tám tỷ tham số và tính linh hoạt được cung cấp bởi license mở (Apache 2.0), cùng với khả năng Nhận dạng Ký tự Quang học (OCR) được nâng cao đáng kể.
Mô hình này không chỉ thể hiện hiệu suất vượt trội trong các điểm chuẩn trả lời câu hỏi trực quan mà còn giữ vững vị thế so với các mô hình cùng thời lớn hơn nhiều như LLava-Next-34B và MM1-30B-chat:
Điểm hấp dẫn chính của Idefics2 là sự tích hợp của nó với Transformers của Hugging Face ngay từ đầu, đảm bảo dễ dàng tinh chỉnh cho một loạt các ứng dụng đa phương thức. Đối với những người muốn tìm hiểu sâu hơn, các mô hình có sẵn để thử nghiệm trên Hugging Face Hub.
Tính năng nổi bật của Idefics2 là triết lý đào tạo toàn diện, kết hợp các bộ dữ liệu có sẵn mở bao gồm tài liệu web, cặp chú thích hình ảnh và dữ liệu OCR. Hơn nữa, nó còn giới thiệu một bộ dữ liệu tinh chỉnh cải tiến có tên là ‘The Cauldron’, kết hợp 50 bộ dữ liệu được quản lý tỉ mỉ để đào tạo đàm thoại nhiều mặt.
Idefics2 thể hiện một cách tiếp cận tinh tế để xử lý hình ảnh, duy trì độ phân giải gốc và tỷ lệ khung hình—một sai lệch đáng chú ý so với các tiêu chuẩn thay đổi kích thước thông thường trong thị giác máy tính. Kiến trúc của nó được hưởng lợi đáng kể từ các khả năng OCR nâng cao, sao chép thành thạo nội dung văn bản trong hình ảnh và tài liệu, đồng thời cải thiện hiệu suất trong việc diễn giải biểu đồ và số liệu.
Việc đơn giản hóa việc tích hợp các tính năng trực quan vào xương sống ngôn ngữ đánh dấu một sự thay đổi so với kiến trúc của người tiền nhiệm, với việc áp dụng tính năng tổng hợp Bộ nhận thức đã học và phép chiếu phương thức MLP giúp nâng cao hiệu quả tổng thể của Idefics2.
Sự tiến bộ này trong các mô hình ngôn ngữ tầm nhìn mở ra những con đường mới để khám phá các tương tác đa phương thức, với Idefics2 sẵn sàng đóng vai trò là công cụ nền tảng cho cộng đồng. Những cải tiến về hiệu suất và cải tiến kỹ thuật của nó nhấn mạnh tiềm năng kết hợp dữ liệu hình ảnh và văn bản trong việc tạo ra các hệ thống AI tinh vi, nhận biết theo ngữ cảnh.
Đối với những người đam mê và nhà nghiên cứu muốn tận dụng khả năng của Idefics2, Ôm Mặt cung cấp khả năng tinh chỉnh chi tiết hướng dẫn.
Xem thêm: OpenAI cung cấp GPT-4 Turbo với API Vision
Bạn muốn tìm hiểu thêm về AI và dữ liệu lớn từ các nhà lãnh đạo ngành? Hãy xem AI & Big Data Expo diễn ra ở Amsterdam, California và London. Sự kiện toàn diện này được tổ chức cùng với các sự kiện hàng đầu khác bao gồm BlockX, Tuần lễ Chuyển đổi số và An ninh mạng & Triển lãm đám mây.
Khám phá các sự kiện và hội thảo Online về công nghệ doanh nghiệp sắp tới khác do TechForge cung cấp tại đây.