Ai2 đang phát hành OLMo 2, một nhóm mô hình ngôn ngữ nguồn mở nhằm thúc đẩy quá trình dân chủ hóa AI và thu hẹp khoảng cách giữa các giải pháp mở và độc quyền.
Các mô hình mới, có sẵn ở phiên bản tham số 7B và 13B, được đào tạo trên 5 nghìn tỷ Token và thể hiện mức hiệu suất ngang bằng hoặc vượt quá các mô hình mở hoàn toàn tương đương trong khi vẫn cạnh tranh với các mô hình trọng lượng mở như Llama 3.1 về điểm chuẩn học thuật tiếng Anh.
Ai2 giải thích: “Kể từ khi phát hành OLMo đầu tiên vào tháng 2 năm 2024, chúng tôi đã chứng kiến sự tăng trưởng nhanh chóng trong hệ sinh thái mô hình ngôn ngữ mở và thu hẹp khoảng cách hiệu suất giữa các mô hình mở và độc quyền”.
Nhóm phát triển đã đạt được những cải tiến này thông qua một số đổi mới, bao gồm các biện pháp nâng cao độ ổn định trong đào tạo, phương pháp đào tạo theo giai đoạn và các phương pháp đào tạo sau đào tạo tiên tiến bắt nguồn từ Tulu 3 khuôn khổ. Những cải tiến kỹ thuật đáng chú ý bao gồm việc chuyển từ định mức lớp không tham số sang RMSNorm và triển khai nhúng vị trí quay.
Đột phá đào tạo mô hình OLMo 2
Quá trình đào tạo sử dụng một cách tiếp cận hai giai đoạn phức tạp. Giai đoạn đầu tiên sử dụng bộ dữ liệu OLMo-Mix-1124 gồm khoảng 3,9 nghìn tỷ Token, có nguồn gốc từ DCLM, Dolma, Starcoding và Proof Pile II. Giai đoạn thứ hai kết hợp hỗn hợp dữ liệu web chất lượng cao và nội dung theo miền cụ thể được quản lý cẩn thận thông qua bộ dữ liệu Dolmino-Mix-1124.
Đặc biệt đáng chú ý là biến thể OLMo 2-Instruct-13B, đây là mẫu có khả năng hoạt động tốt nhất trong dòng sản phẩm này. Mô hình này thể hiện hiệu suất vượt trội so với các mô hình hướng dẫn Qwen 2.5 14B, Tülu 3 8B và Llama 3.1 8B trên nhiều tiêu chuẩn khác nhau.
Cam kết khoa học mở
Củng cố cam kết của mình đối với khoa học mở, Ai2 đã phát hành tài liệu toàn diện bao gồm trọng lượng, dữ liệu, mã, công thức, điểm kiểm tra trung gian và mô hình được điều chỉnh theo hướng dẫn. Tính minh bạch này cho phép cộng đồng AI rộng lớn hơn kiểm tra và tái tạo kết quả.
Bản phát hành cũng giới thiệu một khung đánh giá có tên OLMES (Hệ thống đánh giá mô hình ngôn ngữ mở), bao gồm 20 điểm chuẩn được thiết kế để đánh giá các khả năng cốt lõi như thu hồi kiến thức, lý luận thông thường và lý luận toán học.
OLMo 2 nâng tầm phát triển AI nguồn mở, có khả năng đẩy nhanh tốc độ đổi mới trong lĩnh vực này trong khi vẫn duy trì tính minh bạch và khả năng tiếp cận.
(Ảnh chụp bởi Rick Barrett)
Xem thêm: OpenAI tăng cường an toàn AI với các phương pháp nhóm đỏ mới
Bạn muốn tìm hiểu thêm về AI và dữ liệu lớn từ các nhà lãnh đạo ngành? Kiểm tra Triển lãm AI & Dữ liệu lớn diễn ra ở Amsterdam, California và London. Sự kiện toàn diện này được tổ chức cùng với các sự kiện hàng đầu khác bao gồm Hội nghị tự động hóa thông minh, BlockX, Tuần lễ Chuyển đổi sốVà An ninh mạng & Triển lãm Cloud.
Khám phá các sự kiện và hội thảo Online về công nghệ doanh nghiệp sắp tới khác do TechForge cung cấp đây.