Cloud của Alibaba Qwen nhóm nghiên cứu đã công bố Qwen2-Math, một loạt các mô hình ngôn ngữ lớn được thiết kế riêng để giải quyết các vấn đề toán học phức tạp.
Những mô hình mới này – được xây dựng trên nền tảng Qwen2 hiện có – chứng minh khả năng giải quyết các thách thức về số học và toán học một cách đáng kinh ngạc, đồng thời vượt trội hơn so với các công ty dẫn đầu ngành trước đây.
Nhóm Qwen đã tạo ra Qwen2-Math bằng cách sử dụng một Corpus Toán học rộng lớn và đa dạng. Corpus này bao gồm một tập hợp phong phú các nguồn tài nguyên chất lượng cao, bao gồm các văn bản web, sách, mã, câu hỏi thi và dữ liệu tổng hợp do chính Qwen2 tạo ra.
Đánh giá nghiêm ngặt trên cả chuẩn toán học tiếng Anh và tiếng Trung – bao gồm GSM8K, Math, MMLU-STEM, CMATH và GaoKao Math – đã tiết lộ khả năng đặc biệt của Qwen2-Math. Đáng chú ý, mô hình chủ lực, Qwen2-Math-72B-Instruct, đã vượt qua hiệu suất của các mô hình độc quyền như GPT-4o và Claude 3.5 trong nhiều nhiệm vụ toán học.
Nhóm Qwen lưu ý rằng “Qwen2-Math-Instruct đạt hiệu suất tốt nhất trong số các mô hình có cùng quy mô, với RM@8 vượt trội hơn Maj@8, đặc biệt là ở các mô hình 1.5B và 7B”.
Hiệu suất vượt trội này là nhờ vào việc triển khai hiệu quả mô hình phần thưởng toán học cụ thể trong quá trình phát triển.
Qwen2-Math tiếp tục thể hiện sức mạnh của mình khi chứng minh được những kết quả ấn tượng trong các cuộc thi toán học đầy thử thách như Kỳ thi Toán học mời của Mỹ (AIME) năm 2024 và Cuộc thi Toán học Mỹ (AMC) năm 2023.
Để đảm bảo tính toàn vẹn của mô hình và ngăn ngừa ô nhiễm, nhóm Qwen đã triển khai các phương pháp khử nhiễm mạnh mẽ trong cả giai đoạn trước và sau đào tạo. Phương pháp tiếp cận nghiêm ngặt này bao gồm việc loại bỏ các mẫu trùng lặp và xác định các điểm chồng chéo với các bộ thử nghiệm để duy trì độ chính xác và độ tin cậy của mô hình.
Nhìn về phía trước, nhóm Qwen có kế hoạch mở rộng khả năng của Qwen2-Math vượt ra ngoài tiếng Anh, với các mô hình song ngữ và đa ngôn ngữ đang được triển khai. Cam kết về tính bao hàm này nhằm mục đích giúp giải quyết các vấn đề toán học nâng cao dễ tiếp cận với đối tượng toàn cầu.
Nhóm Qwen khẳng định: “Chúng tôi sẽ tiếp tục nâng cao khả năng giải quyết các vấn đề toán học phức tạp và đầy thử thách của các mô hình”.
Bạn có thể tìm thấy các mô hình Qwen2 trên Hugging Face đây.
Xem thêm: Paige và Microsoft ra mắt mô hình AI thế hệ tiếp theo để chẩn đoán ung thư
Bạn muốn tìm hiểu thêm về AI và dữ liệu lớn từ những người đi đầu trong ngành? Kiểm tra Triển lãm AI & Dữ liệu lớn diễn ra tại Amsterdam, California và London. Sự kiện toàn diện này được tổ chức cùng với các sự kiện hàng đầu khác bao gồm Hội nghị Tự động hóa thông minh, KhốiX, Tuần lễ chuyển đổi sốVà Triển lãm An ninh mạng và Điện toán Cloud.
Khám phá các sự kiện công nghệ doanh nghiệp sắp tới và hội thảo trên web do TechForge cung cấp đây.