Alibaba đã công bố Marco-o1, một mô hình ngôn ngữ lớn (LLM) được thiết kế để giải quyết cả các nhiệm vụ giải quyết vấn đề thông thường và mở.
Marco-o1, thuộc nhóm MarcoPolo của Alibaba, đại diện cho một bước tiến khác về khả năng AI xử lý các thách thức lý luận phức tạp, đặc biệt là trong toán học, vật lý, Token hoá và các lĩnh vực có thể thiếu các tiêu chuẩn rõ ràng.
Dựa trên những tiến bộ về lý luận của OpenAI với mô hình o1 của nóMarco-o1 tạo nên sự khác biệt bằng cách kết hợp một số kỹ thuật tiên tiến, bao gồm tinh chỉnh Chuỗi suy nghĩ (CoT), Tìm kiếm cây Monte Carlo (MCTS) và các cơ chế phản ánh mới. Các thành phần này phối hợp với nhau để nâng cao khả năng giải quyết vấn đề của mô hình trên nhiều lĩnh vực khác nhau.
Nhóm phát triển đã triển khai chiến lược tinh chỉnh toàn diện bằng cách sử dụng nhiều bộ dữ liệu, bao gồm phiên bản được lọc của Bộ dữ liệu CoT Open-O1, Bộ dữ liệu Marco-o1 CoT tổng hợp và Bộ dữ liệu hướng dẫn Marco chuyên dụng. Tổng cộng, kho dữ liệu đào tạo bao gồm hơn 60.000 mẫu được tuyển chọn cẩn thận.
Mô hình đã cho thấy kết quả đặc biệt ấn tượng trong các ứng dụng đa ngôn ngữ. Trong thử nghiệm, Marco-o1 đã đạt được mức cải thiện độ chính xác đáng chú ý là 6,17% trên bộ dữ liệu MGSM tiếng Anh và 5,60% trên bộ dữ liệu Trung Quốc. Mô hình đã thể hiện được thế mạnh đặc biệt trong nhiệm vụ dịch thuật, đặc biệt là khi xử lý các cách diễn đạt thông tục và sắc thái văn hóa.
Một trong những tính năng sáng tạo nhất của mô hình là việc triển khai các mức độ chi tiết hành động khác nhau trong khung MCTS. Cách tiếp cận này cho phép mô hình khám phá các đường dẫn lý luận ở các mức độ chi tiết khác nhau, từ các bước rộng đến “các bước nhỏ” chính xác hơn gồm 32 hoặc 64 Token. Nhóm nghiên cứu cũng đã giới thiệu một cơ chế phản ánh giúp mô hình tự đánh giá và xem xét lại lý do của nó, từ đó cải thiện độ chính xác trong các tình huống giải quyết vấn đề phức tạp.
Việc tích hợp MCTS đã được chứng minh là đặc biệt hiệu quả, với tất cả các phiên bản nâng cao MCTS của mô hình đều cho thấy những cải tiến đáng kể so với phiên bản Marco-o1-CoT cơ bản. Các thử nghiệm của nhóm với các mức độ chi tiết hành động khác nhau đã tiết lộ các mô hình thú vị, mặc dù họ lưu ý rằng việc xác định chiến lược tối ưu đòi hỏi phải nghiên cứu sâu hơn và các mô hình phần thưởng chính xác hơn.
Nhóm phát triển đã minh bạch về những hạn chế hiện tại của mô hình, thừa nhận rằng mặc dù Marco-o1 thể hiện các đặc điểm lý luận mạnh mẽ nhưng nó vẫn chưa thể so sánh với mô hình “o1” được hiện thực hóa đầy đủ. Họ nhấn mạnh rằng bản phát hành này thể hiện cam kết cải tiến liên tục chứ không phải là một sản phẩm hoàn chỉnh.
Sắp tới, nhóm Alibaba đã công bố kế hoạch kết hợp các mô hình khen thưởng, bao gồm Mô hình phần thưởng kết quả (ORM) và Mô hình phần thưởng quy trình (PRM), để nâng cao khả năng ra quyết định và Marco-o1. Họ cũng đang khám phá các kỹ thuật học tăng cường để hoàn thiện hơn nữa khả năng giải quyết vấn đề của mô hình.
Mô hình Marco-o1 và các bộ dữ liệu liên quan đã được cung cấp cho cộng đồng nghiên cứu thông qua kho GitHub của Alibaba, kèm theo tài liệu toàn diện và hướng dẫn triển khai. Bản phát hành bao gồm hướng dẫn cài đặt và tập lệnh mẫu cho cả việc sử dụng và triển khai mô hình trực tiếp thông qua FastAPI.
(Ảnh chụp bởi Alina Grubnyak)
Xem thêm: Các kỹ thuật đào tạo AI mới nhằm vượt qua những thách thức hiện tại
Bạn muốn tìm hiểu thêm về AI và dữ liệu lớn từ các nhà lãnh đạo ngành? Kiểm tra Triển lãm AI & Dữ liệu lớn diễn ra ở Amsterdam, California và London. Sự kiện toàn diện này được tổ chức cùng với các sự kiện hàng đầu khác bao gồm Hội nghị tự động hóa thông minh, BlockX, Tuần lễ Chuyển đổi sốVà An ninh mạng & Triển lãm Cloud.
Khám phá các sự kiện và hội thảo Online về công nghệ doanh nghiệp sắp tới khác do TechForge cung cấp đây.