tìm kiếm sâu đã tiết lộ các mẫu DeepSeek-R1 và DeepSeek-R1-Zero thế hệ đầu tiên được thiết kế để giải quyết các nhiệm vụ suy luận phức tạp.
DeepSeek-R1-Zero chỉ được đào tạo thông qua học tăng cường (RL) quy mô lớn mà không dựa vào tinh chỉnh có giám sát (SFT) như một bước sơ bộ. Theo DeepSeek, cách tiếp cận này đã dẫn đến sự xuất hiện tự nhiên của “nhiều hành vi lý luận mạnh mẽ và thú vị”, bao gồm việc tự xác minh, phản ánh và tạo ra chuỗi suy nghĩ rộng lớn (CoT).
“Đáng chú ý là [DeepSeek-R1-Zero] là nghiên cứu mở đầu tiên xác nhận rằng khả năng suy luận của LLM có thể được khuyến khích hoàn toàn thông qua RL mà không cần SFT,” các nhà nghiên cứu DeepSeek giải thích. Cột mốc quan trọng này không chỉ nhấn mạnh nền tảng đổi mới của mô hình mà còn mở đường cho những tiến bộ tập trung vào RL trong lý luận AI.
Tuy nhiên, khả năng của DeepSeek-R1-Zero có một số hạn chế nhất định. Những thách thức chính bao gồm “sự lặp lại vô tận, khả năng đọc kém và khả năng trộn ngôn ngữ” có thể gây ra những trở ngại đáng kể trong các ứng dụng trong thế giới thực. Để giải quyết những thiếu sót này, DeepSeek đã phát triển mẫu máy hàng đầu của mình: DeepSeek-R1.
Giới thiệu DeepSeek-R1
DeepSeek-R1 được xây dựng dựa trên phiên bản tiền nhiệm bằng cách kết hợp dữ liệu khởi động nguội trước khi đào tạo RL. Bước đào tạo trước bổ sung này giúp nâng cao khả năng suy luận của mô hình và giải quyết nhiều hạn chế được ghi nhận trong DeepSeek-R1-Zero.
Đáng chú ý, DeepSeek-R1 đạt được hiệu suất tương đương với hệ thống o1 được đánh giá cao của OpenAI trong các nhiệm vụ toán học, Token hoá và lý luận chung, củng cố vị trí của nó như một đối thủ cạnh tranh hàng đầu.
DeepSeek đã chọn nguồn mở cả DeepSeek-R1-Zero và DeepSeek-R1 cùng với sáu mẫu chưng cất nhỏ hơn. Trong số này, DeepSeek-R1-Distill-Qwen-32B đã cho thấy kết quả vượt trội—thậm chí còn vượt trội so với o1-mini của OpenAI trên nhiều điểm chuẩn.
- MATH-500 (Pass@1): DeepSeek-R1 đạt 97,3%, làm lu mờ OpenAI (96,4%) và các đối thủ chính khác.
- LiveCodeBench (Pass@1-COT): Phiên bản chưng cất DeepSeek-R1-Distill-Qwen-32B đạt 57,2%, hiệu suất vượt trội so với các mẫu nhỏ hơn.
- AIME 2024 (Pass@1): DeepSeek-R1 đạt 79,8%, thiết lập tiêu chuẩn ấn tượng trong việc giải quyết vấn đề toán học.
Một đường dẫn mang lại lợi ích cho ngành công nghiệp rộng lớn hơn
DeepSeek đã chia sẻ những hiểu biết sâu sắc về quy trình nghiêm ngặt của mình để phát triển mô hình lý luận, tích hợp sự kết hợp giữa tinh chỉnh có giám sát và học tăng cường.
Theo công ty, quy trình này bao gồm hai giai đoạn SFT để thiết lập các khả năng lý luận cơ bản và phi lý luận, cũng như hai giai đoạn RL được thiết kế để khám phá các mẫu lý luận nâng cao và điều chỉnh các khả năng này cho phù hợp với sở thích của con người.
DeepSeek nhận xét: “Chúng tôi tin rằng hệ thống này sẽ mang lại lợi ích cho ngành bằng cách tạo ra các mô hình tốt hơn”, ám chỉ tiềm năng phương pháp của họ trong việc truyền cảm hứng cho những tiến bộ trong tương lai trên toàn lĩnh vực AI.
Một thành tựu nổi bật trong cách tiếp cận tập trung vào RL của họ là khả năng DeepSeek-R1-Zero thực hiện các mẫu lý luận phức tạp mà không cần có sự hướng dẫn trước của con người — lần đầu tiên đối với cộng đồng nghiên cứu AI nguồn mở.
Tầm quan trọng của quá trình chưng cất
Các nhà nghiên cứu của DeepSeek cũng nhấn mạnh tầm quan trọng của quá trình chắt lọc—quá trình chuyển khả năng suy luận từ mô hình lớn hơn sang mô hình nhỏ hơn, hiệu quả hơn, một chiến lược giúp tăng hiệu suất ngay cả đối với các cấu hình nhỏ hơn.
Các phiên bản được chắt lọc nhỏ hơn của DeepSeek-R1 – chẳng hạn như các phiên bản 1.5B, 7B và 14B – đã có thể giữ vững vị trí của riêng mình trong các ứng dụng thích hợp. Các mô hình được chắt lọc có thể đạt được kết quả tốt hơn thông qua đào tạo RL trên các mô hình có quy mô tương đương.
🔥 Phần thưởng: Các mô hình chưng cất mã nguồn mở!
🔬 Được chắt lọc từ DeepSeek-R1, 6 mẫu nhỏ có nguồn mở hoàn toàn
📏 Model 32B & 70B ngang bằng với OpenAI-o1-mini
🤝 Trao quyền cho cộng đồng nguồn mở🌍 Vượt qua ranh giới của **AI mở**!
🐋 2/n pic.twitter.com/tfXLM2xtZZ
– DeepSeek (@deepseek_ai) Ngày 20 tháng 1 năm 2025
Đối với các nhà nghiên cứu, các mô hình chắt lọc này có sẵn với cấu hình từ 1,5 tỷ đến 70 tỷ tham số, hỗ trợ kiến trúc Qwen2.5 và Llama3. Tính linh hoạt này cho phép sử dụng linh hoạt trong nhiều tác vụ khác nhau, từ viết mã đến hiểu ngôn ngữ tự nhiên.
DeepSeek đã áp dụng license MIT cho kho lưu trữ và trọng lượng của mình, mở rộng quyền cho mục đích sử dụng thương mại và sửa đổi tiếp theo. Cho phép các tác phẩm phái sinh, chẳng hạn như sử dụng DeepSeek-R1 để đào tạo các mô hình ngôn ngữ lớn (LLM) khác. Tuy nhiên, người dùng các mô hình chắt lọc cụ thể phải đảm bảo tuân thủ license của các mô hình cơ sở ban đầu, chẳng hạn như license Apache 2.0 và Llama3.
(Ảnh chụp bởi Prateek Katyal)
Xem thêm: Microsoft nâng cao khả năng khám phá vật liệu với MatterGen
Bạn muốn tìm hiểu thêm về AI và dữ liệu lớn từ các nhà lãnh đạo ngành? Kiểm tra Triển lãm AI & Dữ liệu lớn diễn ra ở Amsterdam, California và London. Sự kiện toàn diện này được tổ chức cùng với các sự kiện hàng đầu khác bao gồm Hội nghị tự động hóa thông minh, BlockX, Tuần lễ Chuyển đổi sốVà An ninh mạng & Triển lãm Cloud.
Khám phá các sự kiện và hội thảo Online về công nghệ doanh nghiệp sắp tới khác do TechForge cung cấp đây.