Microsoft đã công bố dòng Phi-3 gồm các mô hình ngôn ngữ nhỏ mở (SLM), giới thiệu chúng là loại có khả năng và hiệu quả nhất về mặt chi phí so với kích thước hiện có của chúng. Phương pháp đào tạo đổi mới do các nhà nghiên cứu của Microsoft phát triển đã cho phép các mô hình Phi-3 hoạt động tốt hơn các mô hình lớn hơn về điểm chuẩn ngôn ngữ, Token hoá và toán học.
“Những gì chúng ta sắp bắt đầu thấy không phải là sự chuyển đổi từ lớn sang nhỏ, mà là sự chuyển đổi từ một danh mục mô hình đơn lẻ sang danh mục mô hình trong đó khách hàng có khả năng đưa ra quyết định đâu là mô hình tốt nhất cho nhu cầu của họ. Sonali Yadav, Giám đốc sản phẩm chính về AI sáng tạo tại Microsoft cho biết.
Mẫu Phi-3 đầu tiên, Phi-3-mini với 3,8 tỷ thông số, hiện đã có sẵn công khai trong Danh mục mô hình Azure AI, Ôm mặt, Ollama và dưới dạng vi dịch vụ NVIDIA NIM. Mặc dù có kích thước nhỏ gọn nhưng Phi-3-mini hoạt động tốt hơn các mẫu có kích thước gấp đôi. Các mẫu Phi-3 bổ sung như Phi-3-small (thông số 7B) và Phi-3-medium (thông số 14B) sẽ sớm ra mắt.
Luis Vargas, Phó Giám đốc AI của Microsoft cho biết: “Một số khách hàng có thể chỉ cần các mô hình nhỏ, một số sẽ cần các mô hình lớn và nhiều người sẽ muốn kết hợp cả hai theo nhiều cách khác nhau”.
Ưu điểm chính của SLM là kích thước nhỏ hơn cho phép triển khai trên thiết bị để mang lại trải nghiệm AI có độ trễ thấp mà không cần kết nối mạng. Các use case tiềm năng bao gồm cảm biến thông minh, máy ảnh, thiết bị nông nghiệp, v.v. Quyền riêng tư là một lợi ích khác bằng cách lưu giữ dữ liệu trên thiết bị.
Các mô hình ngôn ngữ lớn (LLM) vượt trội trong khả năng lập luận phức tạp trên các tập dữ liệu khổng lồ—các điểm mạnh phù hợp với các ứng dụng như khám phá thuốc bằng cách hiểu các tương tác giữa các tài liệu khoa học. Tuy nhiên, SLM cung cấp một giải pháp thay thế hấp dẫn để trả lời truy vấn, tóm tắt, tạo nội dung đơn giản hơn và những thứ tương tự.
Victor Botev, CTO và Đồng sáng lập của Iris.ai nhận xét: “Thay vì theo đuổi các mô hình ngày càng lớn hơn, Microsoft đang phát triển các công cụ với dữ liệu được quản lý cẩn thận hơn và đào tạo chuyên biệt”.
“Điều này cho phép cải thiện hiệu suất và khả năng suy luận mà không tốn chi phí tính toán lớn như các mô hình có hàng nghìn tỷ tham số. Việc thực hiện lời hứa này đồng nghĩa với việc phá bỏ rào cản lớn trong việc áp dụng đối với các doanh nghiệp đang tìm kiếm giải pháp AI.”
Kỹ thuật tập luyện đột phá
Điều đã tạo nên bước nhảy vọt về chất lượng SLM của Microsoft là phương pháp tiếp cận tạo và lọc dữ liệu đổi mới lấy cảm hứng từ sách truyện trước khi đi ngủ.
“Thay vì chỉ đào tạo về dữ liệu web thô, tại sao bạn không tìm kiếm dữ liệu có chất lượng cực cao?” Sebastien Bubeck, Phó chủ tịch phụ trách nghiên cứu SLM của Microsoft, đã hỏi.
Thói quen đọc sách hàng đêm của Ronen Eldan cùng con gái đã nảy sinh ý tưởng tạo ra bộ dữ liệu ‘TinyStories’ gồm hàng triệu câu chuyện đơn giản được tạo ra bằng cách gợi ý một mô hình lớn với sự kết hợp của các từ mà một đứa trẻ 4 tuổi có thể biết. Đáng chú ý, mô hình tham số 10M được đào tạo trên TinyStories có thể tạo ra những câu chuyện trôi chảy với ngữ pháp hoàn hảo.
Dựa trên thành công ban đầu đó, nhóm đã mua dữ liệu web chất lượng cao đã được kiểm duyệt có giá trị giáo dục để tạo tập dữ liệu ‘CodeTextbook’. Điều này được tổng hợp thông qua các vòng nhắc nhở, tạo và lọc bởi cả con người và các mô hình AI lớn.
Bubeck nói: “Việc tạo ra những dữ liệu tổng hợp này phải rất cẩn thận. “Chúng tôi không lấy mọi thứ chúng tôi sản xuất.”
Dữ liệu đào tạo chất lượng cao đã chứng tỏ sự biến đổi. Bubeck giải thích: “Bởi vì việc đọc từ tài liệu giống như sách giáo khoa…bạn làm cho nhiệm vụ của mô hình ngôn ngữ là đọc và hiểu tài liệu này dễ dàng hơn nhiều”.
Giảm thiểu rủi ro an toàn AI
Bất chấp việc quản lý dữ liệu chu đáo, Microsoft nhấn mạnh việc áp dụng các biện pháp an toàn bổ sung cho bản phát hành Phi-3 phản ánh các quy trình tiêu chuẩn của họ cho tất cả các mô hình AI tổng hợp.
Một bài đăng trên blog cho biết: “Giống như tất cả các bản phát hành mô hình AI tổng quát, sản phẩm của Microsoft và các nhóm AI có trách nhiệm đã sử dụng cách tiếp cận nhiều lớp để quản lý và giảm thiểu rủi ro trong việc phát triển các mô hình Phi-3”.
Điều này bao gồm các ví dụ đào tạo bổ sung để củng cố các hành vi dự kiến, đánh giá để xác định các lỗ hổng thông qua nhóm đỏ và cung cấp các công cụ Azure AI cho khách hàng để xây dựng các ứng dụng đáng tin cậy trên Phi-3.
(Ảnh của Tadas Sar)
Xem thêm: Microsoft thúc đẩy quan hệ đối tác AI với các nhà lãnh đạo công nghệ Hàn Quốc
Bạn muốn tìm hiểu thêm về AI và dữ liệu lớn từ các nhà lãnh đạo ngành? Hãy xem AI & Big Data Expo diễn ra ở Amsterdam, California và London. Sự kiện toàn diện này được tổ chức cùng với các sự kiện hàng đầu khác bao gồm BlockX, Tuần lễ Chuyển đổi số và An ninh mạng & Triển lãm đám mây.
Khám phá các sự kiện và hội thảo Online về công nghệ doanh nghiệp sắp tới khác do TechForge cung cấp tại đây.