Các chuẩn đánh giá AI khiếm khuyết đặt ngân sách doanh nghiệp vào rủi ro bởi AI Agent

Một bài đánh giá học thuật mới đây cho thấy các tiêu chuẩn đánh giá AI hiện nay còn nhiều hạn chế, có thể dẫn đến việc các doanh nghiệp đưa ra quyết định quan trọng dựa trên dữ liệu “dễ gây hiểu lầm”.

Các lãnh đạo doanh nghiệp đang chi ngân sách lên đến hàng trăm triệu đô cho các chương trình AI tạo sinh. Những quyết định mua sắm và phát triển này thường dựa vào các bảng xếp hạng và tiêu chuẩn đánh giá công khai để so sánh năng lực mô hình.

Một nghiên cứu quy mô lớn với tên gọi ‘Measuring what Matters: Construct Validity in Large Language Model Benchmarks’ đã phân tích 445 tiêu chuẩn đánh giá LLM từ các hội nghị AI hàng đầu. Đội ngũ gồm 29 chuyên gia đánh giá phát hiện ra rằng “gần như tất cả các bài báo đều có điểm yếu ít nhất ở một khía cạnh nào đó,” làm suy yếu những tuyên bố về hiệu suất của mô hình.

Đối với các Giám đốc Công nghệ (CTO) và Giám đốc Dữ liệu (CDO), điều này ảnh hưởng trực tiếp đến quản trị AI và chiến lược đầu tư. Nếu một tiêu chuẩn đánh giá được cho là đo lường ‘an toàn’ hay ‘độ bền vững’ nhưng thực tế không phản ánh đúng những đặc tính đó, tổ chức có thể triển khai mô hình làm tăng rủi ro tài chính và uy tín nghiêm trọng.

Vấn đề ‘tính hợp lệ của phép đo’ (construct validity)

Các nhà nghiên cứu tập trung vào nguyên lý khoa học cốt lõi gọi là tính hợp lệ của phép đo (construct validity). Nói đơn giản, đây là mức độ mà một bài kiểm tra có thể đo đúng khái niệm trừu tượng mà nó tuyên bố đo lường.

Chẳng hạn, mặc dù ‘trí thông minh’ không thể đo trực tiếp, người ta tạo ra các bài kiểm tra làm đại diện có thể đo lường được. Bài báo nhấn mạnh nếu một tiêu chuẩn có tính hợp lệ thấp, “một điểm cao có thể là không liên quan hoặc thậm chí gây hiểu nhầm”.

Vấn đề này phổ biến trong việc đánh giá AI. Nghiên cứu chỉ ra các khái niệm chính thường “định nghĩa mơ hồ hoặc vận hành chưa rõ ràng”. Điều này dẫn tới “những tuyên bố khoa học thiếu căn cứ, nghiên cứu đi sai hướng và các chính sách không dựa trên bằng chứng vững chắc”.

Khi các nhà cung cấp cạnh tranh hợp đồng doanh nghiệp bằng cách khoe điểm số cao trên các bảng xếp hạng, các lãnh đạo thực chất đang tin tưởng vào các điểm số đó như một đại diện tin cậy cho hiệu quả kinh doanh thực tế. Nhưng nghiên cứu mới cho thấy niềm tin đó có thể là nhầm lẫn.

Điểm yếu trong các tiêu chuẩn AI dành cho doanh nghiệp

Bài đánh giá xác định nhiều điểm yếu hệ thống từ cách thiết kế tiêu chuẩn đến cách báo cáo kết quả.

Định nghĩa mơ hồ hoặc gây tranh cãi: Không thể đo lường điều ta không thể định nghĩa rõ. Nghiên cứu cho thấy ngay cả khi có định nghĩa về hiện tượng cần đo, 47,8% định nghĩa được xem là “gây tranh cãi,” nghĩa là có nhiều cách hiểu khác nhau hoặc không có định nghĩa rõ ràng.

Bài báo lấy ‘vô hại’ (harmlessness) – một mục tiêu quan trọng trong việc đảm bảo an toàn AI doanh nghiệp – làm ví dụ cho hiện tượng thường thiếu định nghĩa thống nhất. Nếu hai nhà cung cấp đạt điểm khác nhau trên tiêu chuẩn ‘vô hại’, có thể chỉ phản ánh những định nghĩa khác nhau theo ý thích, chứ không phải sự khác biệt thật sự trong mức độ an toàn của mô hình.

Thiếu rigor thống kê: Điều đáng lo nhất với các tổ chức dữ liệu là chỉ có 16% trong 445 tiêu chuẩn sử dụng ước lượng độ không chắc chắn hoặc các kiểm định thống kê để so sánh kết quả mô hình.

Không có phân tích thống kê, khó phân biệt liệu khoảng cách 2% giữa Mô hình A và Mô hình B có phải là khác biệt thật sự về năng lực hay chỉ là do ngẫu nhiên. Các quyết định doanh nghiệp đang dựa trên những con số không đủ tiêu chuẩn cho một đánh giá khoa học hay kinh doanh cơ bản.

Nhiễm dữ liệu và ghi nhớ máy (memorisation): Nhiều tiêu chuẩn, đặc biệt là các bài toán về lý luận (như bộ dữ liệu GSM8K phổ biến), bị ảnh hưởng khi các câu hỏi và đáp án đã xuất hiện trong dữ liệu huấn luyện trước đó của mô hình.

Khi đó, mô hình không thực sự lý luận để tìm ra câu trả lời mà chỉ đơn giản là nhớ lại. Một điểm số cao trong trường hợp này phản ánh trí nhớ tốt chứ không phải khả năng suy luận nâng cao mà doanh nghiệp thực sự cần để giải quyết nhiệm vụ phức tạp. Bài báo cảnh báo điều này “làm giảm tính hợp lệ của kết quả” và khuyến nghị tích hợp các bước kiểm tra nhiễm dữ liệu ngay trong tiêu chuẩn đánh giá.

Dữ liệu không đại diện: Nghiên cứu phát hiện 27% tiêu chuẩn dựa trên “lấy mẫu tiện lợi,” ví dụ tái sử dụng dữ liệu từ tiêu chuẩn hoặc đề thi có sẵn. Dữ liệu này thường không phản ánh đúng hiện tượng thực tế.

Ví dụ, tác giả lưu ý việc tái sử dụng câu hỏi từ “bài thi không dùng máy tính” có thể dẫn tới các bài toán với con số được chọn để dễ tính toán cơ bản. Một mô hình có thể đạt điểm cao với bài thi này, nhưng điểm số đó “không dự đoán được hiệu suất với các con số lớn, nơi mà các LLM thường gặp khó khăn.” Từ đó tạo ra một điểm mù quan trọng, che giấu điểm yếu đã biết của mô hình.

Từ số liệu công khai đến đánh giá nội bộ

Đối với các lãnh đạo doanh nghiệp, nghiên cứu này là lời cảnh báo nghiêm túc: các tiêu chuẩn AI công khai không thể thay thế cho việc đánh giá nội bộ và theo lĩnh vực chuyên môn. Điểm số cao trên bảng xếp hạng công khai không đảm bảo mô hình phù hợp với mục đích kinh doanh cụ thể.

Isabella Grandi, Giám đốc Chiến lược dữ liệu và Quản trị tại NTT DATA UK&I, nhận xét: “Một tiêu chuẩn đánh giá đơn lẻ có thể không đủ để phản ánh đầy đủ sự phức tạp của hệ thống AI, và kỳ vọng vào điều đó có thể làm biến thành trò chơi con số thay vì đo lường trách nhiệm thực tế. Điều quan trọng nhất là đánh giá liên tục dựa trên các nguyên tắc rõ ràng để đảm bảo công nghệ phục vụ con người cũng như sự tiến bộ.

“Phương pháp luận tốt – như được quy định trong ISO/IEC 42001:2023 – cân bằng qua năm nguyên tắc cốt lõi: trách nhiệm giải trình, công bằng, minh bạch, an ninh và cơ chế khắc phục. Trách nhiệm giải trình xác định chủ sở hữu và người chịu trách nhiệm đối với bất cứ hệ thống AI nào được triển khai. Minh bạch và công bằng định hướng các quyết định hướng đến kết quả có đạo đức và giải thích được. An ninh và bảo mật là điều kiện bắt buộc, ngăn chặn việc sử dụng sai mục đích và tăng cường niềm tin công chúng. Cơ chế khắc phục và tranh chấp cung cấp phương tiện giám sát quan trọng, giúp con người có thể thách thức và sửa lỗi khi cần thiết.

“Tiến bộ thực sự trong AI phụ thuộc vào sự hợp tác giữa tầm nhìn của chính phủ, sự tò mò của giới học thuật và sức mạnh thực tiễn của doanh nghiệp. Khi hợp tác dựa trên đối thoại cởi mở và tiêu chuẩn chung được áp dụng, nó tạo dựng được sự minh bạch cần thiết để mọi người có thể đặt niềm tin vào hệ thống AI. Đổi mới có trách nhiệm luôn dựa trên sự phối hợp chặt chẽ nhằm tăng cường giám sát đồng thời giữ vững khát vọng phát triển.”

Bài báo đưa ra tám khuyến nghị cụ thể như một danh sách kiểm tra thiết thực cho các doanh nghiệp muốn xây dựng tiêu chuẩn đánh giá AI nội bộ, phù hợp với cách tiếp cận dựa trên nguyên tắc.

Định nghĩa rõ hiện tượng cần đo: Trước khi thử nghiệm mô hình, tổ chức phải tạo ra một “định nghĩa chính xác và có thể vận hành được cho hiện tượng cần đo.” Ví dụ, một phản hồi ‘hữu ích’ nghĩa là gì trong bối cảnh dịch vụ khách hàng của bạn? ‘Chính xác’ nghĩa là gì đối với báo cáo tài chính?

Xây dựng tập dữ liệu đại diện: Tiêu chuẩn đánh giá giá trị nhất là tiêu chuẩn được xây dựng từ dữ liệu nội bộ của bạn. Bài báo khuyên nhà phát triển “xây dựng tập dữ liệu đại diện cho nhiệm vụ,” nghĩa là sử dụng các trường hợp thể hiện đúng kịch bản, định dạng và thách thức thực tế mà nhân viên và khách hàng của bạn đối mặt.

Phân tích lỗi của mô hình: Không chỉ đơn thuần nhìn vào điểm số cuối cùng. Báo cáo khuyến nghị các đội nên “phân tích định tính và định lượng các dạng lỗi phổ biến.” Việc hiểu tại sao mô hình thất bại có giá trị hơn chỉ biết điểm số của nó. Nếu lỗi xảy ra trên những chủ đề ít quan trọng, hiếm gặp thì có thể chấp nhận; nhưng nếu lỗi ở các tình huống phổ biến và có giá trị cao nhất, điểm số đó trở nên không có ý nghĩa.

Chứng minh tính hợp lệ: Cuối cùng, nhóm làm việc phải “lý giải vì sao tiêu chuẩn này có liên quan với ứng dụng thực tiễn.” Mỗi lần đánh giá phải đi kèm lý do rõ ràng cho thấy bài kiểm tra này thực sự là đại diện phù hợp cho giá trị kinh doanh.

Cuộc đua triển khai AI tạo sinh đang thúc đẩy các tổ chức phải hoạt động nhanh hơn mức khung quản trị có thể theo kịp. Báo cáo này chỉ ra công cụ dùng để đo tiến trình thường tồn tại nhiều sai sót. Con đường đáng tin cậy duy nhất là ngừng đặt niềm tin vào các tiêu chuẩn AI chung chung và bắt đầu “đo lường những điều thực sự quan trọng” cho doanh nghiệp của bạn.

Nguồn : https://www.artificialintelligence-news.com/