Close Menu
    Facebook X (Twitter) Instagram
    Facebook X (Twitter) Instagram
    Your Smart Business Idea
    Subscribe
    • Smart Technology

      AI Agent đa phương tiện Baidu ERNIE vượt trội hơn GPT và Gemini trong các bài đánh giá chuẩn

      13 Tháng mười một, 2025

      Hợp tác chip Tesla-Intel: Chi phí bằng 10% của Nvidia cho AI Agent

      11 Tháng mười một, 2025

      Giữ “AI Agent” nguyên, phần còn lại của tiêu đề “95% đến 0% thị phần mất mát” có thể được viết lại như sau:“Giữ thị phần từ 95% đến 0% với AI Agent”Hoặc nếu cần câu ngắn gọn và tự nhiên hơn:“95% đến 0% mất thị phần với AI Agent”Bạn có thể cho tôi biết thêm bối cảnh sử dụng để tôi dịch chính xác hơn không?

      10 Tháng mười một, 2025

      Cuộc đặt cược lớn tiếp theo của Microsoft về AI: xây dựng siêu trí tuệ nhân văn với AI Agent

      8 Tháng mười một, 2025

      Chiến lược nâng cao hiệu quả chính phủ AI Agent của Dubai được tiết lộ

      7 Tháng mười một, 2025
    • Smart Business
      1. Go To Market
      2. Customer Success
      3. Operation
      4. Supply Chain
      5. Human Resources
      6. View All

      AI Product Manager Canvas: Nâng Tầm Quản Lý & Vận Hành Sản Phẩm AI Hiệu Quả cho doanh nghiệp

      21 Tháng 6, 2025

      Tối Ưu Trải Nghiệm Khách Hàng Với Conversational Marketing Và AI

      18 Tháng 6, 2025

      Giải Mã Video Storytelling bằng AI: Tối Ưu Hiệu Quả Marketing và Chăm Sóc Khách Hàng

      13 Tháng 6, 2025

      Tối Ưu Chuyển Đổi Với Customer Journey Analysis (CJA) : Khi Mỗi Điểm Chạm Trở Thành Cơ Hội Tăng Trưởng

      12 Tháng 6, 2025

      AI Product Canvas: Tấm Bản Đồ Chiến Lược Biến Ý Tưởng AI Thành Hiện Thực

      24 Tháng 6, 2025

      Ứng dụng AI trong B2B Customer Portal – Giải pháp nâng cao chăm sóc khách hàng doanh nghiệp

      6 Tháng 6, 2025

      Hướng dẫn về Giải pháp Field Service Management (FSM)

      20 Tháng 4, 2025

      Những phần mềm chuyển đổi số quan trọng cho doanh nghiệp ngành năng lượng tái tạo

      8 Tháng 4, 2025

      Ứng dụng OpenAI & n8n & RPA: Tự động hóa thông minh cho doanh nghiệp hiện đại

      29 Tháng 5, 2025

      Từ PIM, PDM đến Digital Product Passport: Chuẩn hóa dữ liệu sản phẩm

      26 Tháng 5, 2025

      Triển khai Hệ thống Quản lý Tri thức (KMS) trong Doanh nghiệp: Lộ trình và Ứng dụng với Hệ sinh thái Google

      24 Tháng 5, 2025

      Notion – Giải Pháp Workspace Tất Cả Trong Một Cho Doanh Nghiệp Thời Đại Số

      23 Tháng 5, 2025

      Vì sao Supply Chain Finance vẫn là ‘mảnh đất trống’ đầy tiềm năng cho SMEs tại Việt Nam?

      13 Tháng 5, 2025

      Trí tuệ nhân tạo (AI) có thể giúp các tổ chức trong báo cáo ESG như thế nào ?

      9 Tháng 5, 2025

      EcoVadis là gì ? Lợi ích, ứng dụng và chiến lược triển khai ESG thành công tại Việt Nam

      7 Tháng 5, 2025

      Watershed – Giải pháp Carbon Management Thế Hệ Mới Cho Doanh Nghiệp

      6 Tháng 5, 2025

      Chiến lược xây dựng Agentic AI cho doanh nghiệp: Từ công cụ hỗ trợ đến hệ sinh thái ra quyết định

      19 Tháng 5, 2025

      Khi AI càng xã hội hoá : Cá nhân, doanh nghiệp và xã hội sẽ đi về đâu ?

      7 Tháng 9, 2025

      AI Product Canvas: Tấm Bản Đồ Chiến Lược Biến Ý Tưởng AI Thành Hiện Thực

      24 Tháng 6, 2025

      AI Product Manager Canvas: Nâng Tầm Quản Lý & Vận Hành Sản Phẩm AI Hiệu Quả cho doanh nghiệp

      21 Tháng 6, 2025

      Tối Ưu Trải Nghiệm Khách Hàng Với Conversational Marketing Và AI

      18 Tháng 6, 2025
    • Smart Strategy
    • Smart Finance
    • Smart Green
    • News
    Your Smart Business Idea
    Trang chủ » Blog » AI Agent đa phương tiện Baidu ERNIE vượt trội hơn GPT và Gemini trong các bài đánh giá chuẩn
    AI

    AI Agent đa phương tiện Baidu ERNIE vượt trội hơn GPT và Gemini trong các bài đánh giá chuẩn

    Smart Business VietnamBy Smart Business Vietnam13 Tháng mười một, 202506 Mins Read
    Facebook Twitter Pinterest Copy Link LinkedIn Tumblr Email Telegram WhatsApp
    Follow Us
    Facebook LinkedIn
    Share
    Facebook Twitter LinkedIn Pinterest Email Copy Link

    Mẫu AI đa phương tiện siêu hiệu quả mới nhất của Baidu, ERNIE, đang vượt mặt GPT và Gemini trên các chuẩn đánh giá quan trọng và tập trung khai thác dữ liệu doanh nghiệp thường bị bỏ qua bởi các mô hình chỉ tập trung vào văn bản.

    Đối với nhiều doanh nghiệp, những thông tin giá trị được cất giữ trong các sơ đồ kỹ thuật, video từ nhà máy, hình ảnh y tế hay bảng điều khiển logistics. Mẫu ERNIE-4.5-VL-28B-A3B-Thinking mới của Baidu được thiết kế để lấp đầy khoảng trống này.

    Điều thú vị với các kiến trúc sư doanh nghiệp không chỉ là khả năng đa phương tiện, mà còn là cấu trúc của mô hình. Được mô tả như một mô hình “nhẹ”, chỉ kích hoạt ba tỷ tham số trong quá trình vận hành. Cách tiếp cận này nhằm hướng tới giảm thiểu chi phí suy luận cao – một trong những rào cản khiến các dự án mở rộng AI bị trì hoãn. Baidu đặt cược vào hiệu quả như con đường để được chấp nhận rộng rãi, đào tạo hệ thống làm nền tảng cho các “AI Agent đa phương tiện” có thể suy luận và hành động, chứ không chỉ đơn thuần nhận biết.

    Khả năng phân tích dữ liệu hình ảnh phức tạp thể hiện qua các chuẩn đánh giá AI

    Mô hình ERNIE đa phương tiện của Baidu nổi bật trong việc xử lý dữ liệu phức tạp không chỉ là văn bản. Ví dụ, nó có thể diễn giải biểu đồ “Nhắc nhở Giờ Cao Điểm” để xác định thời gian tham quan tối ưu – một vấn đề phản ánh thách thức trong quản lý tài nguyên logistics hay bán lẻ.

    ERNIE 4.5 còn cho thấy năng lực trong các lĩnh vực kỹ thuật như giải một sơ đồ mạch cầu áp dụng các định luật Ohm và Kirchhoff. Với các phòng R&D và kỹ thuật, trợ lý tương lai có thể xác nhận thiết kế hoặc giải thích các sơ đồ phức tạp cho nhân viên mới.

    Khả năng này được củng cố qua các benchmark của Baidu, cho thấy ERNIE-4.5-VL-28B-A3B-Thinking vượt trội hơn các đối thủ như GPT-5-High và Gemini 2.5 Pro trong một số bài kiểm tra quan trọng:

    • MathVista: ERNIE (82.5) so với Gemini (82.3) và GPT (81.3)
    • ChartQA: ERNIE (87.1) so với Gemini (76.3) và GPT (78.2)
    • VLMs Are Blind: ERNIE (77.3) so với Gemini (76.5) và GPT (69.6)

    Tuy nhiên, cần lưu ý rằng các chuẩn đánh giá AI chỉ mang tính tham khảo và có thể có sai sót. Do đó, hãy luôn thực hiện kiểm tra nội bộ phù hợp với nhu cầu trước khi triển khai bất kỳ mô hình AI nào cho các ứng dụng quan trọng.

    Baidu chuyển trọng tâm từ nhận biết sang tự động hóa với mẫu AI ERNIE mới nhất

    Rào cản lớn nhất đối với AI doanh nghiệp là chuyển từ nhận biết (“đây là gì?”) sang tự động hóa (“tiếp theo là gì?”). ERNIE 4.5 tuyên bố giải quyết vấn đề này bằng cách tích hợp nhận diện hình ảnh với khả năng sử dụng công cụ.

    Khi yêu cầu AI đa phương tiện tìm tất cả người mặc vest trong một bức ảnh và trả về tọa độ theo định dạng JSON thì nó hoạt động hiệu quả. Mô hình tạo ra dữ liệu có cấu trúc này, một chức năng dễ dàng đưa vào dây chuyền sản xuất để kiểm tra hình ảnh hay trên hệ thống kiểm toán hình ảnh tại hiện trường nhằm đảm bảo tuân thủ an toàn.

    Mô hình còn có khả năng điều phối các công cụ bên ngoài và có thể tự động phóng to vào ảnh để đọc chữ nhỏ. Nếu gặp vật thể chưa biết, nó có thể kích hoạt tìm kiếm hình ảnh để xác định đối tượng. Đây là dạng AI chủ động hơn, có thể không chỉ cảnh báo lỗi tại trung tâm dữ liệu mà còn phóng to đoạn mã, tìm kiếm trong kho tri thức nội bộ và gợi ý cách sửa lỗi.

    Mở khóa trí tuệ doanh nghiệp với AI đa phương tiện

    Mẫu ERNIE AI mới của Baidu còn hướng đến khai thác kho video doanh nghiệp từ các buổi đào tạo, họp hành cho đến hình ảnh giám sát an ninh. Nó có thể trích xuất toàn bộ phụ đề trên màn hình và gắn chúng với dấu thời gian chính xác.

    ERMIE cũng thể hiện khả năng nhận biết thời gian, tìm ra các cảnh cụ thể (chẳng hạn đoạn “quay trên cầu”) qua phân tích các dấu hiệu hình ảnh. Mục tiêu rõ ràng là biến kho video đồ sộ thành dữ liệu có thể tìm kiếm, giúp nhân viên nhanh chóng tìm được khoảnh khắc cụ thể một chủ đề được đề cập trong buổi hội thảo kéo dài hai tiếng mà họ có thể đã chợp mắt vài lần.

    Baidu đưa ra hướng dẫn triển khai với nhiều tùy chọn khác nhau, bao gồm transformers, vLLM và FastDeploy. Tuy nhiên, yêu cầu phần cứng khá cao là rào cản lớn. Triển khai trên một GPU đơn cần bộ nhớ lên đến 80GB. Đây không phải là công cụ dành cho thử nghiệm nhỏ lẻ mà phù hợp với các tổ chức đã có hạ tầng AI hiệu năng cao.

    Với những tổ chức đủ điều kiện phần cứng, bộ công cụ ERNIEKit của Baidu cho phép tinh chỉnh dựa trên dữ liệu riêng; điều này rất cần thiết cho phần lớn các use case mang giá trị cao. Baidu cũng cung cấp mẫu ERNIE AI mới nhất dưới license Apache 2.0 cho phép sử dụng thương mại – yếu tố quan trọng để thúc đẩy sự chấp nhận rộng rãi.

    Thị trường cuối cùng đang tiến tới AI đa phương tiện có khả năng nhìn, đọc và hành động trong bối cảnh cụ thể của doanh nghiệp, và các chuẩn đánh giá cho thấy nó đang làm được điều đó với hiệu quả ấn tượng. Nhiệm vụ trước mắt là xác định những tác vụ suy luận hình ảnh có giá trị cao trong hoạt động của bạn và cân nhắc so với chi phí phần cứng và quản trị đáng kể.

    Nguồn : https://www.artificialintelligence-news.com/

    AI Automation RPA
    Follow on Google News Follow on Flipboard
    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email Copy Link
    Previous ArticleCông nghệ phát hiện âm thanh bất thường của FPT được bảo hộ tại Mỹ
    Smart Business Vietnam
    • Website
    • Facebook
    • X (Twitter)
    • LinkedIn

    I'm a strategic consultant and business development leader with over a decade of experience driving digital transformation across AI, data, ERP/CRM, and blockchain ecosystems.
    As the founder of SmartBusiness.vn and SmartIndustry.vn, I’m passionate about democratizing tech knowledge and enabling Vietnamese enterprises to grow smarter, faster, and more sustainably. I thrive at the intersection of innovation, strategic thinking, and execution — and I’m always open to connecting with visionary teams and changemakers. Please connect & discuss with me if you have any innovation ideas !

    Related Posts

    Công nghệ phát hiện âm thanh bất thường của FPT được bảo hộ tại Mỹ

    12 Tháng mười một, 2025

    Hợp tác chip Tesla-Intel: Chi phí bằng 10% của Nvidia cho AI Agent

    11 Tháng mười một, 2025

    Giữ “AI Agent” nguyên, phần còn lại của tiêu đề “95% đến 0% thị phần mất mát” có thể được viết lại như sau:“Giữ thị phần từ 95% đến 0% với AI Agent”Hoặc nếu cần câu ngắn gọn và tự nhiên hơn:“95% đến 0% mất thị phần với AI Agent”Bạn có thể cho tôi biết thêm bối cảnh sử dụng để tôi dịch chính xác hơn không?

    10 Tháng mười một, 2025
    Add A Comment

    Comments are closed.

    Bài mới

    AI Agent đa phương tiện Baidu ERNIE vượt trội hơn GPT và Gemini trong các bài đánh giá chuẩn

    13 Tháng mười một, 2025

    Công nghệ phát hiện âm thanh bất thường của FPT được bảo hộ tại Mỹ

    12 Tháng mười một, 2025

    Hợp tác chip Tesla-Intel: Chi phí bằng 10% của Nvidia cho AI Agent

    11 Tháng mười một, 2025

    Giữ “AI Agent” nguyên, phần còn lại của tiêu đề “95% đến 0% thị phần mất mát” có thể được viết lại như sau:“Giữ thị phần từ 95% đến 0% với AI Agent”Hoặc nếu cần câu ngắn gọn và tự nhiên hơn:“95% đến 0% mất thị phần với AI Agent”Bạn có thể cho tôi biết thêm bối cảnh sử dụng để tôi dịch chính xác hơn không?

    10 Tháng mười một, 2025

    Kết nối chính sách, công nghệ, đầu tư trong lĩnh vực năng lượng

    9 Tháng mười một, 2025

    Cuộc đặt cược lớn tiếp theo của Microsoft về AI: xây dựng siêu trí tuệ nhân văn với AI Agent

    8 Tháng mười một, 2025

    Chiến lược nâng cao hiệu quả chính phủ AI Agent của Dubai được tiết lộ

    7 Tháng mười một, 2025

    FPT bắt tay hai công ty tư vấn Indonesia phát triển các nền tảng số quốc gia

    6 Tháng mười một, 2025

    Type above and press Enter to search. Press Esc to cancel.