Trước thềm Triển lãm AI & Dữ liệu lớn Châu Âu, AI News đã gặp Ivo Everts, Kiến trúc sư giải pháp cấp cao tại Databricksđể thảo luận về một số phát triển quan trọng nhằm định hình tương lai của AI nguồn mở và quản trị dữ liệu.
Một trong những thành tựu đáng chú ý của Databricks là mô hình DBRX, mô hình này đặt ra tiêu chuẩn mới cho các mô hình ngôn ngữ lớn mở (LLM).
Everts giải thích: “Sau khi phát hành, DBRX vượt trội hơn tất cả các mô hình mở hàng đầu khác về điểm chuẩn tiêu chuẩn và có khả năng suy luận nhanh hơn gấp 2 lần so với các mô hình như Llama2-70B”. “Nó được đào tạo hiệu quả hơn nhờ nhiều tiến bộ công nghệ.
“Từ quan điểm chất lượng, chúng tôi tin rằng DBRX là một trong những mô hình nguồn mở tốt nhất hiện có và khi chúng tôi đề cập đến ‘tốt nhất’, điều này có nghĩa là một loạt các tiêu chuẩn ngành, bao gồm hiểu ngôn ngữ (MMLU), Lập trình (HumanEval), và Toán (GSM8K).”
Mô hình AI nguồn mở nhằm mục đích “dân chủ hóa việc đào tạo LLM tùy chỉnh ngoài một số ít nhà cung cấp mô hình và cho các tổ chức thấy rằng họ có thể đào tạo LLM đẳng cấp thế giới trên dữ liệu của họ theo cách tiết kiệm chi phí”.
Phù hợp với cam kết của họ đối với hệ sinh thái mở, Databricks cũng đã cung cấp nguồn mở Danh mục thống nhất.
Everts lưu ý: “Danh mục Unity nguồn mở tăng cường khả năng áp dụng trên các nền tảng Cloud (ví dụ: AWS, Azure) và cơ sở hạ tầng tại chỗ. “Tính linh hoạt này cho phép các tổ chức áp dụng thống nhất các chính sách quản trị dữ liệu bất kể dữ liệu được lưu trữ hoặc xử lý ở đâu.”
Unity Catalog giải quyết các thách thức về việc mở rộng dữ liệu và kiểm soát quyền truy cập không nhất quán thông qua nhiều tính năng khác nhau:
- Quản lý truy cập dữ liệu tập trung: Everts cho biết: “Unity Catalog tập trung vào việc quản lý tài sản dữ liệu, cho phép các tổ chức quản lý các biện pháp kiểm soát truy cập một cách thống nhất”.
- Kiểm soát truy cập dựa trên vai trò (RBAC): Theo Everts, Unity Catalog “thực hiện Kiểm soát truy cập dựa trên vai trò (RBAC), cho phép các tổ chức chỉ định vai trò và quyền dựa trên hồ sơ người dùng”.
- Dòng dữ liệu và kiểm toán: Tính năng này “giúp các tổ chức giám sát việc sử dụng và phụ thuộc dữ liệu, giúp xác định và loại bỏ dữ liệu dư thừa hoặc lỗi thời dễ dàng hơn”, Everts giải thích. Ông nói thêm rằng nó cũng “ghi lại tất cả các truy cập và thay đổi dữ liệu, cung cấp quy trình kiểm tra chi tiết để đảm bảo tuân thủ các chính sách bảo mật dữ liệu”.
- Hỗ trợ đa Cloud và kết hợp: Everts chỉ ra rằng Unity Catalog “được thiết kế để quản lý quản trị dữ liệu trong môi trường nhiều Cloud và kết hợp” và “đảm bảo rằng dữ liệu được quản lý thống nhất, bất kể nó nằm ở đâu”.
Công ty đã giới thiệu Databricks AI/BImột sản phẩm kinh doanh thông minh mới tận dụng AI tổng quát để tăng cường khả năng khám phá và trực quan hóa dữ liệu. Everts tin rằng “một giải pháp BI thực sự thông minh cần hiểu được ngữ nghĩa và sắc thái độc đáo của doanh nghiệp để trả lời hiệu quả các câu hỏi cho người dùng doanh nghiệp”.
Hệ thống AI/BI bao gồm hai thành phần chính:
- Trang tổng quan: Everts mô tả đây là “giao diện Low-code, được hỗ trợ bởi AI để tạo và phân phối trang tổng quan tương tác nhanh”. Chúng bao gồm “các tính năng BI tiêu chuẩn như trực quan hóa, lọc chéo và báo cáo định kỳ mà không cần các dịch vụ quản lý bổ sung”.
- Thần đèn: Everts giải thích đây là “một giao diện đàm thoại để giải quyết các câu hỏi đặc biệt và tiếp theo thông qua ngôn ngữ tự nhiên”. Ông nói thêm rằng nó “học từ dữ liệu cơ bản để tạo ra các hình ảnh trực quan và đề xuất thích ứng nhằm đáp ứng các truy vấn của người dùng, cải thiện theo thời gian thông qua phản hồi và cung cấp các công cụ để các nhà phân tích tinh chỉnh kết quả đầu ra của nó”.
Everts tuyên bố rằng Databricks AI/BI được thiết kế để cung cấp “sự hiểu biết sâu sắc về ngữ nghĩa dữ liệu của bạn, cho phép mọi người trong tổ chức tự phân tích dữ liệu”. Ông lưu ý rằng nó được hỗ trợ bởi “một hệ thống AI tổng hợp liên tục học hỏi từ việc sử dụng trên toàn bộ kho dữ liệu của tổ chức, bao gồm các đường dẫn ETL, dòng dõi và các truy vấn khác”.
Databricks cũng được công bố AI khảmđược Everts mô tả là “một nền tảng toàn diện để xây dựng, triển khai và quản lý các ứng dụng Machine Learning và AI tổng hợp, tích hợp dữ liệu doanh nghiệp để nâng cao hiệu suất và quản trị”.
Khảm AI cung cấp một số thành phần chính mà Everts phác thảo:
- Công cụ thống nhất: Cung cấp “các công cụ để xây dựng, triển khai, đánh giá và quản lý các giải pháp AI và ML, hỗ trợ các mô hình dự đoán và các ứng dụng AI tổng quát”.
- Các mẫu AI sáng tạo: “Hỗ trợ kỹ thuật nhanh chóng, tạo tăng cường truy xuất (RAG), tinh chỉnh và đào tạo trước, mang lại sự linh hoạt khi nhu cầu kinh doanh phát triển.”
- Quản lý mô hình tập trung: “Phục vụ mô hình cho phép triển khai, quản trị và truy vấn tập trung các mô hình AI, bao gồm các mô hình ML tùy chỉnh và các mô hình nền tảng.”
- Giám sát và quản trị: “Danh mục thống nhất và giám sát Lakehouse đảm bảo giám sát, quản trị và theo dõi dòng dõi toàn diện trong suốt vòng đời AI.”
- LLM tùy chỉnh hiệu quả về chi phí: “Cho phép đào tạo và cung cấp các mô hình ngôn ngữ lớn tùy chỉnh với chi phí thấp hơn đáng kể, phù hợp với các miền tổ chức cụ thể.”
Everts nhấn mạnh rằng cách tiếp cận của Khảm AI để tinh chỉnh và tùy chỉnh các mô hình nền tảng bao gồm các tính năng độc đáo như “thời gian khởi động nhanh” bằng cách “sử dụng bộ nhớ đệm mô hình cơ sở trong cụm”, “đánh giá nhanh chóng trực tiếp” nơi người dùng có thể “theo dõi cách phản hồi của mô hình thay đổi xuyên suốt quá trình đào tạo” và hỗ trợ cho “các điểm kiểm tra được đào tạo trước tùy chỉnh”.
Trọng tâm của những đổi mới này nằm ở Nền tảng thông minh dữ liệumà Everts cho biết “chuyển đổi việc quản lý dữ liệu bằng cách sử dụng các mô hình AI để hiểu sâu hơn về ngữ nghĩa của dữ liệu doanh nghiệp”. Nền tảng này kết hợp các tính năng của hồ dữ liệu và kho dữ liệu, sử dụng công nghệ Delta Lake để xử lý dữ liệu theo thời gian thực và kết hợp Chia sẻ Delta để trao đổi dữ liệu an toàn xuyên ranh giới tổ chức.
Everts giải thích rằng Nền tảng thông minh dữ liệu đóng một vai trò quan trọng trong việc hỗ trợ các sáng kiến chia sẻ dữ liệu và AI mới bằng cách cung cấp:
- Một nền tảng dữ liệu và AI thống nhất “kết hợp các tính năng của hồ dữ liệu và kho dữ liệu thành một kiến trúc duy nhất.”
- Hồ Delta để xử lý dữ liệu theo thời gian thựcđảm bảo “quản trị dữ liệu đáng tin cậy, giao dịch ACID và xử lý dữ liệu theo thời gian thực”.
- Hợp tác và chia sẻ dữ liệu thông qua Delta Sharing, cho phép “chia sẻ dữ liệu mở và an toàn xuyên qua các ranh giới tổ chức”.
- Hỗ trợ tích hợp cho việc học máy và phát triển mô hình AI với các thư viện phổ biến như MLflow, PyTorch và TensorFlow.
- Khả năng mở rộng và hiệu suất thông qua kiến trúc dựa trên nền tảng Cloud và công cụ Photon, “một công cụ thực thi truy vấn được tối ưu hóa”.
Với tư cách là nhà tài trợ chính của Triển lãm AI & Dữ liệu lớn Châu ÂuDatabricks có kế hoạch giới thiệu các giải pháp quản trị dữ liệu và AI nguồn mở của họ trong sự kiện này.
Everts cho biết: “Tại gian hàng của chúng tôi, chúng tôi cũng sẽ giới thiệu cách tạo và triển khai – với các ứng dụng Lakehouse – một ứng dụng GenAI tùy chỉnh từ đầu bằng cách sử dụng các mô hình nguồn mở từ Hugging Face và dữ liệu từ Unity Catalog”.
“Với ứng dụng GenAI của chúng tôi, bạn có thể tạo hình ảnh hoạt hình của riêng mình, tất cả đều chạy trên Nền tảng thông minh dữ liệu.”
Databricks sẽ chia sẻ nhiều hơn về kiến thức chuyên môn của họ tại năm nay Triển lãm AI & Dữ liệu lớn Châu Âu. Hãy ghé qua gian hàng của Databricks tại gian hàng số 280 để tìm hiểu thêm về AI mở và cải thiện quản trị dữ liệu.
Khám phá các sự kiện và hội thảo Online về công nghệ doanh nghiệp sắp tới khác do TechForge cung cấp đây.