Các nhà lãnh đạo IT đang tìm cách thu được giá trị kinh doanh từ dữ liệu mà công ty của họ thu thập phải đối mặt với vô số thách thức. Có lẽ điều ít được hiểu nhất là cơ hội bị mất khi không làm tốt dữ liệu được tạo và thường được lưu trữ, nhưng hiếm khi được tương tác.
Cái gọi là “dữ liệu tối” này, được đặt theo tên vật chất tối của vật lý, là thông tin được thu thập thường xuyên trong quá trình hoạt động kinh doanh: Nó được tạo ra bởi nhân viên, khách hàng và quy trình kinh doanh. Nó được tạo ra dưới dạng tệp nhật ký bởi máy móc, ứng dụng và hệ thống bảo mật. Đó là các tài liệu phải được lưu cho các mục đích tuân thủ và dữ liệu nhạy cảm không bao giờ được lưu, nhưng vẫn vậy.
Theo Gartner, phần lớn vũ trụ thông tin doanh nghiệp của bạn bao gồm “dữ liệu tối” và nhiều công ty thậm chí không biết họ có bao nhiêu dữ liệu này. Lưu trữ nó làm tăng khả năng tuân thủ và rủi ro an ninh mạng, và tất nhiên, làm như vậy cũng làm tăng chi phí.
Tìm ra dữ liệu tối mà bạn có, nơi lưu trữ và thông tin nào trong đó là một bước thiết yếu để đảm bảo các phần có giá trị của dữ liệu tối này được an toàn và những phần không nên lưu sẽ bị xóa. Nhưng lợi ích thực sự của việc khai quật những túi dữ liệu ẩn này có thể nằm ở việc đưa nó vào sử dụng để thực sự mang lại lợi ích cho doanh nghiệp.
Nhưng khai thác dữ liệu tối không phải là nhiệm vụ dễ dàng. Nó có nhiều định dạng khác nhau, có thể hoàn toàn không được định dạng, bị khóa trong các tài liệu được quét hoặc các tệp âm thanh hoặc video, chẳng hạn.
Dưới đây là cách một số tổ chức đang chuyển đổi dữ liệu tối thành cơ hội kinh doanh và lời khuyên của những người trong ngành dành cho các nhà lãnh đạo IT đang tìm cách tận dụng dữ liệu tối.
Âm thanh được mã hóa từ các trình điều khiển xe đua
Trong 5 năm, Envision Racing đã thu thập các bản ghi âm từ hơn 100 cuộc đua Công thức E, mỗi cuộc đua có hơn 20 tay đua.
Amaresh Tripathy, nhà lãnh đạo toàn cầu về phân tích tại Genpact, một công ty tư vấn đã giúp Envision Racing sử dụng dữ liệu này cho biết: “Các luồng radio có sẵn ở tần số mở để mọi người có thể nghe.
Trước đây, các kỹ sư đường đua của đội đua có trụ sở tại Vương quốc Anh đã cố gắng sử dụng các hệ thống truyền âm thanh này trong thời gian thực trong các cuộc đua, nhưng tên mã và từ viết tắt mà người lái xe sử dụng khiến rất khó để tìm ra những gì đang được nói và cách sử dụng nó, như Tripathy nói, hiểu những gì các tay đua khác đang nói có thể giúp các tay đua của Envision Racing thực hiện chiến lược đua của họ.
“Chẳng hạn như khi nào thì sử dụng chế độ tấn công. Khi nào cần vượt người lái xe. Khi nào nên sử dụng phanh, ”anh nói.
Envision Racing cũng đang thu thập dữ liệu cảm biến từ những chiếc xe của chính mình, chẳng hạn như từ lốp xe, pin và thời gian nghỉ, đồng thời mua dữ liệu bên ngoài từ các nhà cung cấp, chẳng hạn như tốc độ gió và lượng mưa.
Genpact và Envision Racing đã làm việc cùng nhau để mở khóa giá trị của các luồng dữ liệu này, sử dụng xử lý ngôn ngữ tự nhiên để xây dựng các mô hình học sâu nhằm phân tích chúng. Quá trình này mất sáu tháng, từ chuẩn bị đường dẫn dữ liệu, nhập dữ liệu, lọc bỏ tiếng ồn, để tạo ra các cuộc trò chuyện có ý nghĩa.
Tripathy cho biết con người mất từ 5 đến 10 giây để tìm ra những gì họ đang nghe, một sự chậm trễ khiến việc liên lạc vô tuyến trở nên không liên quan. Giờ đây, nhờ vào các dự đoán và thông tin chi tiết của mô hình AI, giờ đây chúng có thể phản hồi sau một đến hai giây.
Vào tháng 7, tại Giải vô địch thế giới ABB FIA Formula E ở New York, đội Envision Racing đã giành vị trí thứ nhất và thứ ba, kết quả là Tripathy ghi nhận việc sử dụng những dữ liệu tối trước đây.
Dữ liệu vàng tối: Dữ liệu do con người tạo ra
Các tệp âm thanh của Envision Racing là một ví dụ về dữ liệu tối do con người tạo ra, nhằm mục đích sử dụng cho người khác – không phải bởi máy móc. Kon Leong, đồng sáng lập và Giám đốc điều hành của ZL Technologies, một nhà cung cấp nền tảng lưu trữ dữ liệu, cho biết loại dữ liệu tối này có thể cực kỳ hữu ích cho các doanh nghiệp.
Ông nói: “Nó vô cùng mạnh mẽ để hiểu mọi yếu tố thuộc khía cạnh con người của doanh nghiệp, bao gồm văn hóa, hiệu suất, ảnh hưởng, chuyên môn và sự gắn kết. “Các nhân viên chia sẻ một lượng lớn thông tin và kiến thức kỹ thuật số mỗi ngày, nhưng cho đến thời điểm này, phần lớn nó vẫn chưa được khai thác.”
Thông tin có trong email, tin nhắn và tệp có thể giúp các tổ chức thu được thông tin chi tiết như những người có ảnh hưởng nhất trong tổ chức là ai. “Tám mươi phần trăm thời gian của công ty được dành để giao tiếp. Tuy nhiên, phân tích thường xử lý dữ liệu chỉ phản ánh 1% thời gian của chúng ta, ”Leong nói.
Việc xử lý dữ liệu phi cấu trúc do con người tạo ra là một thách thức duy nhất. Ví dụ, kho dữ liệu thường không được thiết lập để xử lý những thông tin liên lạc này. Hơn nữa, việc thu thập các thông tin liên lạc này có thể tạo ra các vấn đề mới cho các công ty giải quyết, liên quan đến việc tuân thủ, quyền riêng tư và khám phá pháp lý.
Leong nói: “Những khả năng quản trị này không xuất hiện trong khái niệm hồ dữ liệu ngày nay và trên thực tế bằng cách thu thập dữ liệu vào hồ dữ liệu, bạn tạo ra một silo khác làm tăng rủi ro về quyền riêng tư và tuân thủ”.
Thay vào đó, các công ty cũng có thể để dữ liệu này ở nơi nó hiện đang cư trú, chỉ cần thêm một lớp lập chỉ mục và siêu dữ liệu để có thể tìm kiếm. Ông nói: Để dữ liệu đúng vị trí cũng sẽ giữ nó trong các cấu trúc tuân thủ hiện có.
Quản trị hiệu quả là chìa khóa
Một cách tiếp cận khác để xử lý dữ liệu tối có giá trị và nguồn gốc đáng ngờ là bắt đầu với truy xuất nguồn gốc.
Andy Petrella, tác giả của Các nguyên tắc cơ bản về khả năng quan sát dữ liệu, hiện có sẵn ở dạng phát hành trước từ O’Reilly. Petrella cũng là người sáng lập công ty cung cấp khả năng quan sát dữ liệu Kensu.
Ông nói: “Thách thức với việc sử dụng dữ liệu tối là mức độ tin cậy vào nó rất thấp, đặc biệt là về vị trí và cách thức dữ liệu được thu thập. “Khả năng quan sát có thể làm cho dòng dữ liệu trở nên minh bạch, do đó có thể truy xuất nguồn gốc. Khả năng truy xuất nguồn gốc cho phép kiểm tra chất lượng dữ liệu dẫn đến sự tự tin trong việc sử dụng những dữ liệu này để đào tạo các mô hình AI hoặc hành động dựa trên trí thông minh mà nó mang lại ”.
Chuck Soha, giám đốc điều hành của StoneTurn, một công ty tư vấn toàn cầu chuyên về các vấn đề quy định, rủi ro và tuân thủ, đồng ý rằng cách tiếp cận phổ biến để giải quyết dữ liệu tối – ném mọi thứ vào hồ dữ liệu – tiềm ẩn những rủi ro đáng kể.
Ông nói, điều này đặc biệt đúng trong ngành dịch vụ tài chính, nơi các công ty đã gửi dữ liệu vào các hồ dữ liệu trong nhiều năm. Ông nói: “Trong một doanh nghiệp điển hình, bộ phận IT tập trung tất cả dữ liệu có sẵn vào một nơi với một số siêu dữ liệu cơ bản và tạo ra các quy trình để chia sẻ với các nhóm kinh doanh.
Điều đó phù hợp với các nhóm kinh doanh có tài năng phân tích cần thiết trong nội bộ hoặc nhờ các chuyên gia tư vấn bên ngoài cho các Case study cụ thể. Nhưng phần lớn những sáng kiến này chỉ thành công một phần, Soha nói.
Ông nói: “Các CIO chuyển đổi từ việc không biết những gì họ không biết thành biết những gì họ không biết.
Thay vào đó, các công ty nên bắt đầu với việc quản trị dữ liệu để hiểu dữ liệu có là gì và nó có thể có những vấn đề gì, giám đốc chất lượng dữ liệu trong số đó.
“Các bên liên quan có thể quyết định xem có nên làm sạch và chuẩn hóa nó hay chỉ bắt đầu lại với các phương pháp quản lý thông tin tốt hơn,” Soha nói và nói thêm rằng việc đầu tư vào việc trích xuất thông tin chi tiết từ dữ liệu có chứa thông tin không nhất quán hoặc mâu thuẫn sẽ là một sai lầm.
Soha cũng khuyên bạn nên kết nối các điểm giữa các dữ liệu hoạt động tốt đã có sẵn bên trong các đơn vị kinh doanh riêng lẻ. Ông nói: Việc tìm ra những mối quan hệ này có thể tạo ra những hiểu biết hữu ích và nhanh chóng mà có thể không cần phải xem bất kỳ dữ liệu tối nào ngay lập tức. “Và nó cũng có thể xác định những khoảng trống có thể ưu tiên vị trí trong dữ liệu tối cần bắt đầu tìm để lấp đầy những khoảng trống đó.”
Cuối cùng, ông nói, AI có thể rất hữu ích trong việc giúp hiểu được dữ liệu phi cấu trúc còn sót lại. Ông nói: “Bằng cách sử dụng Machine Learning và kỹ thuật AI, con người có thể xem xét ít nhất 1% dữ liệu tối và phân loại mức độ liên quan của nó. “Sau đó, một mô hình học tập củng cố có thể nhanh chóng tạo ra điểm số liên quan cho dữ liệu còn lại để ưu tiên dữ liệu nào cần xem xét kỹ hơn.”
Các giải pháp phổ biến do AI hỗ trợ để xử lý dữ liệu tối bao gồm Textract của Amazon, Dịch vụ nhận thức Azure của Microsoft và Bản đồ dữ liệu của IBM, cũng như các API Cloud Vision, Document, AutoML và NLP của Google.
Trong quan hệ đối tác của Genpact với Envision Racing, Genpact đã mã hóa các thuật toán Machine Learning nội bộ, Tripathy nói. Ông nói thêm rằng kiến thức cần thiết này về Docker, Kubernetes, Java và Python, cũng như NLP, học sâu và phát triển thuật toán học máy, đồng thời cho biết thêm rằng một kiến trúc sư MLOps đã quản lý toàn bộ quy trình.
Thật không may, những kỹ năng này rất khó để có được. Trong một báo cáo được phát hành vào mùa thu năm ngoái bởi Splunk, chỉ 10% đến 15% trong số hơn 1.300 nhà ra quyết định kinh doanh và IT được khảo sát cho biết tổ chức của họ đang sử dụng AI để giải quyết vấn đề dữ liệu tối. Thiếu các kỹ năng cần thiết là trở ngại chính trong việc sử dụng dữ liệu tối, chỉ đứng sau khối lượng dữ liệu.
Một vấn đề (và cơ hội) đang gia tăng
Trong khi đó, dữ liệu tối vẫn là một ẩn chứa nhiều rủi ro – và cơ hội. Ước tính phần dữ liệu doanh nghiệp bị tối thay đổi từ 40% đến 90%, tùy thuộc vào ngành.
Theo một Báo cáo tháng 7 từ Nhóm Chiến lược Doanh nghiệpvà được tài trợ bởi Quest, trung bình 47% tất cả dữ liệu là dữ liệu tối, với 1/5 số người được hỏi cho biết hơn 70% dữ liệu của họ là dữ liệu tối. Cuộc khảo sát của Splunk cho thấy những phát hiện tương tự, với trung bình 55% dữ liệu doanh nghiệp là dữ liệu tối và một phần ba số người được hỏi nói rằng 75% hoặc hơn dữ liệu của tổ chức của họ là dữ liệu tối.
Và tình hình có thể sẽ trở nên tồi tệ hơn trước khi nó trở nên tốt hơn, vì 60% người được hỏi nói rằng hơn một nửa dữ liệu trong tổ chức của họ không được thu thập chút nào và phần lớn trong số đó thậm chí không được hiểu là có tồn tại hay không. Khi dữ liệu đó được tìm thấy và lưu trữ, lượng dữ liệu tối sẽ tiếp tục tăng lên.
Đã đến lúc các CIO cùng nhau đưa ra một kế hoạch về cách đối phó với nó – với mục tiêu tận dụng tối đa mọi dữ liệu đen tối cho thấy hứa hẹn trong việc tạo ra giá trị mới cho doanh nghiệp.
Nguồn thông tin : www.cio.com