Bạn đã bao giờ tự hỏi có bao nhiêu người nhìn thấy hoặc có lý do để truy cập dữ liệu nhạy cảm nhất của doanh nghiệp bạn trong khi thực hiện công việc của họ? Có bao nhiêu nhà khoa học dữ liệu, nhà phát triển phần mềm, đại diện hỗ trợ khách hàng, nhà tiếp thị và nhân viên bán hàng có thể xem dữ liệu khách hàng có thể tuân theo các quy định về quyền riêng tư dữ liệu như GDPR hoặc CCPA? Và, có bao nhiêu ứng dụng phần mềm doanh nghiệp cần sử dụng dữ liệu được bảo vệ quyền riêng tư trong một ngày làm việc?
Trong thời đại mà chi phí trung bình của bảo mật dữ liệu vi phạm trị giá hơn 4 triệu đô la và khi một số vi phạm dữ liệu khét tiếng khiến doanh nghiệp phải trả giá đắt hơn rất nhiều về danh tiếng và tăng cường giám sát theo quy định, các doanh nghiệp ngày càng chuyển sang sử dụng mặt nạ dữ liệu để bảo vệ một trong những tài sản quý giá nhất của họ.
Mặt nạ dữ liệu là gì?
Mặt nạ dữ liệu, đôi khi được gọi là che giấu dữ liệu, là một kỹ thuật sửa đổi dữ liệu cho phép những người hoặc ứng dụng được ủy quyền sử dụng dữ liệu khách hàng đồng thời ngăn chặn hoặc hạn chế việc những người hoặc ứng dụng không được phép tiếp xúc hoặc sử dụng dữ liệu đó. Trong một số trường hợp, người dùng trái phép có thể là tin tặc hoặc kẻ xâm nhập có ác ý.
Nhưng trong nhiều trường hợp, đặc biệt là trong các công ty dựa trên dữ liệu, người dùng trái phép có thể là nhà phát triển ứng dụng doanh nghiệp, nhà khoa học dữ liệu và người thử nghiệm. Hoặc, họ có thể là nhân viên trung tâm liên lạc và dịch vụ khách hàng, những người cần xem một số loại dữ liệu nhưng không được phép xem tất cả dữ liệu đó. Ví dụ, nhân viên trung tâm liên lạc có thể được phép xem lịch sử khiếu nại và cách giải quyết của người dùng, nhưng không được phép xem thông tin tài chính hoặc sức khỏe của khách hàng.
Mặt nạ dữ liệu trong thực tế
Trong Case study mặt nạ dữ liệu điển hình, nhà tiếp thị, nhà khoa học dữ liệu hoặc nhà phát triển phần mềm có thể muốn sử dụng cơ sở dữ liệu khách hàng cụ thể để phát triển ứng dụng khách hàng thân thiết. Nhưng bằng chứng đã chỉ ra rằng trong phần lớn các trường hợp, việc biết chính xác mã zip, ngày sinh và giới tính của ai đó là đủ để nhận dạng duy nhất họ. Có thể sử dụng mặt nạ dữ liệu để tạo một bản sao của dữ liệu gốc vẫn chứa thông tin về, chẳng hạn như khu vực chung của địa chỉ của từng khách hàng—bằng cách sử dụng ba chữ số đầu tiên của mã zip thay vì toàn bộ zip—để sử dụng trong các ứng dụng cho phân tích và thử nghiệm.
Trong một Case study khác để che giấu dữ liệu, những người có công việc liên quan đến thử nghiệm các ứng dụng yêu cầu số Tag tín dụng có thể có quyền truy cập vào một bản sao của cơ sở dữ liệu chính ban đầu để “thử nghiệm Sandbox” hoặc phân tích. Nhưng vì lợi ích của bảo mật dữ liệu, dữ liệu mà người thử nghiệm và nhà phát triển có thể truy cập có thể có số Tag tín dụng giả (tổng hợp) hoặc được thay đổi theo một số cách khác để che khuất thông tin nhạy cảm, thực. Trong trường hợp này, nếu số Tag tín dụng giả được sử dụng, thì dữ liệu Sandbox sẽ vẫn đáp ứng các yêu cầu đối với số Tag tín dụng, chẳng hạn như bốn số thực đầu tiên (đại diện cho tổ chức tài chính) hoặc tám số đầu tiên và chúng vẫn có một tổng kiểm tra hợp lệ.
Trong trường hợp này, không có số Tag tín dụng nào trong tập dữ liệu đã sửa đổi thực sự là số tài khoản Tag tín dụng có thể sử dụng được. Lợi thế của việc che giấu dữ liệu Trong Case study này là quyền riêng tư và bảo mật dữ liệu của khách hàng được bảo vệ bổ sung, trong khi các nhà khoa học dữ liệu, nhà phát triển ứng dụng và người thử nghiệm có được những gì họ cần. Các nhà tiếp thị cũng vẫn có thể hiểu rõ hơn về tập dữ liệu mà không ảnh hưởng đến quyền riêng tư.
Những thách thức với mặt nạ dữ liệu
Mối quan tâm tiềm ẩn với việc che dữ liệu là dữ liệu sản xuất trong thế giới thực có thể thay đổi sau khi dữ liệu Sandbox che đã được sao chép hoặc che giấu. Nếu nó thay đổi theo những cách quan trọng, thì những người thử nghiệm, nhà phát triển và thậm chí cả những nhà tiếp thị đang xem xét phân tích dựa trên dữ liệu bị che giấu có thể bỏ lỡ những hiểu biết hoặc hành vi quan trọng của hệ thống cơ bản. Hoặc, các hệ thống sản xuất dựa trên dữ liệu bị che giấu (hoặc dữ liệu tổng hợp) có thể không xử lý dữ liệu thực tốt như trong các hệ thống thử nghiệm, do có sự khác biệt không được phát hiện giữa dữ liệu thực tế và dữ liệu bị che giấu hoặc do theo thời gian, dữ liệu thực thay đổi theo những cách quan trọng, trong khi dữ liệu thử nghiệm thì không.
Mặt nạ dữ liệu tĩnh
Những rủi ro này, bao gồm thông tin chi tiết bị bỏ sót hoặc hành vi không chính xác chưa được gắn cờ trong quá trình thử nghiệm, có thể rất cao trong Case study mặt nạ dữ liệu tĩnh (SDM). SDM là khi dữ liệu nhạy cảm được thay thế vĩnh viễn bằng cách thay đổi dữ liệu ở trạng thái nghỉ. Trong trường hợp như vậy, các nhà phát triển và nhà tiếp thị có thể đang làm việc trên một tập dữ liệu không còn phản ánh thế giới thực theo cách quan trọng nữa.
Mặt nạ dữ liệu động
Mặt khác, mặt nạ dữ liệu động thay thế dữ liệu nhạy cảm trong quá trình truyền, giữ nguyên dữ liệu gốc ban đầu và do đó ít có khả năng gặp phải sự cố trôi mô hình hoặc trôi dữ liệu. Nhưng nếu dữ liệu thay đổi nhanh chóng, vẫn có thể xảy ra rủi ro về sự khác biệt hoặc bỏ lỡ những hiểu biết và cơ hội.
Mặt nạ dữ liệu nhanh chóng
On-the-fly là một kiểu che giấu dữ liệu sử dụng phương pháp trích xuất-chuyển đổi-tải (ETL) để chuyển đổi dữ liệu nhạy cảm từ một nguồn dữ liệu hoặc môi trường, che giấu nó và gửi đến một nguồn/môi trường dữ liệu khác để kết quả được che giấu dữ liệu có thể được chia sẻ hoặc sử dụng. Dữ liệu gốc vẫn chưa được che giấu, trong khi dữ liệu được che giấu kết quả được sử dụng trong môi trường thử nghiệm hoặc phát triển hoặc trong các ứng dụng khác yêu cầu dữ liệu được che giấu. Ngược lại, mặt nạ dữ liệu động xảy ra khi các chương trình đang chạy và được thực hiện theo yêu cầu khi cần. Tuy nhiên, trong mặt nạ dữ liệu động, tập dữ liệu gốc, hoàn chỉnh không bị ảnh hưởng và được lưu trữ dưới dạng mặt nạ.
Tuy nhiên, mặt nạ dữ liệu là một công cụ quan trọng giúp doanh nghiệp tận dụng tối đa dữ liệu của họ trong khi vẫn cung cấp bảo vệ dữ liệu quan trọng của khách hàng đối với thông tin nhạy cảm của họ.
Nền tảng dữ liệu khách hàng tốt và các ứng dụng khác cho phép doanh nghiệp che dấu dữ liệu
Nhu cầu che giấu dữ liệu đã phát triển trong những năm gần đây và những gì khởi đầu là một kỹ thuật được sử dụng chủ yếu trong nội bộ bởi các nhà phát triển phần mềm, nhà khoa học dữ liệu và người kiểm tra phần mềm đã trở nên phổ biến. Các tổng giá trị của thị trường mặt nạ dữ liệu được dự đoán sẽ đạt 767 triệu đô la vào năm 2022, với Tốc độ tăng trưởng kép hàng năm (CAGR) là 14,8 phần trăm. Nhiều nhà quan sát cho rằng sự tăng trưởng này là do các quy định và mối quan tâm về bảo vệ quyền riêng tư ngày càng tăng, cũng như khối lượng dữ liệu khách hàng ngày càng tăng nhanh trong môi trường nội bộ và đám mây phải được quản lý và bảo mật.
Nhiều công ty hiện cung cấp khả năng che giấu dữ liệu, trong các ứng dụng bảo vệ quyền riêng tư độc lập hoặc là một phần của sản phẩm lớn hơn, chẳng hạn như nền tảng dữ liệu khách hàng (CDP). Đây là một ví dụ về một số chức năng mặt nạ dữ liệu cho CDP nơi chúng xử lý mã hóa, giải mã và băm.
Nguồn : cdp.com (post by Automation bot)