Thu thập dữ liệu đang trở thành thông lệ đối với nhiều doanh nghiệp. Cho dù để triển khai công nghệ sâu hay tiến hành phân tích, các nhà lãnh đạo doanh nghiệp đều liên tục tham gia vào việc thu thập hoặc sử dụng dữ liệu để cải thiện hoạt động của họ.
Khi mọi người nhận ra sức mạnh của việc khai thác dữ liệu, các quy định và thông lệ thu thập và sử dụng dữ liệu sẽ thay đổi. Vì vậy, các nhà lãnh đạo doanh nghiệp phải luôn cập nhật các xu hướng thu thập và sử dụng dữ liệu để duy trì luồng dữ liệu nhất quán và hữu ích trong chuỗi giá trị kinh doanh của họ.
Phát triển các mô hình AI/ML
Khi các doanh nghiệp cố gắng tự động hóa nhiều hoạt động kinh doanh hơn, các mô hình AI/ML trở nên phức tạp và có khả năng hơn. Ví dụ: một mô hình học sâu có thể tìm ra các tham số của riêng nó và học cách tự cải thiện. Tuy nhiên, điều này có nghĩa là những mô hình này không chỉ yêu cầu lượng dữ liệu lớn hơn đáng kể để học hỏi mà còn có thời gian học tập dài hơn nhiều.
Ví dụ: hệ thống nhận dạng khuôn mặt của Facebook đã được đào tạo với 4 triệu hình ảnh được gắn nhãn từ 4000 người. Điều này đã xảy ra vào năm 2014. Các mô hình nhận dạng khuôn mặt hiện tại yêu cầu bộ dữ liệu lớn hơn nữa. Việc tăng kích thước tập dữ liệu là một xu hướng sẽ tiếp tục được quan sát.
Bạn có thể kiểm tra danh sách các dịch vụ thu thập/thu thập dữ liệu dựa trên dữ liệu của chúng tôi để tìm ra tùy chọn tốt nhất phù hợp với dự án của bạn.
Sự phát triển trong các quy tắc và quy định
Dữ liệu là con dao hai lưỡi, vừa có thể là tài sản mạnh mẽ vừa có thể là trách nhiệm pháp lý có hại. Và để kiểm soát việc sử dụng và thu thập dữ liệu, các biện pháp quản lý đang được thực thi.
Nhiều quốc gia đang quy định việc sử dụng và chia sẻ dữ liệu, khiến các quy tắc trở nên nghiêm ngặt và toàn diện hơn. Sự phát triển trong các quy định liên quan đến thu thập, chia sẻ và sử dụng dữ liệu sẽ là một xu hướng khác sẽ tiếp tục được chú ý. Do đó, các công ty địa phương cần phải xem xét kỹ lưỡng các quy tắc và chính sách dành riêng cho từng quốc gia mà họ áp dụng liên quan đến việc thu thập và sử dụng dữ liệu trước khi bắt đầu bất kỳ hoạt động nào.
Sự gia tăng của dữ liệu phi cấu trúc
Để hiểu xu hướng này, trước tiên chúng ta hãy xem xét dữ liệu có cấu trúc và phi cấu trúc.
Dữ liệu cấu trúc
Dữ liệu có cấu trúc thường được lưu trữ trong cơ sở dữ liệu quan hệ. Nó có thể được con người hoặc phần mềm dễ dàng tìm kiếm và có thể được đặt vào các trường được chỉ định, có tổ chức. Ví dụ bao gồm địa chỉ, thẻ tín dụng hoặc số điện thoại. Dữ liệu phi cấu trúc
Dữ liệu phi cấu trúc trái ngược với dữ liệu có cấu trúc. Nó không phù hợp với các mô hình dữ liệu được xác định trước. Và nó không thể được lưu trữ trong cơ sở dữ liệu quan hệ. Do có nhiều định dạng khác nhau nên phần mềm thông thường không thể xử lý và phân tích dữ liệu này.
Nói cách khác:
Dữ liệu có cấu trúc và dữ liệu phi cấu trúc là hai loại dữ liệu chính có thể thu thập. Dữ liệu có cấu trúc là dữ liệu phù hợp với các bảng dữ liệu và bao gồm các kiểu dữ liệu rời rạc như số, văn bản ngắn và ngày tháng. Dữ liệu phi cấu trúc không phù hợp với bảng dữ liệu do kích thước hoặc tính chất của dữ liệu: ví dụ như tệp âm thanh và video và văn bản kích thước lớn. Đôi khi, dữ liệu số hoặc văn bản có thể không có cấu trúc vì việc lập mô hình loại dữ liệu này dưới dạng bảng không hiệu quả. Ví dụ: dữ liệu cảm biến là một luồng giá trị số không đổi, nhưng việc tạo một bảng có hai cột – dấu thời gian và giá trị cảm biến – sẽ không hiệu quả và không thực tế. Cả dữ liệu có cấu trúc và dữ liệu phi cấu trúc đều đóng vai trò thiết yếu trong phân tích hiện đại.
Trong quá khứ, dữ liệu có cấu trúc là vua. Tuy nhiên, điều đó hiện đã thay đổi và dữ liệu phi cấu trúc được sử dụng phổ biến hơn. Điều này là do dữ liệu phi cấu trúc đa dạng hơn nhiều so với dữ liệu có cấu trúc và có thể cung cấp những hiểu biết sâu sắc hơn về mọi thứ. Nhờ công nghệ mới như AI, ML, thị giác máy tính, v.v., dữ liệu phi cấu trúc giờ đây có thể được phân tích và sử dụng theo nhiều cách khác nhau để mang lại lợi ích cho doanh nghiệp.
Dữ liệu phi cấu trúc thường đặt ra hai thử thách lớn về:
- Việc lưu trữ vì dữ liệu phi cấu trúc thường lớn hơn dữ liệu có cấu trúc
- Việc phân tích vì phân tích dữ liệu phi cấu trúc không đơn giản như phân tích dữ liệu có cấu trúc
Dù bạn có thể thực hiện một vài phân tích bằng cách sử dụng các kỹ thuật như tìm kiếm từ khóa và khớp kiểu mẫu, nhưng ML thường liên quan đến dữ liệu phi cấu trúc như nhận dạng hình ảnh và phân tích cảm xúc.
Những thử thách khác có thể bao gồm:
- Xử lý trước để trích xuất dữ liệu có cấu trúc hoặc bán cấu trúc
- Xử lý đa định dạng
- Năng lực xử lý cần thiết để phân tích
Các nghiên cứu cho thấy khối lượng dữ liệu phi cấu trúc là 33 zettabyte vào năm 2019 và dự kiến sẽ tăng lên 175 zettabyte (175 tỷ terabyte) vào năm 2025. Với sự gia tăng áp dụng các giải pháp dựa trên AI/ML, việc sử dụng phần mềm để tổ chức phi cấu trúc dữ liệu cũng tăng lên và các công ty tiếp tục thu thập dữ liệu phi cấu trúc.
Dữ liệu được lưu trữ ở các tầng khác nhau
Do khối lượng dữ liệu được tạo và sử dụng tiếp tục tăng nên các nhà lãnh đạo doanh nghiệp đang tập trung nỗ lực vào các chiến lược quản lý dữ liệu, bao gồm công nghệ lưu trữ và bảo vệ dữ liệu. Một phương pháp thịnh hành khác để quản lý dữ liệu tốt hơn là phân tầng dữ liệu. Các tổ chức có mức độ phát triển kỹ thuật số mạnh mẽ đang sắp xếp dữ liệu của họ dựa trên:
- Khối lượng dữ liệu: Họ có bao nhiêu và tốc độ tăng trưởng.
- Sự đa dạng của dữ liệu: Loại dữ liệu họ có, chi tiết lưu trữ dữ liệu và khả năng truy cập dữ liệu.
- Tốc độ dữ liệu: Tốc độ dữ liệu được tạo ra.
- Ưu tiên dữ liệu: Tác động của dữ liệu đến hoạt động kinh doanh.
Dựa trên những cân nhắc này, dữ liệu được lưu trữ ở các tầng khác nhau.
Đa dạng dữ liệu
Sự thiên vị trong AI đang ngày càng trở thành mối lo ngại của các doanh nghiệp. Ví dụ: các nghiên cứu cho thấy hệ thống nhận dạng khuôn mặt hỗ trợ AI cho kết quả sai nhiều hơn đối với phụ nữ, nam giới và trẻ em có làn da sẫm màu hơn so với những người có màu da sáng hơn.
Sự thiên vị này có thể được giảm bớt thông qua việc đánh giá lại việc đào tạo các mô hình AI/ML và đa dạng hóa các tập dữ liệu đào tạo. Đa dạng hóa dữ liệu được thu thập để đào tạo các mô hình AI/ML là một xu hướng khác đang được quan sát. Chẳng hạn, IBM và Microsoft đang thực hiện các bước để tối ưu hóa hệ thống nhận dạng khuôn mặt của họ theo hướng trung lập về chủng tộc và giới tính.
Quy trình & lộ trình thu thập dữ liệu AI
Việc thu thập dữ liệu đào tạo có liên quan cho các mô hình AI của bạn có thể là một thách thức (Hình 1). Trong khi một số công ty làm việc với các dịch vụ dữ liệu AI hoặc nền tảng cung cấp dữ liệu từ cộng đồng , những công ty khác lại thu thập dữ liệu của riêng họ. Nếu việc chuẩn bị và thu thập dữ liệu trong khi đào tạo và triển khai AI được thực hiện không đúng cách, nó có thể dẫn đến hiệu suất mô hình thấp và thất bại của toàn bộ dự án.
Hình 1. Rào cản áp dụng AI.
1. Lập kế hoạch và xác định nhu cầu
Đây sẽ là bước đầu tiên của bạn để có được dữ liệu liên quan. Giai đoạn lập kế hoạch là một trong những giai đoạn quan trọng nhất của quá trình thu thập dữ liệu vì nó đặt nền tảng cho toàn bộ dự án. Hãy xem xét những điều sau trong kế hoạch thu thập dữ liệu của bạn:
1.1. Xác định mục tiêu
Trước khi thu thập dữ liệu, điều cần thiết là phải hiểu rõ ràng về những gì bạn dự định đạt được với mô hình AI hoặc ML. Việc xác định các yêu cầu dữ liệu sẽ hướng dẫn bạn thu thập dữ liệu chính xác, đảm bảo rằng bạn đang thu thập dữ liệu hữu ích cho trường hợp sử dụng cụ thể của mình.
Ví dụ: nếu hệ thống thị giác máy tính được yêu cầu thực hiện đảm bảo chất lượng cho táo trên băng chuyền được chiếu sáng tốt, hệ thống đó sẽ không được hưởng lợi từ việc đào tạo hình ảnh quả táo trong các môi trường ánh sáng khác nhau. Đó là bởi vì trên thực tế, ánh sáng phía trên băng chuyền sẽ duy trì ổn định:
Hình 2. Hình ảnh các loại táo được phân loại theo loại1
1.2. Xác định nguồn dữ liệu
Một trong những bước đầu tiên là xác định dữ liệu của bạn sẽ đến từ đâu. Tùy thuộc vào mục tiêu của bạn, các nguồn dữ liệu khác nhau có thể phù hợp hơn những nguồn khác. Cho dù đó là từ các nguồn trực tuyến, khách hàng hay nền tảng khác tạo ra dữ liệu mới theo yêu cầu, nguồn đó phải phù hợp với mục tiêu dự án của bạn để thu thập dữ liệu chính xác nhất có thể.
Ví dụ: hệ thống nhận dạng khuôn mặt tại sân bay sẽ phân tích các khuôn mặt có hình dạng, màu sắc và kích cỡ khác nhau. Điều này đòi hỏi một tập dữ liệu đa dạng và lớn. Việc thu thập tập dữ liệu nội bộ như vậy có thể tốn kém và mất thời gian; do đó, phương pháp huy động nguồn lực từ cộng đồng có thể hoạt động tốt hơn đối với tập dữ liệu như vậy.
1.3. Xem xét các nguồn lực
Nếu dự án của bạn yêu cầu phương pháp thu thập dữ liệu chuyên dụng, chẳng hạn như cảm biến cho thiết bị IoT, máy quay video để phát hiện đối tượng hoặc micrô để nhận dạng giọng nói, bạn sẽ cần xác định và chuẩn bị kỹ trước thiết bị thu thập dữ liệu cần thiết. Việc chuẩn bị này rất quan trọng để đảm bảo chất lượng và mức độ phù hợp của dữ liệu.
1.4. Xem xét các yếu tố pháp lý và đạo đức
Trong thế giới dựa trên dữ liệu ngày nay, bạn cũng phải xem xét các khía cạnh pháp lý và đạo đức của các phương pháp thu thập dữ liệu của mình. Điều này đặc biệt quan trọng khi xử lý thông tin nhạy cảm hoặc thông tin nhận dạng cá nhân. Bạn nên đảm bảo rằng bạn có quyền sử dụng dữ liệu mình đang thu thập và bạn nên tuân theo các phương pháp hay nhất về quyền riêng tư và bảo mật dữ liệu.
Tìm hiểu thêm về đạo đức thu thập dữ liệu tại đây .
2. Thiết kế và chuẩn bị
Trong giai đoạn này, bạn chọn phương pháp thu thập dữ liệu phù hợp và chuẩn bị các công cụ hoặc tài nguyên cần thiết có thể được yêu cầu.
2.1. Chọn phương pháp thu thập dữ liệu phù hợp
Bây giờ loại dữ liệu đã được xác định, bạn có thể xác định phương pháp mà dữ liệu đó sẽ được thu thập. Có 4 phương pháp chính để thu thập dữ liệu cho các dự án AI/ML của bạn:
- Thu thập dữ liệu từ cộng đồng: Nơi dữ liệu được lấy từ đám đông dưới dạng vi nhiệm vụ. Khi được thực hiện nội bộ, việc này có thể tốn kém và tốn kém; tuy nhiên, các nhà cung cấp dịch vụ thu thập/thu thập dữ liệu của bên thứ ba có thể cung cấp dịch vụ này một cách hiệu quả.
- Thu thập dữ liệu riêng tư/nội bộ: Phương pháp này phù hợp với các tập dữ liệu nhỏ với các dự án cá nhân hoặc nhạy cảm.
- Dữ liệu được làm sạch trước và đóng gói sẵn: Khi dự án không yêu cầu tập dữ liệu được cá nhân hóa cao, các tập dữ liệu sẵn có có thể là giải pháp phù hợp.
- Thu thập dữ liệu tự động: Để thu thập dữ liệu thứ cấp thông qua các phương tiện tự động, bạn có thể sử dụng các công cụ thu thập dữ liệu và thu thập thông tin trên web . Quét web liên quan đến việc tận dụng các bot để trích xuất dữ liệu từ các trang web của một miền cụ thể. Nhấn vào đây để tìm hiểu thêm về quét web.
Để tìm hiểu thêm về bốn phương pháp thu thập dữ liệu này, hãy xem phần đọc nhanh này .
2.2. Chuẩn bị tool và cơ sở hạ tầng
Khi đã quyết định kỹ thuật thu thập dữ liệu, bạn cần thiết lập các công cụ và cơ sở hạ tầng thu thập dữ liệu cần thiết để thu thập dữ liệu một cách hiệu quả.
Điều này có thể bao gồm từ việc mua các công cụ quét web cho đến mua thiết bị để tạo dữ liệu nội bộ. Các công cụ hoặc tài nguyên phải được kiểm tra nghiêm ngặt để đảm bảo chúng thu thập dữ liệu chính xác và phù hợp theo các phương pháp được xác định trước của bạn.
3. Đảm bảo chất lượng
Thực hiện QA và QC trong và sau khi dữ liệu được thu thập là điều tối quan trọng. Giai đoạn này đảm bảo dữ liệu đáng tin cậy, chính xác và hữu ích để xây dựng các mô hình học máy mạnh mẽ. Bạn có thể xem xét các bước sau:
3.1. Xác định các vấn đề về chất lượng dữ liệu
Trước và trong quá trình thu thập dữ liệu, các vấn đề tiềm ẩn về chất lượng dữ liệu cần được xác định. Biết trước những thách thức này có thể giúp điều chỉnh phương pháp thu thập dữ liệu của bạn để giảm thiểu chúng.
3.2. Quản lý chất lượng trong quá trình thu thập dữ liệu
Đảm bảo chất lượng bắt đầu từ chính quá trình thu thập dữ liệu. Mục tiêu ở đây là ngăn chặn các vấn đề về chất lượng dữ liệu xảy ra ngay từ đầu. Điều này bao gồm việc lập kế hoạch và xem xét kỹ lưỡng phương pháp thu thập dữ liệu để đảm bảo nó phù hợp với các mục tiêu tổng thể và tạo ra dữ liệu chất lượng cao.
Quá trình này còn được gọi là tiền xử lý dữ liệu trong đó dữ liệu được xử lý trong quá trình thu thập. Bạn cần phải:
- Làm sạch dữ liệu thô
- Đảm bảo tính toàn vẹn dữ liệu
- Xóa hoặc sửa dữ liệu không nhất quán
- Thêm dữ liệu còn thiếu
3.3. Kiểm tra chất lượng
Sau khi dữ liệu được thu thập, việc kiểm tra chất lượng sẽ được thực hiện để xác định bất kỳ lỗi hoặc sự không nhất quán nào có thể xuất hiện trong giai đoạn thu thập dữ liệu. Có thể áp dụng các phương pháp như xác thực dữ liệu, xóa dữ liệu không chính xác, kiểm tra thống kê hoặc thậm chí xem xét thủ công.
3.4. Giám sát liên tục
Chất lượng dữ liệu không phải là kiểm tra một lần mà là một quá trình liên tục. Khi thu thập được nhiều dữ liệu hơn, cần tiến hành kiểm tra định kỳ để đảm bảo chất lượng được duy trì và phương pháp thu thập dữ liệu vẫn hiệu quả.
3.5. Vòng lặp thông tin phản hồi và tinh chỉnh
Bất kỳ vấn đề nào về chất lượng dữ liệu được xác định phải được phản hồi lại quy trình QA để tinh chỉnh phương pháp thu thập dữ liệu, từ đó hình thành vòng phản hồi nhằm liên tục cải thiện chất lượng dữ liệu.
Tại sao phải thực hiện QA và QC?
Đảm bảo chất lượng của dữ liệu được thu thập cho phép:
- Giảm sai lệch AI
- Giảm khả năng trang bị quá mức/thiếu trang bị của mô hình
- Một quá trình đào tạo suôn sẻ
- Mức độ chính xác và hiệu suất cao hơn
- Ít dương tính giả và kết quả sai hơn
Để tìm hiểu thêm về cách cải thiện chất lượng quy trình thu thập dữ liệu của bạn, hãy xem phần đọc nhanh này.
4. Lưu trữ dữ liệu
Bất kể bạn chọn thu thập dữ liệu nội bộ hay chọn phương pháp cung cấp dịch vụ cộng đồng, kế hoạch lưu trữ được cân nhắc kỹ lưỡng là điều cần thiết để lưu trữ an toàn dữ liệu bạn đã thu thập. Dữ liệu này đóng vai trò là nền tảng để đào tạo mô hình học máy của bạn và tính bảo mật cũng như khả năng truy cập của nó là vô cùng quan trọng.
60% tất cả dữ liệu kinh doanh được lưu trữ trên đám mây. Dung lượng lưu trữ đám mây được ước tính vượt quá 100 zettabyte. 54,62% người tiêu dùng sử dụng 3 nhà cung cấp lưu trữ đám mây riêng biệt. Google Drive có gần 1 tỷ người dùng, trong khi Dropbox có hơn 700 triệu người dùng được xác nhận.
Đến năm 2028, thị trường toàn cầu về lưu trữ hỗ trợ AI dự kiến sẽ tăng lên 66,5 tỷ USD, mở rộng với tốc độ tăng trưởng kép hàng năm (CAGR) là 24,5% từ năm 2018 đến năm 2028.
Những cân nhắc sau đây có thể nâng cao chiến lược lưu trữ dữ liệu của bạn:
4.1. Đánh giá nhu cầu lưu trữ của bạn
Hiểu nhu cầu lưu trữ của bạn là rất quan trọng. Nếu bạn đang xử lý dữ liệu nhạy cảm hoặc riêng tư, bạn có thể yêu cầu các máy chủ riêng được tăng cường các biện pháp bảo mật cao. Ngoài ra, bạn nên xem xét các giải pháp lưu trữ có thể mở rộng vì kích thước tập dữ liệu của bạn có thể tăng theo thời gian, cần nhiều dung lượng lưu trữ hơn.
4.2. Đánh giá nhà cung cấp dịch vụ lưu trữ của bạn
Nếu bạn đang dựa vào các nhà cung cấp dịch vụ lưu trữ bên thứ ba, bạn bắt buộc phải xem xét kỹ lưỡng các giao thức bảo mật và phương pháp xử lý dữ liệu của họ. Đảm bảo rằng chúng đáp ứng các yêu cầu cụ thể của dự án của bạn về khả năng mở rộng và bảo mật. Xem lại hồ sơ theo dõi, chứng nhận tuân thủ và đánh giá của khách hàng để đưa ra quyết định sáng suốt.
4.3. Đảm bảo sao lưu đa định dạng
Một chiến lược sao lưu mạnh mẽ là điều cần thiết để bảo vệ và bảo mật dữ liệu. Nhiều bản sao lưu ở nhiều định dạng và vị trí khác nhau có thể bảo vệ khỏi mất dữ liệu do lỗi phần cứng, hỏng dữ liệu hoặc các sự kiện không lường trước khác. Các tùy chọn sao lưu có thể bao gồm sao lưu máy chủ cục bộ, ổ cứng ngoài và sao lưu bên ngoài trang web hoặc dựa trên đám mây.
5. Chú thích & gán nhãn dữ liệu
Chú thích dữ liệu cũng là một bước quan trọng trong việc chuẩn bị dữ liệu cho việc huấn luyện. Nó liên quan đến việc dán nhãn hoặc gắn thẻ dữ liệu để làm cho dữ liệu có thể đọc được bằng máy.
Ví dụ: đối với hệ thống nhận dạng khuôn mặt, hình ảnh khuôn mặt sẽ được chú thích bằng cách tạo thẻ trên các phần khác nhau của khuôn mặt trong ảnh.
Nếu không có chú thích chất lượng cao, dữ liệu được thu thập sẽ không thể đọc được hoặc vô dụng đối với mô hình. Một số nhà cung cấp dịch vụ thu thập dữ liệu cung cấp dịch vụ bổ sung này. Các loại chú thích dữ liệu khác nhau bao gồm:
- Chú thích văn bản
- Chú thích hình ảnh
- Chú thích tài liệu
- Chú thích video
- Kiểm tra chú thích
Để tìm hiểu thêm về chú thích dữ liệu và những thách thức bạn có thể gặp phải với nó, hãy xem phần đọc nhanh này.
6. Xử lý hồ sơ
Trong giai đoạn này, nhóm dự án nên ghi lại toàn bộ quá trình thu thập hoặc tạo dữ liệu để tạo điều kiện cho những cải tiến tiềm năng.
6.1. Metadata và tài liệu
Điều quan trọng là phải ghi lại một cách tỉ mỉ cách dữ liệu được thu thập, nguồn dữ liệu được sử dụng, mọi chuyển đổi được áp dụng cho dữ liệu và bất kỳ Metadata có liên quan nào khác.
Tài liệu này đóng vai trò như một lộ trình về nguồn gốc dữ liệu, đảm bảo rằng các nhà nghiên cứu hoặc nhà khoa học dữ liệu trong tương lai có thể hiểu được nguồn gốc, đặc điểm của tập dữ liệu và bất kỳ hạn chế tiềm ẩn nào. Tài liệu tốt sẽ nâng cao độ tin cậy và khả năng tái tạo của dữ liệu, từ đó góp phần tạo ra các mô hình học máy mạnh mẽ và đáng tin cậy hơn.
6.2. Vòng xem xét và phản hồi
Thiết lập một hệ thống để xem xét định kỳ quá trình thu thập dữ liệu, đặc biệt nếu đó là một sáng kiến đang diễn ra. Ghi lại mọi mâu thuẫn, vấn đề về chất lượng dữ liệu hoặc tắc nghẽn phát sinh. Quá trình xem xét theo lịch trình cho phép bạn thực hiện các điều chỉnh kịp thời đối với các phương pháp, công cụ hoặc giao thức thu thập dữ liệu của mình, đảm bảo tính liên quan và chất lượng của dữ liệu.
Vòng phản hồi này rất cần thiết cho quá trình cải tiến lặp đi lặp lại, giúp bạn thích ứng với các yêu cầu thay đổi hoặc những hiểu biết mới có thể xuất hiện khi dự án tiến triển.
Nguồn : https://research.aimultiple.com/data-collection-process/