Dark data - Khái niệm dữ liệu tưởng mới mà không mới
Dark data là gì?
Dark data là thông tin kỹ thuật số không được sử dụng. Theo Gartner Inc, Dark data có thể được mô tả là "tài sản thông tin mà một tổ chức thu thập, xử lý và lưu trữ trong quá trình hoạt động kinh doanh thông thường, nhưng không được sử dụng cho các mục đích khác."
Theo Bizfly Cloud tìm hiểu trong nhiều trường hợp, một tổ chức có thể để dữ liệu trở thành dark data vì một số lý do thực tế. Dữ liệu có thể đã bị biến đổi và đến một thời điểm nó có thể bị xóa, thông tin có thể đã quá cũ và không còn có ích. Trong những trường hợp như vậy, các bản ghi có thể chứa dữ liệu không đầy đủ hoặc lỗi thời, các phân tích cú pháp không chính xác, được lưu trữ ở định dạng tệp hoặc trên các thiết bị đã lỗi thời.
Càng ngày, thuật ngữ dark data càng được liên kết nhiều hơn với big data và dữ liệu vận hành. Ví dụ có thể kể đến như: các tệp nhật ký server có thể dùng để khai thác hành vi của khách truy cập website, hồ sơ chi tiết cuộc gọi của khách hàng bao gồm dữ liệu nhạy cảm không có cấu trúc của người tiêu dùng cũng như các dữ liệu định vị địa lý di động có thể dùng để phân tích các mẫu lưu lượng truy cập trong khi lập kế hoạch kinh doanh.
Cũng trong nhiều trường hợp, dark data có thể được sử dụng để thúc đẩy các nguồn doanh thu mới, loại bỏ lãng phí và giảm chi phí. Do đó, nhiều tổ chức lưu trữ dark data để nhằm tuân thủ các quy định khi sử dụng Hadoop, qua đó xác định các bit hữu ích và ánh xạ chúng tới các mục tiêu kinh doanh tiềm năng.
Những thách thức trong quản lý Dark data
Trọng tâm của quản lý dữ liệu truyền thống là các cơ sở dữ liệu quan hệ và các ứng dụng tương tác với chúng. Dữ liệu chứa trong các định dạng này có thể khó lấy và thao tác, nhưng sự tồn tại của chúng đã được biết đến.
Ngược lại, có rất nhiều dữ liệu mà các quản trị viên không thể nhìn thấy được. Nó tồn tại chủ yếu trong các tệp cá nhân và được quản lý trực tiếp bởi chính cá nhân đó thay vì các ứng dụng của công ty. Đây là dark data.
Mặc dù phạm vi của dark data ít được biết đến, nhưng có vẻ như phần lớn dữ liệu này nằm trong các bảng tính. Ngoài Excel, còn có hình ảnh scan, tài liệu Word, tệp PDF và cả các ứng dụng như PowerPoint.
Cho dù dark data nằm ở định dạng nào, nó cũng đang tồn tại trong một thế giới bí ẩn mà phần lớn các quản lý thông tin doanh nghiệp nói riêng và CNTT nói chung vẫn chưa biết đến. Cũng có lý do để tin rằng khối lượng và phạm vi của dark data đang tăng lên từng ngày.
Spreadsheets
Vai trò của bảng tính trong các doanh nghiệp cũng là một vấn đề. Vị trí của chúng trong sơ đồ chung bắt nguồn từ khi nổ ra cuộc cách mạng máy tính cá nhân. Trước sự ra đời của PC, người dùng không thể thực sự xử lý thông tin một cách độc lập, ngoại trừ trên giấy. Trong thời gian đó, máy tính tổng cung cấp các chức năng theo dạng hàng loạt. Khi màn hình xuất hiện, chúng thường là các thiết bị đầu cuối kiểu Dumb, màu xanh lá cây, loại 3270. Chính từ nền tảng sơ khai này, chúng ta có hệ thống phát triển như hiện tại. Khái niệm xử lý dữ liệu cá nhân không hề tồn tại trong hệ thống này và do đó, nó không nhận ra dark data.
Ngày nay, việc quản lý dữ liệu tập trung vào các cơ sở dữ liệu quan hệ được chia sẻ. Trách nhiệm đối với dữ liệu - một phần của quản trị dữ liệu – thường chỉ được thảo luận trong bối cảnh của các cơ sở dữ liệu này. Và vấn đề về dữ liệu người dùng tạo ra trên các spreadsheet gần như chưa được quan tâm đến.
Bảng tính và các hình thức xử lý dữ liệu cá nhân khác, do đó, nằm ngoài những gì quản lý dữ liệu phải chịu trách nhiệm.
Nguồn gốc của Dark data
Có thể tam phân ra bốn nguồn chính như sau:
- Dữ liệu thu được từ cơ sở dữ liệu của công ty (ví dụ: được sao chép từ màn hình hoặc được lưu từ các báo cáo được tạo trên màn hình).
- Dữ liệu được sản xuất trực tiếp bởi chính người dùng. Nguồn này có thể bao gồm master data (ví dụ: người dùng liên lạc với khách hàng mới trong lần đầu tiên có thể lưu trữ các chi tiết cuộc gọi trong spreadsheet).
- Dữ liệu lấy từ Internet. Ngày nay, dữ liệu này có thể là bất cứ thứ gì - từ tỷ giá hối đoái cho đến số điện thoại.
- Dữ liệu tính toán trong bảng tính. Số lượng rất nhiều các mô hình tài chính và mô hình khác có trong spreadsheet. Và người ta cho rằng các mô hình này đôi khi được sử dụng để quản lý tài sản trị giá hàng tỷ đô la.
Có một số vấn đề khá rõ ràng về dark data. Nổi trội trong đó chính là chất lượng dữ liệu. Lỗi trong khi sao chép hoặc chuyển dữ liệu có thể không được phát hiện. Ngoài ra, người dùng có thể không biết về các vấn đề chất lượng trong các nguồn dữ liệu họ đang sử dụng. Điều này đặc biệt đúng đối với các nguồn bên ngoài doanh nghiệp, chẳng hạn như các nguồn từ Internet. Cần phải thiết lập một nguyên tắc quản lý thông tin doanh nghiệp về việc kiểm soát nguồn của bất kỳ dữ liệu đầu vào nào.
Một vấn đề khác nữa - đó là người dùng nắm bắt dark data có thực sự hiểu ngữ nghĩa của nó hay không? Nếu không, các quyết định hoặc báo cáo dựa trên dark data có thể là một vấn đề. Đối với việc sao chép thông tin cá nhân hoặc bí mật vào bảng tính thì sao? Thường không có gì để ngăn chặn việc này.
Tiếp đến là các các tính toán bên trong bảng tính. Các dark data có thể được tạo theo một logic không ai hiểu được ngoại trừ người tạo ra nó. Các cơ quan quản lý tài chính nói riêng đang dần nhận thức và quan tâm hơn về rủi ro vốn có trong các mô hình spreadsheet này.
Mặc dù khó có thể định lượng phạm vi của dark data, nhưng có nhận định rằng chúng rất lớn và quan trọng. Dữ liệu ngày càng được công nhận là có giá trị và đồng thời tiềm ẩn nguy cơ đối với doanh nghiệp. Trọng tâm của quản lý dữ liệu đang bắt đầu chuyển từ thế giới các mô hình logic sang thế giới vật lý của các giá trị dữ liệu. Trách nhiệm đối với dữ liệu cũng ngày càng trở nên cá nhân hơn là các ứng dụng ẩn danh hoặc toàn bộ doanh nghiệp.
Theo Techtarget
>> Có thể bạn quan tâm: Giải đáp về data virtualization - ảo hóa dữ liệu