Data trend - 11 Xu hướng dữ liệu mới nhất 2022
Thập kỷ trước, hầu hết các tổ chức coi dữ liệu và phân tích là một yếu tố nên có. Ngày nay, nó đang trở thành một chức năng kinh doanh cốt lõi trong các ngành công nghiệp, với 97% trong số 1000 công ty trong danh sách Fortune đầu tư vào các sáng kiến dữ liệu .
Dữ liệu là một kho tàng cơ hội cho những ai biết cách tận dụng tiềm năng của nó. Nhưng nó cũng có rủi ro cả về an ninh mạng và tuân thủ các quy định ngày càng phát triển.
Dưới đây là 11 xu hướng dữ liệu mới nhất sẽ giúp các công ty luôn nhanh nhạy trong kỷ nguyên mới của kinh doanh dựa trên dữ liệu.
11 Xu hướng dữ liệu mới nhất 2022
1. Kỷ nguyên “big data” đang dần tàn lụi và kỷ nguyên “small & wide data” đang dần mở ra.
Vào năm 2011, McKinsey & Company đã xuất bản một bài báo nói rằng kỷ nguyên mới của big data (dữ liệu lớn) đã đến với chúng ta - các công ty có xu hướng có một vài hệ thống rất phức tạp đang bắt đầu tích lũy “núi” dữ liệu.
Ngày nay, do sự gia tăng của SaaS, nhiều doanh nghiệp đang tích lũy một số “ngọn đồi” dữ liệu nhỏ trên nhiều ứng dụng. Năm 2015, số lượng ứng dụng SaaS trung bình được các tổ chức trên toàn thế giới sử dụng là 8, năm 2020 là 80 ứng dụng và năm 2021 là 110.
Bộ dữ liệu từ các ứng dụng đám mây này nhỏ hơn và đơn giản hơn, nhưng được nhắm mục tiêu nhiều hơn và do đó cung cấp thông tin chi tiết tốt hơn cho những người ra quyết định.
Gartner dự đoán rằng 70% các tổ chức sẽ dành phần lớn sự chú ý của họ vào small & wide data (dữ liệu nhỏ và rộng) vào năm 2025.
Sự bùng nổ SaaS đang thay đổi hoàn toàn cách xử lý dữ liệu trong các tổ chức, điều này dẫn chúng ta đến xu hướng tiếp theo.
2. Các kiến trúc dữ liệu dần dần có thể kết hợp được.
Trong số các ứng dụng đám mây xuất hiện ở khắp mọi nơi là các công cụ chuyên biệt để tích hợp, lưu trữ và phân tích dữ liệu. Thực tế này đã tạo ra xu hướng hướng tới “khả năng tổng hợp” của kiến trúc dữ liệu, nghĩa là các doanh nghiệp lựa chọn các công cụ bao gồm kiến trúc của họ tại bất kỳ thời điểm nào, tùy theo nhu cầu thay đổi của họ.
Theo Gartner, “kiến trúc công nghệ có thể kết hợp là nền tảng để hỗ trợ kinh doanh kỹ thuật số.” Xu hướng này đã được thúc đẩy bởi COVID-19, điều này làm cho sự nhanh nhẹ (agility) trở thành một giá trị quan trọng đối với hầu hết các tổ chức.
Giống như dữ liệu lớn đang chuyển thành dữ liệu nhỏ và rộng, vertical scaling của các data stack (ngăn xếp dữ liệu) đang chuyển sang horizontal scaling. Theo đó các công ty xây dựng “chuỗi” hoặc đường dẫn để xử lý dữ liệu thay vì chất đống tài nguyên lên trên các hệ thống hiện có. Dưới đây là một ví dụ về kiến trúc dữ liệu có thể kết hợp có thể trông như thế nào:
Cũng cần nhắc lại rằng kiến trúc dữ liệu có thể tổng hợp sẽ rẻ hơn vì chúng có thể được mở rộng ở bất kỳ tốc độ nào và vì chúng dựa trên các ứng dụng tiêu chuẩn hóa do các nhà cung cấp bên ngoài nên chúng yêu cầu ít bảo trì hơn từ các nhóm nội bộ.
3. Lĩnh vực phân tích dữ liệu đang trở thành dịch vụ tự phục vụ (self-service)
Theo truyền thống, các dashboard được xây dựng bởi các nhóm CNTT được tách biệt khỏi các chuyên gia kinh doanh cần xem chúng. Khi các chuyên gia kinh doanh yêu cầu thông tin mới, họ sẽ gửi yêu cầu đến nhóm CNTT của họ, có thể mất vài giờ đến vài tháng để hoàn thành. Sự sắp xếp này là một rào cản lớn đối với tính linh hoạt mà các doanh nghiệp ngày càng cần để duy trì lợi thế cạnh tranh.
Do đó, sự gia tăng của self-service analytics, theo đó người dùng cuối không chuyên về kỹ thuật có thể thiết lập các data pipeline và tùy chỉnh trang dashboard một cách độc lập với các kỹ sư dữ liệu. Ngoài áp lực phải rút ngắn thời gian để tìm hiểu thông tin chi tiết, xu hướng này còn được thúc đẩy bởi ba yếu tố:
- Các công cụ BI đang trở nên thân thiện hơn với người dùng.
- Người dùng cuối không chuyên về kỹ thuật có mong muốn cải thiện kiến thức về dữ liệu của họ.
- Sự xuất hiện của các công cụ tích hợp dữ liệu no-code.
Thị trường cho các công cụ BI tự phục vụ đã cực kỳ cạnh tranh và dự kiến sẽ tăng trưởng 15% hàng năm cho đến năm 2026. Ngoài ra còn có một sự thúc đẩy rõ ràng từ các nhà cung cấp để làm cho chúng thân thiện với người dùng nhất có thể.
Dưới đây là ví dụ về trang tổng quan thân thiện với người dùng trong Zoho Analytics:
Một cuộc khảo sát toàn cầu gần đây của Accenture với 9.000 nhân viên từ các công ty trong các ngành chỉ ra rằng nhiều nhân viên muốn hiểu biết hơn về dữ liệu — 37% nói rằng đào tạo về kiến thức dữ liệu sẽ cải thiện hiệu quả của họ và 22% cảm thấy rằng nó sẽ giảm bớt stress.
Và cuối cùng, hiện nay có một số công cụ tích hợp dữ liệu no-code cho phép người dùng doanh nghiệp lấy dữ liệu từ bất kỳ nguồn nào và gửi dữ liệu đó đến bất kỳ điểm đích nào để xử lý và phân tích thêm.
4. Nhiều phòng ban đang sử dụng dữ liệu và phân tích như một chức năng kinh doanh cốt lõi
Dữ liệu và phân tích có khả năng hướng dẫn cải tiến bất kỳ quy trình nào trong bất kỳ bộ phận kinh doanh nào. Nhưng cho đến gần đây, sự gia tăng tầm quan trọng của nó đã được nhìn thấy rõ nhất trong các bộ phận tiếp thị và bán hàng.
Tuy nhiên, giờ đây, dữ liệu và phân tích đang trở thành động lực thúc đẩy hoạt động của các bộ phận khác. Điều này được phản ánh bằng việc áp dụng các công cụ BI tự phục vụ trên các lĩnh vực như nhân sự, hoạt động, tài chính và thậm chí cả giáo dục.
Ngoài ra, các chức năng BI hiện được nhúng trong nhiều công cụ dành riêng cho bộ phận, như nền tảng tuyển dụng, sử dụng AI để xác định ứng viên nhanh hơn, cũng như phần mềm lập kế hoạch nhu cầu, sử dụng phân tích dự đoán để giúp lập kế hoạch hoạt động.
Khi dữ liệu và phân tích tiếp tục trở thành một chức năng kinh doanh cốt lõi, các công ty sẽ thường xuyên kết hợp dữ liệu của họ giữa các phòng ban để tạo ra một trang web liên kết với nhau về những thông tin chi tiết nâng cao.
5. “Citizen Data Scientist” là một vai trò mới nổi trong các công ty.
Các nhà khoa học dữ liệu và kỹ sư giỏi về dữ liệu, nhưng họ thường không có kiến thức miền cần thiết cho các bộ phận riêng lẻ để làm cho dữ liệu đó có thể hành động được.
Vì vậy, những gì chúng ta sẽ thấy ngày càng nhiều trong năm nay là các "Citizen Data Scientist", tức là các chuyên gia trong các bộ phận non-data, những người có một số kiến thức về phân tích dữ liệu, nhưng kiến thức chuyên môn tổng thể phù hợp hơn với bộ phận tương ứng của họ. Dưới đây là một số nhiệm vụ mà một nhà khoa học dữ liệu công dân có thể thực hiện:
Những chuyên gia này biết những dữ liệu mà bộ phận của họ cần theo dõi và cách trực quan hóa dữ liệu đó bằng các công cụ non-code. Tuy nhiên, bản thân họ không xây dựng các data model.
Điều quan trọng cần lưu ý là thuật ngữ “Citizen Data Scientist”, do Gartner đặt ra, sẽ khó có thể trở thành tên của một vị trí mới được quảng cáo trên các cổng thông tin việc làm trên toàn thế giới. Thay vào đó, trách nhiệm của chúng sẽ được ghi vào bản mô tả công việc của các vị trí khác.
6. Chất lượng dữ liệu đang trở thành mối quan tâm lớn.
Khi càng nhiều người dùng bắt đầu làm việc với dữ liệu, thì khả năng xảy ra sai sót trong dữ liệu đối với các hệ thống hạ lưu càng lớn.
Hãy tưởng tượng một người quản lý nội dung có tài khoản Hubspot được kết nối với Google Analytics (GA). Một tuần sau khi xuất bản một bài viết trên blog mới, họ kiểm tra bảng điều khiển GA của mình và do lỗi phổ biến trong tập lệnh đo lường, bài viết đã tăng gấp đôi lượt xem mà hầu hết các bài viết có sau tuần đầu tiên của họ.
Sau đó, người quản lý bắt đầu xuất bản nhiều hơn các bài viết tương tự, chỉ để thấy rằng chúng không tạo ra kết quả tương tự. Những tình huống như thế này đã tạo ra một xu hướng:
- Các công ty và nhân viên đang học cách quan tâm nhiều hơn đến chất lượng dữ liệu . Lần tới khi người quản lý nội dung này nhận thấy lượt xem trong trang tổng quan GA của họ tăng vọt đáng kể, họ sẽ quay lại trang tổng quan Hubspot gốc của mình để đảm bảo rằng các con số khớp với nhau.
- Các công nghệ phát hiện lỗi và bất thường đang phát triển nhanh chóng. Sử dụng AI, họ xác định một cách toán học các ngoại lệ bằng cách phân tích các series trong thời gian dài. Các công cụ phát hiện bất thường hiện phục vụ cho nhiều trường hợp sử dụng kinh doanh khác nhau, nhưng vì chúng hoạt động tốt nhất khi được cung cấp bộ dữ liệu lớn nên chúng không phải là một viên đạn bạc. Do đó, sự chú ý của người dùng là rất quan trọng.
7. Tiêu chuẩn hóa dữ liệu cho khối lượng công việc AI đang gia tăng
Thực tế là chúng ta đang lấy dữ liệu của mình từ nhiều hệ thống và công cụ đơn giản hơn có nghĩa là nó hiện có nhiều cấu trúc hơn. Đây là một vấn đề đối với phân tích dựa trên AI. Lịch ngày là một ví dụ điển hình: Một hệ thống có thể ghi chúng là MM.DD.YYYY trong khi hệ thống khác có thể ghi chúng là DD.MM.YYYY. Con người có thể dễ dàng nhìn thấy những biến thể này, nhưng máy móc thì không.
Vì vậy, để làm cho dữ liệu có thể phân tích bằng máy móc, nó phải được chuẩn hóa hoặc "chuyển đổi". Điều này cực kỳ quan trọng vì ngày nay đang có sự bùng nổ lớn trong việc sử dụng các ứng dụng dựa trên AI trong các ngành công nghiệp, đặc biệt là trong CNTT và viễn thông, ngân hàng và tài chính, bán lẻ, chăm sóc sức khỏe và tiếp thị.
Theo truyền thống, các phép biến đổi là lĩnh vực của các nhà phát triển, những người thực thi chúng định kỳ trên một lượng lớn dữ liệu. Điều này sẽ vẫn phù hợp với nhiều trường hợp sử dụng, nhưng do sự mở rộng ngày càng tăng của các bộ dữ liệu nhỏ và rộng cần được xử lý nhanh chóng và thường xuyên bởi các chuyên gia non-tech.
8. Nhu cầu về tích hợp nhiều công cụ ngày càng tăng.
Khi ngày càng có nhiều công cụ chuyên dụng xuất hiện, thì nhu cầu tích hợp tất cả chúng với nhau cũng tăng theo.
Để minh họa, giả sử rằng kế toán của bạn dành nhiều thời gian làm việc trực tiếp trong CRM và họ muốn trích xuất dữ liệu lập hóa đơn và ghép nối dữ liệu đó với dữ liệu bên ngoài để có thông tin chi tiết nâng cao. Tất nhiên, họ có thể làm điều này bằng cách gửi dữ liệu hóa đơn đến kho, trộn nó với dữ liệu khác, sau đó xem kết quả trong công cụ BI.
Nhưng điều này cuối cùng sẽ trở nên phức tạp và nhân viên kế toán sẽ bắt đầu tự hỏi liệu có thể loại bỏ công cụ BI và xem tất cả dữ liệu trực tiếp trong CRM hay không.
Lúc này nhu cầu tích hợp nhiều công cụ ngày càng tăng. Nó cho phép các tác nhân ở tất cả các cấp tạo ra source of truth duy nhất của riêng họ bằng cách gửi dữ liệu từ bất kỳ nguồn hoặc đích nào đến bất kỳ nguồn hoặc đích nào. Có rất ít công cụ cho nó trên thị trường, nhưng điều này sẽ thay đổi trong vòng một năm tới. Dưới đây là minh họa về sự tích hợp giữa ERP, CRM, trang web, chiến dịch quảng cáo và các nền tảng truyền thông xã hội:
9. Dữ liệu được quản lý như thế nào đang trở thành mối quan tâm chính của doanh nghiệp.
Dân chủ hóa dữ liệu đồng thời trao quyền đã mang đến một làn sóng thách thức mới cho các doanh nghiệp. Theo Nick Halsey, Giám đốc điều hành của công ty ủy quyền dữ liệu Okera, trong một bài báo trên Forbes đã chia sẻ rằng những thách thức này bao gồm “quá nhiều dữ liệu từ quá nhiều nguồn [...] mức độ tấn công mạng chưa từng có [... và] môi trường làm việc kết hợp có nhân viên di chuyển giữa nhà và văn phòng, giữa các thiết bị cá nhân và công việc”.
Do đó, các công ty đang phải đối mặt với áp lực ngày càng lớn trong việc giải quyết vấn đề quản trị dữ liệu, trên thực tế, điều này có nghĩa là 2 điều:
- Đảm bảo chất lượng dữ liệu.
- Đảm bảo tính bảo mật của dữ liệu.
Nếu dữ liệu được nhúng trong tất cả các quy trình ra quyết định, thì dữ liệu đó cần phải hoàn chỉnh và nhất quán. Và nếu nó đang được ngày càng nhiều người dùng truy cập, họ cần phải là người dùng phù hợp, vào đúng thời điểm và địa điểm.
Điều này buộc các công ty phải xây dựng các chính sách quản trị dữ liệu nhằm tìm kiếm sự cân bằng giữa tập trung và phân quyền. Tập trung hóa có nghĩa là bảo mật tốt hơn và chất lượng dữ liệu cao hơn, nhưng ít năng lượng hơn từ dữ liệu; phi tập trung có nghĩa là tiềm năng lớn hơn để ra quyết định độc lập, có hiểu biết, nhưng rủi ro không tuân thủ cao hơn và chất lượng dữ liệu kém.
Dưới đây là minh họa về mô hình quản trị dữ liệu hub & spoke model:
Thị trường quản trị dữ liệu dự kiến sẽ tăng từ 2,1 tỷ USD vào năm 2020 lên 5,7 tỷ USD vào năm 2025 — tăng gần gấp ba lần!
10. Vấn đề bảo mật và tuân thủ dữ liệu đang trở nên nổi bật.
Trong khi quản trị dữ liệu là cách các công ty chọn để quản lý dữ liệu của họ, thì việc tuân thủ dữ liệu là cách họ phải quản lý dữ liệu của mình. Với việc dữ liệu ngày càng trở nên phong phú, việc tuân thủ các hành vi như GDPR ở EU và luật bảo mật dữ liệu người tiêu dùng ở Mỹ là một vấn đề lớn.
Mức độ nghiêm trọng của vấn đề này ở châu Âu được phản ánh bởi tổng số tiền phạt GDPR hàng năm tăng đột biến. Vào năm 2020, tổng số tiền phạt là 306,3 triệu €. Vào năm 2021, họ đã vượt quá 1 tỷ euro, với khoản tiền phạt lớn nhất cho đến nay - 746 triệu euro - được áp đặt cho Amazon bởi tòa án Luxembourg.
Chưa có luật bảo mật dữ liệu liên bang ở Hoa Kỳ và chỉ có ba tiểu bang có luật toàn diện về quyền riêng tư của người tiêu dùng, nhưng hầu hết các tiểu bang khác đều có một số dạng luật về quyền riêng tư trong quá trình triển khai, vì vậy chỉ có thể hy vọng rằng các doanh nghiệp Mỹ sẽ sớm không có lựa chọn nhưng phải xem cẩn thận những gì họ thu thập và cách họ chia sẻ nó.
Gartner thậm chí còn dự đoán rằng vào năm 2030, 50% doanh nghiệp B2C trên toàn cầu sẽ ngừng lưu giữ dữ liệu khách hàng do chi phí tuân thủ không thể thực hiện được.
11. Nền tảng dữ liệu khách hàng sẽ mất đi tính liên quan
Nền tảng dữ liệu khách hàng (Customer data platforms - CDP) là gói phần mềm all-in-one thu thập và kết hợp dữ liệu của bên thứ nhất và bên thứ ba từ nhiều kênh khác nhau để cung cấp cho doanh nghiệp cái nhìn 360 độ về khách hàng của họ.
Mặc dù chúng cho phép tích hợp và trực quan hóa dữ liệu, nhưng chúng chủ yếu được thiết kế cho các trường hợp sử dụng tiếp thị và đi kèm với các mô hình dữ liệu định sẵn không mang lại sự linh hoạt mà các doanh nghiệp sẽ dựa vào.
Đây là một vấn đề vì hai lý do:
- Các doanh nghiệp sẽ cần phải có khả năng điều chỉnh kiến trúc dữ liệu của họ để đáp ứng các nhu cầu thay đổi nhanh chóng.
- Các doanh nghiệp sẽ ngày càng muốn tích hợp tất cả các công cụ của họ với nhau để loại bỏ các ổ chứa dữ liệu.
Sự phong phú ngày càng tăng của dữ liệu đang thay đổi hoàn toàn cách thức đưa ra quyết định giữa các ngành. Và các công cụ hiện có ngày nay giúp cho việc xây dựng và duy trì một kiến trúc dữ liệu có thể chống chọi với sự biến động của thị trường trở nên dễ dàng hơn bao giờ hết. Việc quản lý dữ liệu không phù hợp sẽ mở ra cánh cửa cho việc không tuân thủ quy định và các mối đe dọa trên mạng. Nhưng lợi ích của đòn bẩy dữ liệu vượt xa những khó khăn đi kèm với nó. Cơ hội là rất lớn và những doanh nghiệp không chấp nhận rủi ro sẽ mắc kẹt trong sương mù.