Tích hợp dữ liệu và ELT cho người mới bắt đầu
Bạn đang tìm hiểu về tích hợp dữ liệu và ETL nhưng chưa biết bắt đầu từ đâu? Bài viết này sẽ cung cấp cho bạn những kiến thức cơ bản nhất về lĩnh vực này, giúp bạn hiểu rõ hơn về vai trò quan trọng của nó trong thế giới kinh doanh hiện đại.
Khám Phá Khái Niệm Tích Hợp Dữ Liệu
Vào đầu năm 2020, tôi được một người bạn làm trong ngành giới thiệu về khái niệm tích hợp dữ liệu. Phải thừa nhận rằng tôi đã biết đến nó khá muộn màng. Tất cả những gì tôi biết là tôi có thể tổng hợp dữ liệu của mình vào một nơi (ảo) và sau đó bằng một cách "thần kỳ" nào đó, nó sẽ xuất hiện ở một nơi (ảo) khác. Tôi hoàn toàn mù mờ về cách thức hoạt động cũng như tầm quan trọng của nó đối với các doanh nghiệp hiện đại.
Nói qua một chút về bản thân, tôi chưa từng làm việc trong lĩnh vực kỹ thuật. Kinh nghiệm trước đây của tôi là trong lĩnh vực phát triển kinh doanh và tiếp thị cho các sản phẩm phi kỹ thuật. Có lẽ tôi nên quan tâm hơn đến thế giới công nghệ xung quanh mình, nhưng mong bạn hãy thông cảm cho sự thiếu hiểu biết của tôi.
Vài ngày sau cuộc trò chuyện ban đầu về lĩnh vực tích hợp dữ liệu, bạn tôi đã giải thích cho tôi về tầm quan trọng của việc trích xuất, chuyển đổi và tải (ETL) dữ liệu. Tôi tò mò về quy trình hoạt động bên trong, vì vậy tôi quyết định tìm hiểu thêm về ETL và tích hợp dữ liệu.
Mục tiêu của tôi khi viết bài viết này là giúp bạn tìm hiểu những kiến thức cơ bản nhất về tích hợp dữ liệu. Là một người không chuyên về kỹ thuật, tôi đã không biết bắt đầu từ đâu ngoài việc tra Google "Tích hợp dữ liệu là gì?". Vậy nên hãy cùng bắt đầu từ đó.
Tích Hợp Dữ Liệu Là Gì?
Nói một cách dễ hiểu, đó là một cây cầu kết nối dữ liệu. Tích hợp dữ liệu cho phép tập hợp dữ liệu nằm ở những nơi riêng biệt (thường được gọi là nguồn) thành một dạng xem thống nhất. Dạng xem thống nhất là khi tất cả dữ liệu bạn thu thập được từ các nguồn khác nhau được tập hợp lại một chỗ, cho phép bạn xem tất cả dữ liệu của mình ở một nơi.
Điều này không có nghĩa là dữ liệu không còn tồn tại trong nguồn gốc mà bạn đã lấy. Sẽ chính xác hơn nếu mô tả nó giống như việc ai đó đã sao chép dữ liệu từ nguồn gốc và sau đó gửi bản sao dữ liệu gốc đó qua cầu. Điều này tương tự như sao chép dữ liệu, ngoại trừ việc sao chép dữ liệu chỉ là sao chép dữ liệu vào những nơi khác nhau vì mục đích bảo mật và an toàn.
Vì vậy, trên thực tế, tích hợp dữ liệu không phải là di chuyển dữ liệu gốc, mà là sao chép nó và đặt bản sao của dữ liệu gốc vào một nơi khác (nơi đó thường được gọi là đích) cho các mục đích mà chúng ta sẽ tìm hiểu sau trong bài viết.
Một phần quan trọng khác của tích hợp dữ liệu là chuyển đổi dữ liệu. Đây là một phần thiết yếu trong thế giới tích hợp dữ liệu vì nó có thể ngăn đường ống tích hợp dữ liệu của bạn (đường ống là tích hợp dữ liệu từ đầu đến cuối - từ nhập dữ liệu đến xuất dữ liệu) kết hợp tất cả dữ liệu.
Vấn đề là dữ liệu từ các nguồn khác nhau thường có các định dạng khác nhau, không thể kết hợp thành dạng xem thống nhất trừ khi một số hoặc tất cả dữ liệu được chuyển đổi sang cùng một định dạng. Tôi sẽ đề cập thêm về điều này sau trong bài viết.
Ai Cần Tích Hợp Dữ Liệu?
Nhà Phân Tích Kinh Doanh và Nhà Phát Triển
Có hai trường hợp sử dụng chính cho tích hợp dữ liệu. Trường hợp đầu tiên là các nhà phân tích kinh doanh, những người muốn kiểm tra tất cả thông tin kinh doanh của họ ở một nơi. Thay vì phải truy cập Google Analytics để kiểm tra số lượng người truy cập trang web, Mixpanel để xem những gì mọi người đã nhấp vào bên trong trang web, Chargebee để kiểm tra phân tích về thanh toán đăng ký và Mailchimp để theo dõi hiệu quả của chiến dịch email lạnh, tích hợp dữ liệu cho phép các nhà phân tích này xem tất cả ở một nơi. Hãy xem một ví dụ.
Đây là một bảng điều khiển đơn giản với hai biểu đồ. Biểu đồ đầu tiên hiển thị doanh thu định kỳ hàng tháng và biểu đồ thứ hai hiển thị tỷ lệ churn của công ty. Sử dụng đường ống tích hợp dữ liệu, người dùng bảng điều khiển này đã có thể kết nối các tài khoản kinh doanh của họ để hiển thị dữ liệu trên các biểu đồ này. Giờ đây, họ có thể xem dữ liệu của mình từ nhiều nguồn trong một dạng xem thống nhất đơn giản. Bạn đã bắt đầu nhận thấy tại sao điều này lại hữu ích chưa?
Trường hợp sử dụng thứ hai là dành cho các nhà phát triển, những người xây dựng các sản phẩm yêu cầu một số loại dữ liệu đầu vào. Hãy thử đặt mình vào trường hợp này.
Bạn là một nhà phát triển đang xây dựng một sản phẩm kế toán giúp kế toán nhận ra sự không nhất quán trong sổ sách kế toán (trực tuyến) của họ. Để làm được điều này, bạn cần có quyền truy cập vào dữ liệu của tài khoản ngân hàng mà họ đang làm việc, hệ thống ERP của họ (hệ thống ERP là phần mềm giúp quản lý các quy trình kinh doanh chính) và hệ thống thanh toán của họ.
Để tập hợp tất cả dữ liệu này lại với nhau, nhà phát triển sẽ phải thiết lập một đường ống tích hợp dữ liệu lấy từ tài khoản ngân hàng, hệ thống ERP và hệ thống thanh toán. Sau khi hoàn tất, họ có thể tải dữ liệu vào sản phẩm của mình và kiểm tra xem có bất kỳ sự không nhất quán nào trong sổ sách kế toán hay không.
Như bạn có thể thấy, tích hợp dữ liệu là một phần quan trọng và có giá trị trong quy trình kinh doanh của hầu hết mọi công ty ngày nay. Chúng ta sẽ đề cập thêm về lý do tại sao nó lại quan trọng như vậy sau trong bài viết này.
Tích Hợp Dữ Liệu Diễn Ra Như Thế Nào?
Đây có lẽ là phần trừu tượng nhất mà tôi sẽ đề cập trong bài viết này. Như tôi đã đề cập trước đó, bạn phải tưởng tượng tích hợp dữ liệu giống như một cây cầu ảo giữa nguồn và đích.
Các nhà phân tích hoặc nhà phát triển sẽ có ba lựa chọn khi xây dựng đường ống tích hợp dữ liệu của họ. Đầu tiên là để đội ngũ của họ tự xây dựng tích hợp. Đây là một quá trình tốn thời gian - một tích hợp (tức là tích hợp với một nguồn cụ thể) có thể mất tới hai tuần để một nhóm nhỏ xây dựng, nhưng đó thậm chí còn chưa phải là chi phí lớn nhất.
Sau khi được xây dựng, các tích hợp này cần được duy trì. Điều này là do, không đi sâu vào kỹ thuật, có một số bộ phận chuyển động thay đổi một cách nhất quán, yêu cầu tích hợp cụ thể phải được cập nhật thường xuyên.
Lựa chọn thứ hai là thuê một nhóm chuyên gia để xây dựng tích hợp cho bạn. Mặc dù đây là giải pháp tùy chỉnh không cần giám sát, nhưng lựa chọn này thường tốn kém. Nhóm chuyên gia sẽ thực hiện chính xác công việc tương tự như khi bạn tự xây dựng, nhưng (rõ ràng là) nó sẽ giúp đội ngũ của bạn không phải làm bất kỳ công việc nào.
Lựa chọn thứ ba là sử dụng công cụ của bên thứ ba để giúp công ty xây dựng đường ống của họ. Đây là sự kết hợp giữa hai lựa chọn trước đó. Bạn vẫn đang sử dụng đội ngũ của mình để thiết lập tích hợp, nhưng nhiều tài nguyên cần thiết được phần mềm mà họ quyết định sử dụng đơn giản hóa. Bạn không phải xây dựng tích hợp hoặc xây dựng đích, mà thường chỉ cần xác định lớp chuyển đổi (điều này có nghĩa là bạn đang quyết định định dạng bạn muốn dữ liệu của mình ở dạng nào).
Điều cần lưu ý với các công cụ này là một số được tạo cho nhà phát triển (như hotglue) và các công cụ khác được tạo cho nhà phân tích (như Fivetran). Các công cụ dành cho nhà phát triển thường xử lý các quy trình phức tạp hơn vì nó cho phép nhà phát triển có cách tiếp cận chi tiết hơn, trong khi các công cụ dành cho nhà phân tích rất phù hợp cho các chuyên gia không chuyên về kỹ thuật, những người muốn thiết lập một đường ống tích hợp dữ liệu đơn giản.
Trong vài năm qua, nhiều công ty đã có xu hướng sử dụng các loại công cụ này vì chúng ngày càng trở nên hiệu quả, có thể tùy chỉnh và giá cả phải chăng hơn.
Lý do một số công ty chọn tự xử lý đường ống tích hợp dữ liệu của họ là do mức độ phức tạp mà tích hợp có thể yêu cầu. Thông thường, các giải pháp của bên thứ ba có xu hướng cứng nhắc hơn một chút và không cho phép các công ty tùy chỉnh đường ống của họ ở cấp độ chi tiết.
Ở cấp độ cụ thể hơn, có một loạt các quy trình cụ thể được xếp dưới thuật ngữ tích hợp dữ liệu. Phổ biến nhất là…
ETL (Trích Xuất, Chuyển Đổi, Tải)
ETL là quy trình phổ biến nhất trong tích hợp dữ liệu. Nó được sử dụng khi ai đó muốn tập hợp dữ liệu từ nhiều nguồn nhưng cũng yêu cầu thay đổi định dạng của dữ liệu.
Ví dụ: nếu ai đó có tệp Excel hoặc CSV mà họ muốn chuyển sang cơ sở dữ liệu cụ thể nhưng tất cả các nguồn dữ liệu khác đều ở định dạng JSON (định dạng trao đổi dữ liệu rất phổ biến), thì tệp đó sẽ phải được chuyển đổi thành JSON để có thể kết hợp với những cái khác.
Sau khi tệp được chuyển đổi, nó sẽ được gửi đến đích được xác định cho đường ống cụ thể này, nơi nó được tập hợp với tất cả thông tin khác được lấy thông qua.
Đôi khi quy trình được thay đổi thành ELT (Trích xuất, Tải, Chuyển đổi) cho các trường hợp sử dụng khác nhau với lượng dữ liệu nhỏ hơn, nhưng mỗi bước vẫn phục vụ cùng một chức năng.
Tại Sao Tích Hợp Dữ Liệu Lại Quan Trọng?
Các công ty muốn duy trì khả năng cạnh tranh cần nắm bắt những lợi ích mà dữ liệu sẽ mang lại cho họ, bất chấp những thách thức nảy sinh khi xử lý tích hợp dữ liệu. Việc có một đường ống tích hợp dữ liệu hiệu quả cho phép các công ty này sử dụng các tập dữ liệu khổng lồ. Nó giúp các công ty này cải thiện giá trị của họ đối với khách hàng - từ việc đào sâu thông tin kinh doanh của họ đến cải thiện việc cung cấp thông tin theo thời gian thực của họ.
Kết Luận
Hãy cùng ôn lại một số từ vựng mà chúng ta đã học hôm nay.
- Nguồn: Nơi dữ liệu ban đầu nằm và sẽ được lấy từ đó
- Dạng xem thống nhất: Bản ghi duy nhất được tạo thành từ dữ liệu được đưa vào từ các nguồn khác nhau
- Sao chép dữ liệu: Quá trình tạo bản sao dữ liệu và lưu trữ chúng ở các vị trí khác nhau - thường là vì các biện pháp an toàn và bảo mật
- Đích: Nơi bạn muốn dữ liệu kết thúc
- Chuyển đổi / biến đổi: Thay đổi định dạng của dữ liệu
- Đường ống: Quá trình tích hợp dữ liệu từ đầu (ban đầu là lấy dữ liệu) đến cuối (nơi dữ liệu được xuất ra)
- ERP: Lập kế hoạch nguồn lực doanh nghiệp là phần mềm giúp các công ty quản lý các quy trình kinh doanh chính như kế toán
- ETL: Là viết tắt của Extract, Transform, Load - framework tích hợp dữ liệu phổ biến nhất được sử dụng hiện nay
- CSV: Định dạng tệp phổ biến được gọi là Giá trị Phân cách bằng Dấu phẩy (CSV)
- JSON: Một loại định dạng dữ liệu phổ biến
Đây mới chỉ là phần mở đầu về tích hợp dữ liệu. Tích hợp dữ liệu là một chủ đề khá rộng và bài viết này chỉ mới đề cập đến bề nổi, nhưng hy vọng bài viết này đã giúp bạn có những bước khởi đầu. Chúc mừng bạn không còn là người mù mờ về tích hợp dữ liệu nữa (có thể)!