Categorical data là gì? Khái niệm, tính năng và ví dụ minh họa

1397
07-10-2024
Categorical data là gì? Khái niệm, tính năng và ví dụ minh họa

Dữ liệu đóng vai trò vô cùng quan trọng trong việc ra quyết định và phân tích thông tin. Một trong những dạng dữ liệu phổ biến và được sử dụng rộng rãi chính là categorical data. Vậy categorical data là gì? Cùng Bizfly Cloud tìm hiểu kỹ hơn trong bài viết dưới đây.

Categorical data là gì?

Categorical data (dữ liệu phân loại) là loại dữ liệu được sử dụng để phân loại các đối tượng thành các nhóm hoặc loại khác nhau dựa trên các thuộc tính hoặc đặc điểm cụ thể. Dữ liệu phân loại thường không có thứ tự giữa các giá trị và có thể được chia thành hai loại chính: dữ liệu định danh (nominal) và dữ liệu thứ bậc (ordinal).

Categorical data là gì?

Categorical data là gì?

Các loại Categorical data phổ biến hiện nay

Nominal Categorical Data

Dữ liệu định danh là loại dữ liệu phân loại mà các giá trị không có thứ tự hay hạng số. Các nhóm trong dữ liệu này chỉ đơn giản là khác nhau mà không thể sắp xếp theo thứ tự nào.

Ví dụ về dữ liệu định danh bao gồm:

  • Giới tính: Nam, Nữ
  • Màu sắc: Đỏ, xanh, vàng.
  • Quốc gia: Việt Nam, Trung Quốc, Đức.

Dữ liệu định danh thường được sử dụng để phân loại các đối tượng hoặc sự việc mà không cần phải xác định thứ tự giữa chúng.

Ordinal Categorical Data

Dữ liệu thứ bậc là loại dữ liệu phân loại mà các giá trị có thể được sắp xếp theo một thứ tự nhất định. Điều này có nghĩa là các nhóm trong dữ liệu thứ bậc có thể được phân loại từ thấp đến cao hoặc từ kém đến tốt. 

Ví dụ về dữ liệu thứ bậc bao gồm:

  • Mức độ hài lòng: Không hài lòng, Trung lập, Hài lòng.
  • Kích cỡ quần áo: XS, S, M, L, XL.

Dữ liệu thứ bậc cho phép người dùng hiểu rõ hơn về mức độ hoặc thứ tự của các giá trị trong một ngữ cảnh cụ thể.

Điểm khác biệt giữa Nominal và Ordinal data

Tiêu chí

Nominal

Ordinal

 

Khái niệm

Phân loại các đối tượng mà không có thứ tự

Phân loại các đối tượng có thứ tự

Mối quan hệ

Không có mối quan hệ hơn kém giữa các nhóm

Có mối quan hệ hơn kém giữa các nhóm

Phép toán

Không thể thực hiện các phép toán số học

Không thể thực hiện các phép toán số học (chỉ xếp hạng)

Ý nghĩa của số

Số chỉ mang tính chất phân loại, không có giá trị toán học

Số mang ý nghĩa thứ tự nhưng không cho biết khoảng cách giữa các thứ hạng

Ứng dụng

Thường dùng trong khảo sát để phân loại

Thường dùng trong khảo sát để đo lường thái độ, sở thích

 

Các tính năng hữu ích của Categorical data

  • Mô tả đặc điểm của dữ liệu: Categorical data giúp mô tả các đặc điểm định tính của dữ liệu, như giới tính, quốc tịch, nghề nghiệp,...
  • Dễ dàng diễn giải: Các biến categorical dễ hiểu và diễn giải hơn so với các biến số liên tục. Ví dụ như trạng thái hôn nhân sẽ có các giá trị như: Độc thân, Kết hôn, Ly dị dễ hiểu hơn so với một biến số liên tục mô tả đầy đủ số năm kết hôn.
  • Xử lý ngoại lệ: Categorical data ít bị ảnh hưởng bởi các giá trị ngoại lệ hoặc cực đoan so với dữ liệu số liên tục. Điều này làm cho các mô hình ít nhạy cảm hơn với các giá trị ngoại lệ.
  • Tăng hiệu suất: Các phương pháp mã hóa như One-hot encoding và Target encoding có thể tạo ra các đặc trưng mang lại thông tin hữu ích.

Ưu điểm khi sử dụng Categorical data

Dễ hiểu

Dữ liệu phân loại thường được trình bày dưới dạng các nhóm hoặc danh mục, giúp người dùng dễ dàng nắm bắt và hiểu rõ thông tin. Ví dụ: Phân loại khách hàng theo giới tính, độ tuổi hoặc sở thích giúp các nhà nghiên cứu và doanh nghiệp nhanh chóng nhận diện đặc điểm của nhóm đối tượng mà họ đang quan tâm.

Nhận dạng nhanh các xu hướng

Dữ liệu phân loại cho phép phân tích và nhận diện các xu hướng một cách nhanh chóng. Bằng cách nhóm các dữ liệu lại với nhau, người dùng có thể dễ dàng thấy được sự biến đổi trong hành vi hoặc sở thích của khách hàng theo thời gian, từ đó đưa ra các quyết định kịp thời và chính xác.

Phân khúc khách hàng trong marketing

Việc phân loại khách hàng theo các tiêu chí như độ tuổi, giới tính, thu nhập hay sở thích giúp các nhà tiếp thị xây dựng các chiến lược marketing hiệu quả hơn. Phân khúc này cho phép doanh nghiệp nhắm mục tiêu chính xác, từ đó tối ưu hóa ngân sách quảng cáo và nâng cao tỷ lệ chuyển đổi.

Phân tích tương quan và xu hướng hiệu quả

Dữ liệu phân tích giúp xác định mối quan hệ giữa các biến khác nhau. Ví dụ: Doanh nghiệp có thể phân tích mối tương quan giữa loại sản phẩm và nhóm khách hàng nào thường mua sản phẩm đó. 

Đưa ra kết quả cụ thể

Sử dụng dữ liệu phân loại giúp đưa ra các kết quả cụ thể và dễ dàng diễn giải. Các báo cáo và phân tích từ dữ liệu này thường có thể trình bày rõ ràng và trực quan, giúp các bên liên quan dễ dàng tiếp nhận và đưa ra quyết định dựa trên thông tin thu thập được.

Những mặt hạn chế còn tồn tại của Categorical data

Phân tích thống kê còn hạn chế

Các phép tính thống kê cơ bản không thể áp dụng trực tiếp cho categorical data vì chúng không phải là dữ liệu số. Thay vào đó, chỉ có thể tính toán các thống kê mô tả như tần suất, tỷ lệ phần trăm.

Những mặt hạn chế còn tồn tại của Categorical data

Những mặt hạn chế còn tồn tại của Categorical data

Một số chi tiết có thể bị thiếu sót

Khi chuyển categorical data về dạng số để phù hợp với các mô hình Machine Learning, một số thông tin tinh tế có thể bị mất đi. Ví dụ: Khi dùng one-hot encoding, các category được biểu diễn bằng các cột nhị phân độc lập, mất đi thông tin về mối quan hệ giữa chúng.

Độ nhạy cảm thấp

Các mô hình Machine Learning thường không nhạy cảm với các thay đổi trong categorical data. Ví dụ: Thay đổi một vài giá trị category trong tập dữ liệu, mô hình vẫn cho kết quả dự đoán gần như không đổi.

Tốn kém cả về chi phí và thời gian

Việc thu thập, xử lý và phân tích categorical data thường tốn kém hơn so với dữ liệu số. Đặc biệt khi dữ liệu có kích thước lớn, chi phí và thời gian để mã hóa categorical features có thể rất đáng kể.

Có thể phải xử lý những dữ liệu không liên quan

Khi chuyển categorical data về dạng số, một số features mới được tạo ra có thể không liên quan đến bài toán. Điều này không chỉ làm tăng kích thước của tập dữ liệu mà còn có thể gây nhiễu cho mô hình.

Một số ví dụ về Categorical data

Nominal Data

  • Giới tính: Nam, Nữ
  • Màu sắc: Đỏ, Xanh, Vàng
  • Tên các thành phố: Hà Nội, TP. Hồ Chí Minh, Đà Nẵng

Ordinal Data

  • Cấp độ học vấn: Tiểu học, Trung học, Đại học
  • Đánh giá chất lượng: Tốt, Khá, Trung bình, Kém
  • Kích cỡ quần áo: XS, S, M, L, XL
  • Tình trạng sức khỏe: Tốt, Trung bình, Xấu

Binary Data

  • Có/Không: Có tài khoản, Không có tài khoản
  • Đúng/Sai: Đúng, Sai
  • Đạt/Không đạt: Đạt yêu cầu, Không đạt yêu cầu

Kết luận

Categorical data là một khái niệm quan trọng trong phân tích dữ liệu và học máy. Nó đề cập đến các biến số mà giá trị của chúng không thể đo lường được một cách số học, nhưng thay vào đó được phân loại thành các danh mục hoặc nhãn. 

Hiểu rõ categorical data là rất quan trọng trong việc chuẩn bị và phân tích dữ liệu. Nó cho phép thực hiện các phân tích thống kê và học máy hiệu quả hơn, cung cấp những cái nhìn sâu sắc về các mẫu và mối quan hệ trong dữ liệu. Bằng cách nắm vững các khái niệm và ứng dụng của categorical data, chúng ta có thể tối ưu hóa quy trình ra quyết định dựa trên dữ liệu và đạt được kết quả tốt hơn.

SHARE