Thứ năm, ngày 6 tháng 8 năm 2020
Trang chủ Kiến thức cơ bản

Thực hư chuyện công cụ miễn phí python anaconda đem lại thu nhập hàng trăm ngàn USD/ năm cho các data scientist

Đây là kết quả tương xứng với nhu cầu áp dụng công nghệ vào hoạt động thường nhật của các tổ chức, doanh nghiệp nói chung.

Theo phân tích, thị trường phát triển các ứng dụng cho ngành khoa học dữ liệu (data science platform) có tỉ lệ tăng trưởng 30% /1 năm. Giá trị của thị trường ước tính sẽ đạt 140.9 tỉ USD vào năm 2024. Sự tăng trưởng này xuất phát từ xu hướng chuyển đổi số dữ liệu, quy trình làm việc để đơn giản hóa việc quản lý, vận hành. Nhưng quan trọng hơn cả là nhu cầu khai thác tệp dữ liệu sẵn có để tạo ra dữ liệu mới nhằm tối ưu hóa năng lực cạnh tranh của tổ chức. Những nền tảng công nghệ phân tích dữ liệu sẽ là trợ thủ đắc lực cho các doanh nghiệp, tổ chức. Đặc biệt là những nền tảng phân tích dữ liệu mã nguồn mở, vừa giúp kiểm soát dữ liệu tốt hơn, vừa tối ưu hóa được chi phí. Python Anaconda là một nền tảng phân tích dữ liệu đáp ứng được những tiêu chí này. 

Python anaconda là gì?

Python anaconda là các thư viện được lập trình sử dụng ngôn ngữ python, nằm trong Anaconda platform. Anaconda là một nền tảng mã nguồn (open source platform) về khoa học dữ liệu (data science). Anaconda bao gồm các gói (packages), các thư viên (libraries) mã nguồn mở viết bằng Python và R. Đây là bộ công cụ dành cho các lập trình viên, chuyên gia phân tích dữ liệu, thậm chí là chuyên viên kinh tế - tài chính với công việc phân tích dữ liệu.

Các chương trình phân tích dữ liệu phát triển bởi Python Anaconda có tính linh hoạt rất cao. Do sử dụng Python nên có thể chạy trên bất cứ nền tảng nào: Windows, Linux, Mac OS. Thêm vào đó, do tận dụng được thế mạnh Virtual Environment của ngôn ngữ python, các môi trường phân tích dữ liệu có thể hoạt động đồng thời mà không ảnh hưởng lẫn nhau. 

Python Anaconda cũng có cộng đồng sử dụng rộng rãi. Hiện tại đã có đến hơn 20 triệu người dùng trên toàn thế giới. Người dùng sẽ không quá vất vả khi tìm kiếm sự hỗ trợ từ cộng đồng trong việc debug, hay nghiên cứu các đoạn code mẫu phục vụ cho dự án của mình.

Python anaconda dùng để làm gì? 

Thực hư chuyện công cụ miễn phí python anaconda đem lại thu nhập hàng trăm ngàn USD/ năm cho các data scientist - Ảnh 1.

Phân tích dữ liệu là một khái niệm chung bao hàm rất nhiều kiến thức, từ phương pháp luận, khả năng hiểu vấn đề, khả năng sử dụng công cụ. Để thể hiện những logic phân tích dữ liệu này bằng ngôn ngữ lập trình như Python là cả một quá trình rất công phu. Một yếu tố then chốt để phân tích dữ liệu tốt với python anaconda là hiểu được các tác vụ chính trong phân tích dữ liệu (data analytics).

Collecting data – thu thập dữ liệu

Tác vụ đơn giản nhất để minh họa cho việc thu thập dữ liệu là đọc dữ liệu từ các files định dạng tiêu chuẩn như .csv, .txt,, .xml. Sau khi dữ liệu từ các files tiêu chuẩn này được nạp vào chương trình, công việc phân tích dữ liệu sẽ bắt đầu được tiến hành.

Dưới đây là một ví dụ ngắn về đọc dữ liệu từ file .csv:

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import seaborn as sns

df = pd.read_csv('filename.csv')

print(df.head(5))

Kết quả của việc đọc 5 hàng dữ liệu đầu tiên từ file .csv:

 

Thực hư chuyện công cụ miễn phí python anaconda đem lại thu nhập hàng trăm ngàn USD/ năm cho các data scientist - Ảnh 3.

Slicing and dicing – cắt ghép dữ liệu

Sau khi nạp dữ liệu từ các nguồn bên ngoài vào chương trình, dữ liệu cần được xử lý trước khi phân tích. Mục tiêu của việc này là để tạo ra các thông tin sát với tiêu chuẩn phân tích nhất; đồng thời loại bỏ các thông tin không cần thiết. Một số dạng thông tin thừa như: các trường có giá trị không phù hợp yêu cầu phân tích, các trường có giá trị null.

Ví dụ về việc xử lý dữ liệu phân tích (loại bỏ giá trị null từ tệp dữ liệu đọc vào):

#this will give the sum of all the null values in the dataset.

print(df.isnull().sum())

#this will drop rows with null values

df1 = df.dropna(axis=0 , how= 'any')

Đếm tổng số phần tử có giá trị null từ tệp dữ l

Đếm tổng số phần tử có giá trị null từ tệp dữ liệu ban đầu:

Thực hư chuyện công cụ miễn phí python anaconda đem lại thu nhập hàng trăm ngàn USD/ năm cho các data scientist - Ảnh 5.

Đếm lại tổng số phần tử có giá trị null sau khi lọc tệp dữ liệu ban đầu:

Thực hư chuyện công cụ miễn phí python anaconda đem lại thu nhập hàng trăm ngàn USD/ năm cho các data scientist - Ảnh 6.

Visualization – trực quan hóa dữ liệu

Trực quan hóa dữ liệu sẽ giúp chuyên gia dữ liệu, cũng như người đọc thông thường nhìn nhận đánh giá số liệu chính xác hơn. Việc trực quan hóa dữ liệu này được thực hiện bằng cách sử dụng các hàm trong thư viện data science để biểu diễn dưới dạng đồ hình, đồ thị (data projections).

Biểu diễn tệp dữ liệu dưới dạng đồ thị hộp (box plot):

sns.boxplot(x=df['Salary Range From'])

sns.boxplot(x=df['Salary Range To'])

Thực hư chuyện công cụ miễn phí python anaconda đem lại thu nhập hàng trăm ngàn USD/ năm cho các data scientist - Ảnh 7.

Biểu đồ dạng hộp thể hiện dải lương nhân viên:

Thực hư chuyện công cụ miễn phí python anaconda đem lại thu nhập hàng trăm ngàn USD/ năm cho các data scientist - Ảnh 8.

Biểu đồ dạng hộp thể hiện dải lương nhân viên

Biểu diễn tệp dữ liệu dưới dạng đồ thị phân tán (scattered plot):

import matplotlib.pyplot as plt

fig, ax = plt.subplots(figsize=(16,8))

ax.scatter(df['Salary Range From'] , df['Salary Range To'])

ax.set_xlabel('Salary Range From')

ax.set_ylabel('Salary Range TO')

plt.show()

Thực hư chuyện công cụ miễn phí python anaconda đem lại thu nhập hàng trăm ngàn USD/ năm cho các data scientist - Ảnh 10.

Biểu đồ dạng hộp thể hiện dải lương nhân viên

Biểu diễn tệp dữ liệu dưới dạng biểu đồ dạng cột:

Thực hư chuyện công cụ miễn phí python anaconda đem lại thu nhập hàng trăm ngàn USD/ năm cho các data scientist - Ảnh 11.

Biểu đồ cột so sánh số lượng full-time jobs và part-time jobs

Biểu diễn tệp dữ liệu dưới dạng biểu đồ dạng cột 3 định lượng:

Thực hư chuyện công cụ miễn phí python anaconda đem lại thu nhập hàng trăm ngàn USD/ năm cho các data scientist - Ảnh 12.

Biểu đồ thể hiện số lượng full-time jobs, part-time jobs theo hình thức trả lương

Biểu diễn tệp dữ liệu dưới dạng biểu đồ tần suất

Thực hư chuyện công cụ miễn phí python anaconda đem lại thu nhập hàng trăm ngàn USD/ năm cho các data scientist - Ảnh 13.

Biểu đồ thể hiện phân bố số lượng các mức lương

Biểu diễn tệp dữ liệu dưới dạng đồ thị heatmap:

import matplotlib.pyplot as plt

fig = plt.figure(figsize = (10,10))

ax = fig.gca()

sns.heatmap(df1.corr(), annot=True, fmt=".2f")

plt.title("Correlation",fontsize=5)

plt.show()

Thực hư chuyện công cụ miễn phí python anaconda đem lại thu nhập hàng trăm ngàn USD/ năm cho các data scientist - Ảnh 15.

Biểu diễn tệp dữ liệu dưới dạng heatmap

Analysis – phân tích dữ liệu

Các chuyên gia dữ liệu sẽ ngồi phân tích lại các đồ hình, đồ thị của tệp dữ liệu vừa được trực quan hóa. Giả sử như cần phân tích tệp dữ liệu liên quan đến việc làm, các nhà phân tích cần tập trung vào các đồ thị liên quan đến dữ liệu công việc như: số lượng việc làm trong mỗi ngành nghề. 

Dựa trên những phân tích này, các chuyên gia dữ liệu còn có thể xây dựng mô hình dự đoán (prediction model) cho tương lai. Đây cũng là một ưu điểm rất mạnh của data analytics khi hỗ trợ người dùng có được tầm nhìn trong công việc đang xử lý. 

Lời kết

Python Anaconda nói riêng và Anaconda nói chung là bộ công cụ lớn, đáp ứng được hầu hết nhu cầu phân tích dữ liệu (data analytic) cho người dùng. Nền tảng này cho phép người dùng tiếp cận đến hơn 7500 data sciences packages chuyên dụng cho phân tích dữ liệu trên cloud của nhà phát triển. (trong lập trình thì 1 package có thể bao gồm cả library và các công cụ khác dưới dạng file thực thi – executable file). Đây không chỉ là công cụ rất mạnh hỗ trợ phân tích dữ liệu, mà còn ứng dụng trong trí tuệ nhân tạo như machine learning, deep learning. 

Với nhu cầu phân tích dữ liệu, nhu cầu sử dụng công nghệ ngày càng cao với nhiều chức năng tiên tiến hơn, việc sử dụng những công cụ phân tích dữ liệu như Python Anaconda sẽ đem lại lợi thế lớn cho chuyên gia công nghệ, cũng như chuyên viên tài chính, quản lý cấp cao.