Python Pandas là một thư viện trong Python được sử dụng để làm việc với các tập dữ liệu (datasets). Pandas được tạo vào năm 2008 bởi Wes McKinney.
Pandas có thể hiểu là làm việc liên quan đến dữ liệu bảng (Panel data) và phân tích dữ liệu (Python data Analysis).
Pandas có các chức năng để phân tích, làm sạch, khám phá và thao tác dữ liệu.
Pandas dùng để phân tích dữ liệu lớn (Big data) và đưa ra kết luận dựa trên các lý thuyết thống kê.
Python Pandas dùng để dọn dẹp các thập dữ liệu lộn xộn và làm cho chúng dễ đọc, dễ sử dụng và phù hợp.
Pandas phân tích và xử lý dữ liệu trong python : dễ dàng, linh hoạt, mạnh mẽ, trực quan bằng cách sử dụng: Series, DataFrames, CSV, Excel, Json.
Pandas cung cấp các hàm tìm giá trị lớn nhất (Max value), giá trị nhỏ nhất (Min value), giá trị trung bình (Average value) và mối liên quan giữa hai hoặc nhiều cột.
Pandas làm sạch dữ liệu bằng cách xóa các dòng dữ liệu không liên quan, hoặc chứa giá trị sai, hoặc giá trị trống (empty hoặc NULL).
Dữ liệu (Data) là rất quan trọng trong khoa học dữ liệu (Data science)
Khoa học dữ liệu (Data science) là một nhánh của khoa học máy tính, nơi chúng ta nghiên cứu cách lưu trữ, sử dụng và phân tích dữ liệu để lấy thông tin.
Ví dụ sử dụng thuộc tính Series trong pandas để đọc kiểu dữ liệu một chiều hoặc một cột dữ liệu như sau:
import pandas
languages = ['Python','C#','PHP']
data = pandas.Series(languages)
print(data)
0 Python
1 C#
2 PHP
Ví dụ Sử dụng thuộc tính DataFrame trong pandas để đọc kiểu dữ liệu 2 chiều hoặc một bảng dữ liệu (chứa cột và dòng dữ liệu) như sau:
import pandas
dataset = { 'cars' :['Honda','Toyota','Huydai'], 'colors':['Red','Yellow','White']}
data = pandas.DataFrame(dataset)
print(data)
cars colors
0 Honda Red
1 Toyota Yellow
2 Huydai White