Standard Deviation có nghĩa là độ lệch chuẩn hay còn gọi là độ lệch tiêu chuẩn.
Độ lệch chuẩn Standard Deviation là một đại lượng dùng để đo mức độ phân tán, dàn trải của một tập dữ liệu.
Độ lệch chuẩn thấp có nghĩa là hầu hết các giá trị trong tập dữ liệu gần với giá trị trung bình.
Độ lệch chuẩn cao có nghĩa là hầu hết các giá trị trong tập dữ liệu dàn trải, phân tán trên một phạm vi rộng so với giá trị trung bình.
Độ lệch chuẩn được tính bằng cách lấy căn bậc hai của phương sai.
Công thức tính độ lệch tiêu chuẩn như sau:
σ : là độ lệch chuẩn
σ2 : là phương sai
N: là số phần tử của tập dữ liệu
Xi là phần tử thứ i
μ: là trung bình cộng của tập dữ liệu.
Ví dụ: Bài toán tìm mức độ phân tán, dàn trải điểm môn Tiếng Anh của 15 sinh viên.
points_English = [100,99,82,87,81,82,96,87,94,78,71,85,82,83,82]
Để tìm mức độ phân tán, dàn trải dữ liệu có nghĩa là chúng ta cần tìm độ lệch chuẩn.
Bước 1: Tính giá trị trung bình
(100+99+82+87+81+82+96+87+94+78+71+85+82+83+82) / 15 = 85.93
Bước 2: Tính độ lệch của từng giá trị với giá trị trung bình
100 - 85.93 = 14.07
99 - 85.93 = 13.07
82 - 85.93 = -3.93
87 - 85.93 = 1.07
81 - 85.93 = -4.93
82 - 85.93 = -3.93
96 - 85.93 = 10.07
87 - 85.93 = 1.07
94 - 85.93 = 8.07
78 - 85.93 = -7.93
71 - 85.93 = -14.93
85 - 85.93 = -0.93
82 - 85.93 = -3.93
83 - 85.93 = -2.93
82 - 85.93 = -3.93
Bước 3: Tính phương sai
Phương sai là trung bình cộng của các bình phương độ lệch.
((14.07)2 + (13.07)2 + (-3.93)2 + (1.07)2 + (-4.93)2 + (-3.93)2 + (10.07)2 + (1.07)2 + (8.07)2 + (-7.93)2 + (-14.94)2 + (-0.93)2 + (-3.93)2 + (-2.93)2 + (-3.93)2)/15 = 61.26
Bước 4: Tính độ lệch chuẩn.
Độ lệch chuẩn bằng căn bậc hai của phương sai.
√61.26 = 7.82
Đó là cách tính độ lêch chuẩn trong toán học.Tuy nhiên trong Numpy Python có phương thức std() để tính độ lệch chuẩn rất dễ dàng và đơn giản.
Sử dụng phương thức std() trong thư viện Numpy của Python để tính độ lệch chuẩn.
import numpy as np
# Danh sách điểm môn tiếng anh của 15 sinh viên:
points_English = [100,99,82,87,81,82,96,87,94,78,71,85,82,83,82]
# Tính độ lệch chuẩn bằng phương thức std() trong python.
std1 = np.std(points_English)
print("Do lech chuan la:", std1)
Do lech chuan la: 7.82
Sử dụng phương thức var() trong thư viện Numpy để tính phương sai.
import numpy as np
# Danh sách điểm môn tiếng anh của 15 sinh viên:
points_English = [100,99,82,87,81,82,96,87,94,78,71,85,82,83,82]
# Tính phương sai sử dụng phương thức var() trong numpy của python.
var_phuongsai = np.var(points_English)
print("Phuong sai la:", var_phuongsai)
Phuong sai la: 61.26
Độ lệch chuẩn thường được dùng trong thống kê, nó đo tính biến động, chênh lệch của các giá trị ở những thời điểm khác nhau so với giá trị trung bình.
Thuật toán độ lệch chuẩn (Standard Deviation) và phương sai (Variance) là thường sử dụng trong Machine Learning, vì vậy bạn cần nắm chắc và hiểu rõ khái niệm này để phát triển cho các ứng dụng về machine learning sau này.