Giá trị bất thường là gì? Công thức tính, mẫu số liệu chi tiết
Giá trị bất thường (outlier) là những điểm dữ liệu nằm xa so với phần lớn các giá trị còn lại trong tập dữ liệu. Việc nhận biết và xử lý giá trị bất thường đóng vai trò quan trọng trong phân tích thống kê, giúp đảm bảo kết quả phân tích chính xác và đáng tin cậy. Bài viết dưới đây sẽ trình bày chi tiết định nghĩa, công thức xác định và cách xử lý giá trị bất thường kèm ví dụ minh họa cụ thể.
Giá trị bất thường là gì?
Trong quá trình thu thập và phân tích dữ liệu, chúng ta thường gặp những giá trị khác biệt đáng kể so với các giá trị còn lại. Những giá trị này được gọi là giá trị bất thường.
Giá trị bất thường (Outlier) là những quan sát có giá trị khác biệt đáng kể so với phần lớn các quan sát khác trong tập dữ liệu. Chúng nằm xa khỏi xu hướng chung của dữ liệu.
Đặc điểm nhận biết giá trị bất thường:
- Nằm xa so với giá trị trung bình hoặc trung vị
- Khác biệt rõ rệt so với các giá trị lân cận
- Có thể xuất hiện ở đầu hoặc cuối dãy dữ liệu đã sắp xếp
Phân loại giá trị bất thường:
| Loại | Đặc điểm | Ví dụ |
|---|---|---|
| Giá trị bất thường thấp | Nhỏ hơn nhiều so với các giá trị khác | Điểm 0 trong dãy điểm từ 6-10 |
| Giá trị bất thường cao | Lớn hơn nhiều so với các giá trị khác | Thu nhập 100 triệu trong nhóm thu nhập 5-15 triệu |
Nguyên nhân xuất hiện giá trị bất thường
Trước khi quyết định xử lý giá trị bất thường, chúng ta cần hiểu rõ nguyên nhân tại sao chúng xuất hiện trong dữ liệu.
Các nguyên nhân chính:
- Lỗi đo lường hoặc nhập liệu: Sai sót trong quá trình thu thập, ghi chép hoặc nhập dữ liệu vào hệ thống
- Lỗi xử lý dữ liệu: Lỗi trong quá trình tính toán, chuyển đổi đơn vị hoặc mã hóa dữ liệu
- Biến động tự nhiên: Sự đa dạng thực sự trong dữ liệu, phản ánh hiện tượng thực tế
- Sự kiện bất thường: Các sự kiện hiếm gặp nhưng có thật (thiên tai, khủng hoảng kinh tế…)
- Lỗi lấy mẫu: Mẫu không đại diện cho tổng thể
Công thức xác định giá trị bất thường
Có nhiều phương pháp để xác định giá trị bất thường trong thống kê. Dưới đây là hai phương pháp phổ biến nhất.
Phương pháp 1: Sử dụng tứ phân vị (IQR)
Đây là phương pháp phổ biến nhất để xác định giá trị bất thường.
Công thức tính khoảng tứ phân vị:
\( IQR = Q_3 – Q_1 \)
Quy tắc xác định giá trị bất thường:
| Điều kiện | Kết luận |
|---|---|
| \( x < Q_1 – 1{,}5 \times IQR \) | Giá trị bất thường thấp |
| \( x > Q_3 + 1{,}5 \times IQR \) | Giá trị bất thường cao |
Trong đó:
- \( Q_1 \): Tứ phân vị thứ nhất (25%)
- \( Q_3 \): Tứ phân vị thứ ba (75%)
- \( IQR \): Khoảng tứ phân vị
Phương pháp 2: Sử dụng độ lệch chuẩn
Quy tắc 3-sigma: Một giá trị được coi là bất thường nếu nằm ngoài khoảng \( \bar{x} \pm 3\sigma \)
Công thức:
- Cận dưới: \( \bar{x} – 3\sigma \)
- Cận trên: \( \bar{x} + 3\sigma \)
Trong đó:
- \( \bar{x} \): Giá trị trung bình
- \( \sigma \): Độ lệch chuẩn
Cách tìm giá trị bất thường bằng phương pháp tứ phân vị
Phương pháp tứ phân vị là cách tiếp cận đơn giản và hiệu quả nhất. Dưới đây là các bước thực hiện chi tiết.
Các bước tìm giá trị bất thường:
- Bước 1: Sắp xếp dữ liệu theo thứ tự tăng dần
- Bước 2: Tính tứ phân vị thứ nhất \( Q_1 \) và tứ phân vị thứ ba \( Q_3 \)
- Bước 3: Tính khoảng tứ phân vị \( IQR = Q_3 – Q_1 \)
- Bước 4: Tính cận dưới: \( Q_1 – 1{,}5 \times IQR \)
- Bước 5: Tính cận trên: \( Q_3 + 1{,}5 \times IQR \)
- Bước 6: Xác định các giá trị nằm ngoài khoảng [cận dưới, cận trên]
Sơ đồ minh họa:
| Vùng | Phạm vi | Phân loại |
|---|---|---|
| Vùng bất thường thấp | \( x < Q_1 – 1{,}5 \times IQR \) | Outlier |
| Vùng bình thường | \( Q_1 – 1{,}5 \times IQR \leq x \leq Q_3 + 1{,}5 \times IQR \) | Dữ liệu hợp lệ |
| Vùng bất thường cao | \( x > Q_3 + 1{,}5 \times IQR \) | Outlier |
Cách xử lý giá trị bất thường
Sau khi xác định được các giá trị bất thường, chúng ta cần quyết định cách xử lý phù hợp tùy thuộc vào nguyên nhân và mục đích phân tích.
| Phương pháp | Mô tả | Khi nào áp dụng |
|---|---|---|
| Loại bỏ | Xóa giá trị bất thường khỏi tập dữ liệu | Khi xác định là lỗi nhập liệu hoặc đo lường |
| Thay thế | Thay bằng giá trị trung bình, trung vị hoặc giá trị biên | Khi muốn giữ kích thước mẫu |
| Giữ nguyên | Không can thiệp vào dữ liệu | Khi giá trị bất thường phản ánh hiện tượng thực tế |
| Phân tích riêng | Tách riêng để nghiên cứu sâu hơn | Khi giá trị bất thường mang ý nghĩa quan trọng |
Ví dụ minh họa cách tìm giá trị bất thường
Để hiểu rõ hơn cách áp dụng lý thuyết, hãy cùng xem các ví dụ cụ thể dưới đây.
Ví dụ 1: Tìm giá trị bất thường trong dãy điểm thi
Đề bài: Điểm thi của 12 học sinh: 2, 55, 58, 60, 62, 65, 67, 70, 72, 75, 78, 95. Tìm giá trị bất thường trong dữ liệu.
Lời giải:
Bước 1: Dữ liệu đã sắp xếp tăng dần với \( n = 12 \)
Bước 2: Tính các tứ phân vị
- Nửa dưới: 2, 55, 58, 60, 62, 65
- Nửa trên: 67, 70, 72, 75, 78, 95
- \( Q_1 = \displaystyle \frac{58 + 60}{2} = 59 \)
- \( Q_3 = \displaystyle \frac{72 + 75}{2} = 73{,}5 \)
Bước 3: Tính khoảng tứ phân vị
\( IQR = Q_3 – Q_1 = 73{,}5 – 59 = 14{,}5 \)
Bước 4: Tính các cận
- Cận dưới: \( Q_1 – 1{,}5 \times IQR = 59 – 1{,}5 \times 14{,}5 = 59 – 21{,}75 = 37{,}25 \)
- Cận trên: \( Q_3 + 1{,}5 \times IQR = 73{,}5 + 1{,}5 \times 14{,}5 = 73{,}5 + 21{,}75 = 95{,}25 \)
Bước 5: Xác định giá trị bất thường
- Giá trị 2 < 37,25 → Giá trị bất thường thấp
- Giá trị 95 < 95,25 → Không phải giá trị bất thường
Kết luận: Điểm 2 là giá trị bất thường trong dữ liệu.
Ví dụ 2: Phân tích thu nhập
Đề bài: Thu nhập hàng tháng (triệu đồng) của 10 nhân viên: 8, 9, 10, 10, 11, 12, 12, 13, 14, 45. Xác định giá trị bất thường.
Lời giải:
Bước 1: Dữ liệu đã sắp xếp với \( n = 10 \)
Bước 2: Tính các tứ phân vị
- Nửa dưới: 8, 9, 10, 10, 11
- Nửa trên: 12, 12, 13, 14, 45
- \( Q_1 = 10 \) (phần tử giữa nửa dưới)
- \( Q_3 = 13 \) (phần tử giữa nửa trên)
Bước 3: Tính IQR
\( IQR = 13 – 10 = 3 \)
Bước 4: Tính các cận
- Cận dưới: \( 10 – 1{,}5 \times 3 = 10 – 4{,}5 = 5{,}5 \)
- Cận trên: \( 13 + 1{,}5 \times 3 = 13 + 4{,}5 = 17{,}5 \)
Bước 5: Xác định giá trị bất thường
Giá trị 45 > 17,5 → Giá trị bất thường cao
Kết luận: Thu nhập 45 triệu là giá trị bất thường.
Bài tập về giá trị bất thường có lời giải chi tiết
Sau khi nắm vững lý thuyết và xem các ví dụ, hãy luyện tập với các bài tập dưới đây.
Bài tập 1
Đề bài: Số sản phẩm bán được trong 15 ngày: 20, 22, 25, 26, 28, 30, 31, 32, 33, 35, 36, 38, 40, 42, 120. Tìm giá trị bất thường.
Lời giải:
Dữ liệu đã sắp xếp với \( n = 15 \)
Tìm trung vị \( Q_2 \):
Vị trí trung vị = 8, nên \( Q_2 = 32 \)
Tìm \( Q_1 \):
Nửa dưới: 20, 22, 25, 26, 28, 30, 31 (7 phần tử)
\( Q_1 = 26 \) (phần tử thứ 4)
Tìm \( Q_3 \):
Nửa trên: 33, 35, 36, 38, 40, 42, 120 (7 phần tử)
\( Q_3 = 38 \) (phần tử thứ 4)
Tính IQR:
\( IQR = 38 – 26 = 12 \)
Tính các cận:
- Cận dưới: \( 26 – 1{,}5 \times 12 = 26 – 18 = 8 \)
- Cận trên: \( 38 + 1{,}5 \times 12 = 38 + 18 = 56 \)
Kết luận: Giá trị 120 > 56, nên 120 là giá trị bất thường.
Bài tập 2
Đề bài: Chiều cao (cm) của 11 học sinh: 150, 152, 155, 158, 160, 162, 165, 168, 170, 172, 175. Hỏi có giá trị bất thường không?
Lời giải:
Dữ liệu đã sắp xếp với \( n = 11 \)
Tìm các tứ phân vị:
- \( Q_2 = 162 \) (phần tử thứ 6)
- Nửa dưới: 150, 152, 155, 158, 160 → \( Q_1 = 155 \)
- Nửa trên: 165, 168, 170, 172, 175 → \( Q_3 = 170 \)
Tính IQR:
\( IQR = 170 – 155 = 15 \)
Tính các cận:
- Cận dưới: \( 155 – 1{,}5 \times 15 = 155 – 22{,}5 = 132{,}5 \)
- Cận trên: \( 170 + 1{,}5 \times 15 = 170 + 22{,}5 = 192{,}5 \)
Kết luận: Tất cả các giá trị đều nằm trong khoảng [132,5; 192,5], nên không có giá trị bất thường.
Bài tập 3
Đề bài: Thời gian chạy 100m (giây) của 10 vận động viên: 11.2, 11.5, 11.8, 12.0, 12.2, 12.4, 12.6, 12.8, 13.0, 18.5. Tìm giá trị bất thường và đề xuất cách xử lý.
Lời giải:
Dữ liệu đã sắp xếp với \( n = 10 \)
Tìm các tứ phân vị:
- Nửa dưới: 11.2, 11.5, 11.8, 12.0, 12.2 → \( Q_1 = 11{,}8 \)
- Nửa trên: 12.4, 12.6, 12.8, 13.0, 18.5 → \( Q_3 = 12{,}8 \)
Tính IQR:
\( IQR = 12{,}8 – 11{,}8 = 1{,}0 \)
Tính các cận:
- Cận dưới: \( 11{,}8 – 1{,}5 \times 1{,}0 = 10{,}3 \)
- Cận trên: \( 12{,}8 + 1{,}5 \times 1{,}0 = 14{,}3 \)
Kết luận: Giá trị 18,5 > 14,3 → 18,5 giây là giá trị bất thường
Đề xuất xử lý: Cần xác định nguyên nhân:
- Nếu do chấn thương hoặc sự cố → Loại bỏ khỏi phân tích
- Nếu phản ánh năng lực thực tế → Giữ nguyên để đánh giá đúng
Kết luận
Giá trị bất thường là những điểm dữ liệu nằm xa so với xu hướng chung, có thể ảnh hưởng đáng kể đến kết quả phân tích thống kê. Phương pháp tứ phân vị với quy tắc 1,5×IQR là cách phổ biến và hiệu quả để xác định giá trị bất thường. Việc xử lý giá trị bất thường cần dựa trên nguyên nhân cụ thể và mục đích phân tích. Hãy luôn cẩn thận kiểm tra và xử lý giá trị bất thường trước khi đưa ra kết luận từ dữ liệu để đảm bảo tính chính xác của phân tích.
Có thể bạn quan tâm
- Trong các số tự nhiên số nào không có số liền sau?
- Mệnh đề là gì? Mệnh đề toán học, tính chất và phân loại chi tiết
- Số thập phân hữu hạn là gì? Vô hạn tuần hoàn, cách đọc lớp 5 chi tiết
- Phương trình đường tròn: Dạng chính tắc, điều kiện và cách viết
- 3 đường conic: Elip, Hyperbol, Parabol - Lý thuyết và công thức
