Giá trị bất thường là gì? Công thức tính, mẫu số liệu chi tiết

Giá trị bất thường là gì? Công thức tính, mẫu số liệu chi tiết

Giá trị bất thường (outlier) là những điểm dữ liệu nằm xa so với phần lớn các giá trị còn lại trong tập dữ liệu. Việc nhận biết và xử lý giá trị bất thường đóng vai trò quan trọng trong phân tích thống kê, giúp đảm bảo kết quả phân tích chính xác và đáng tin cậy. Bài viết dưới đây sẽ trình bày chi tiết định nghĩa, công thức xác định và cách xử lý giá trị bất thường kèm ví dụ minh họa cụ thể.

Giá trị bất thường là gì?

Trong quá trình thu thập và phân tích dữ liệu, chúng ta thường gặp những giá trị khác biệt đáng kể so với các giá trị còn lại. Những giá trị này được gọi là giá trị bất thường.

Giá trị bất thường (Outlier) là những quan sát có giá trị khác biệt đáng kể so với phần lớn các quan sát khác trong tập dữ liệu. Chúng nằm xa khỏi xu hướng chung của dữ liệu.

Đặc điểm nhận biết giá trị bất thường:

  • Nằm xa so với giá trị trung bình hoặc trung vị
  • Khác biệt rõ rệt so với các giá trị lân cận
  • Có thể xuất hiện ở đầu hoặc cuối dãy dữ liệu đã sắp xếp

Phân loại giá trị bất thường:

Loại Đặc điểm Ví dụ
Giá trị bất thường thấp Nhỏ hơn nhiều so với các giá trị khác Điểm 0 trong dãy điểm từ 6-10
Giá trị bất thường cao Lớn hơn nhiều so với các giá trị khác Thu nhập 100 triệu trong nhóm thu nhập 5-15 triệu

Nguyên nhân xuất hiện giá trị bất thường

Trước khi quyết định xử lý giá trị bất thường, chúng ta cần hiểu rõ nguyên nhân tại sao chúng xuất hiện trong dữ liệu.

Các nguyên nhân chính:

  1. Lỗi đo lường hoặc nhập liệu: Sai sót trong quá trình thu thập, ghi chép hoặc nhập dữ liệu vào hệ thống
  2. Lỗi xử lý dữ liệu: Lỗi trong quá trình tính toán, chuyển đổi đơn vị hoặc mã hóa dữ liệu
  3. Biến động tự nhiên: Sự đa dạng thực sự trong dữ liệu, phản ánh hiện tượng thực tế
  4. Sự kiện bất thường: Các sự kiện hiếm gặp nhưng có thật (thiên tai, khủng hoảng kinh tế…)
  5. Lỗi lấy mẫu: Mẫu không đại diện cho tổng thể

Công thức xác định giá trị bất thường

Có nhiều phương pháp để xác định giá trị bất thường trong thống kê. Dưới đây là hai phương pháp phổ biến nhất.

Phương pháp 1: Sử dụng tứ phân vị (IQR)

Đây là phương pháp phổ biến nhất để xác định giá trị bất thường.

Công thức tính khoảng tứ phân vị:

\( IQR = Q_3 – Q_1 \)

Quy tắc xác định giá trị bất thường:

Điều kiện Kết luận
\( x < Q_1 – 1{,}5 \times IQR \) Giá trị bất thường thấp
\( x > Q_3 + 1{,}5 \times IQR \) Giá trị bất thường cao

Trong đó:

  • \( Q_1 \): Tứ phân vị thứ nhất (25%)
  • \( Q_3 \): Tứ phân vị thứ ba (75%)
  • \( IQR \): Khoảng tứ phân vị

Phương pháp 2: Sử dụng độ lệch chuẩn

Quy tắc 3-sigma: Một giá trị được coi là bất thường nếu nằm ngoài khoảng \( \bar{x} \pm 3\sigma \)

Công thức:

  • Cận dưới: \( \bar{x} – 3\sigma \)
  • Cận trên: \( \bar{x} + 3\sigma \)

Trong đó:

  • \( \bar{x} \): Giá trị trung bình
  • \( \sigma \): Độ lệch chuẩn

Cách tìm giá trị bất thường bằng phương pháp tứ phân vị

Phương pháp tứ phân vị là cách tiếp cận đơn giản và hiệu quả nhất. Dưới đây là các bước thực hiện chi tiết.

Các bước tìm giá trị bất thường:

  1. Bước 1: Sắp xếp dữ liệu theo thứ tự tăng dần
  2. Bước 2: Tính tứ phân vị thứ nhất \( Q_1 \) và tứ phân vị thứ ba \( Q_3 \)
  3. Bước 3: Tính khoảng tứ phân vị \( IQR = Q_3 – Q_1 \)
  4. Bước 4: Tính cận dưới: \( Q_1 – 1{,}5 \times IQR \)
  5. Bước 5: Tính cận trên: \( Q_3 + 1{,}5 \times IQR \)
  6. Bước 6: Xác định các giá trị nằm ngoài khoảng [cận dưới, cận trên]

Sơ đồ minh họa:

Vùng Phạm vi Phân loại
Vùng bất thường thấp \( x < Q_1 – 1{,}5 \times IQR \) Outlier
Vùng bình thường \( Q_1 – 1{,}5 \times IQR \leq x \leq Q_3 + 1{,}5 \times IQR \) Dữ liệu hợp lệ
Vùng bất thường cao \( x > Q_3 + 1{,}5 \times IQR \) Outlier

Cách xử lý giá trị bất thường

Sau khi xác định được các giá trị bất thường, chúng ta cần quyết định cách xử lý phù hợp tùy thuộc vào nguyên nhân và mục đích phân tích.

Phương pháp Mô tả Khi nào áp dụng
Loại bỏ Xóa giá trị bất thường khỏi tập dữ liệu Khi xác định là lỗi nhập liệu hoặc đo lường
Thay thế Thay bằng giá trị trung bình, trung vị hoặc giá trị biên Khi muốn giữ kích thước mẫu
Giữ nguyên Không can thiệp vào dữ liệu Khi giá trị bất thường phản ánh hiện tượng thực tế
Phân tích riêng Tách riêng để nghiên cứu sâu hơn Khi giá trị bất thường mang ý nghĩa quan trọng

Ví dụ minh họa cách tìm giá trị bất thường

Để hiểu rõ hơn cách áp dụng lý thuyết, hãy cùng xem các ví dụ cụ thể dưới đây.

Ví dụ 1: Tìm giá trị bất thường trong dãy điểm thi

Đề bài: Điểm thi của 12 học sinh: 2, 55, 58, 60, 62, 65, 67, 70, 72, 75, 78, 95. Tìm giá trị bất thường trong dữ liệu.

Lời giải:

Bước 1: Dữ liệu đã sắp xếp tăng dần với \( n = 12 \)

Bước 2: Tính các tứ phân vị

  • Nửa dưới: 2, 55, 58, 60, 62, 65
  • Nửa trên: 67, 70, 72, 75, 78, 95
  • \( Q_1 = \displaystyle \frac{58 + 60}{2} = 59 \)
  • \( Q_3 = \displaystyle \frac{72 + 75}{2} = 73{,}5 \)

Bước 3: Tính khoảng tứ phân vị

\( IQR = Q_3 – Q_1 = 73{,}5 – 59 = 14{,}5 \)

Bước 4: Tính các cận

  • Cận dưới: \( Q_1 – 1{,}5 \times IQR = 59 – 1{,}5 \times 14{,}5 = 59 – 21{,}75 = 37{,}25 \)
  • Cận trên: \( Q_3 + 1{,}5 \times IQR = 73{,}5 + 1{,}5 \times 14{,}5 = 73{,}5 + 21{,}75 = 95{,}25 \)

Bước 5: Xác định giá trị bất thường

  • Giá trị 2 < 37,25 → Giá trị bất thường thấp
  • Giá trị 95 < 95,25 → Không phải giá trị bất thường

Kết luận: Điểm 2 là giá trị bất thường trong dữ liệu.

Ví dụ 2: Phân tích thu nhập

Đề bài: Thu nhập hàng tháng (triệu đồng) của 10 nhân viên: 8, 9, 10, 10, 11, 12, 12, 13, 14, 45. Xác định giá trị bất thường.

Lời giải:

Bước 1: Dữ liệu đã sắp xếp với \( n = 10 \)

Bước 2: Tính các tứ phân vị

  • Nửa dưới: 8, 9, 10, 10, 11
  • Nửa trên: 12, 12, 13, 14, 45
  • \( Q_1 = 10 \) (phần tử giữa nửa dưới)
  • \( Q_3 = 13 \) (phần tử giữa nửa trên)

Bước 3: Tính IQR

\( IQR = 13 – 10 = 3 \)

Bước 4: Tính các cận

  • Cận dưới: \( 10 – 1{,}5 \times 3 = 10 – 4{,}5 = 5{,}5 \)
  • Cận trên: \( 13 + 1{,}5 \times 3 = 13 + 4{,}5 = 17{,}5 \)

Bước 5: Xác định giá trị bất thường

Giá trị 45 > 17,5 → Giá trị bất thường cao

Kết luận: Thu nhập 45 triệu là giá trị bất thường.

Bài tập về giá trị bất thường có lời giải chi tiết

Sau khi nắm vững lý thuyết và xem các ví dụ, hãy luyện tập với các bài tập dưới đây.

Bài tập 1

Đề bài: Số sản phẩm bán được trong 15 ngày: 20, 22, 25, 26, 28, 30, 31, 32, 33, 35, 36, 38, 40, 42, 120. Tìm giá trị bất thường.

Lời giải:

Dữ liệu đã sắp xếp với \( n = 15 \)

Tìm trung vị \( Q_2 \):

Vị trí trung vị = 8, nên \( Q_2 = 32 \)

Tìm \( Q_1 \):

Nửa dưới: 20, 22, 25, 26, 28, 30, 31 (7 phần tử)

\( Q_1 = 26 \) (phần tử thứ 4)

Tìm \( Q_3 \):

Nửa trên: 33, 35, 36, 38, 40, 42, 120 (7 phần tử)

\( Q_3 = 38 \) (phần tử thứ 4)

Tính IQR:

\( IQR = 38 – 26 = 12 \)

Tính các cận:

  • Cận dưới: \( 26 – 1{,}5 \times 12 = 26 – 18 = 8 \)
  • Cận trên: \( 38 + 1{,}5 \times 12 = 38 + 18 = 56 \)

Kết luận: Giá trị 120 > 56, nên 120 là giá trị bất thường.

Bài tập 2

Đề bài: Chiều cao (cm) của 11 học sinh: 150, 152, 155, 158, 160, 162, 165, 168, 170, 172, 175. Hỏi có giá trị bất thường không?

Lời giải:

Dữ liệu đã sắp xếp với \( n = 11 \)

Tìm các tứ phân vị:

  • \( Q_2 = 162 \) (phần tử thứ 6)
  • Nửa dưới: 150, 152, 155, 158, 160 → \( Q_1 = 155 \)
  • Nửa trên: 165, 168, 170, 172, 175 → \( Q_3 = 170 \)

Tính IQR:

\( IQR = 170 – 155 = 15 \)

Tính các cận:

  • Cận dưới: \( 155 – 1{,}5 \times 15 = 155 – 22{,}5 = 132{,}5 \)
  • Cận trên: \( 170 + 1{,}5 \times 15 = 170 + 22{,}5 = 192{,}5 \)

Kết luận: Tất cả các giá trị đều nằm trong khoảng [132,5; 192,5], nên không có giá trị bất thường.

Bài tập 3

Đề bài: Thời gian chạy 100m (giây) của 10 vận động viên: 11.2, 11.5, 11.8, 12.0, 12.2, 12.4, 12.6, 12.8, 13.0, 18.5. Tìm giá trị bất thường và đề xuất cách xử lý.

Lời giải:

Dữ liệu đã sắp xếp với \( n = 10 \)

Tìm các tứ phân vị:

  • Nửa dưới: 11.2, 11.5, 11.8, 12.0, 12.2 → \( Q_1 = 11{,}8 \)
  • Nửa trên: 12.4, 12.6, 12.8, 13.0, 18.5 → \( Q_3 = 12{,}8 \)

Tính IQR:

\( IQR = 12{,}8 – 11{,}8 = 1{,}0 \)

Tính các cận:

  • Cận dưới: \( 11{,}8 – 1{,}5 \times 1{,}0 = 10{,}3 \)
  • Cận trên: \( 12{,}8 + 1{,}5 \times 1{,}0 = 14{,}3 \)

Kết luận: Giá trị 18,5 > 14,3 → 18,5 giây là giá trị bất thường

Đề xuất xử lý: Cần xác định nguyên nhân:

  • Nếu do chấn thương hoặc sự cố → Loại bỏ khỏi phân tích
  • Nếu phản ánh năng lực thực tế → Giữ nguyên để đánh giá đúng

Kết luận

Giá trị bất thường là những điểm dữ liệu nằm xa so với xu hướng chung, có thể ảnh hưởng đáng kể đến kết quả phân tích thống kê. Phương pháp tứ phân vị với quy tắc 1,5×IQR là cách phổ biến và hiệu quả để xác định giá trị bất thường. Việc xử lý giá trị bất thường cần dựa trên nguyên nhân cụ thể và mục đích phân tích. Hãy luôn cẩn thận kiểm tra và xử lý giá trị bất thường trước khi đưa ra kết luận từ dữ liệu để đảm bảo tính chính xác của phân tích.

Fenwick Trần

Fenwick Trần

Fenwick Trần là tác giả VJOL - Tạp chí Khoa học Việt Nam Trực tuyến. Ông cống hiến cho sứ mệnh lan tỏa tri thức đến cộng đồng học thuật.