Giá trị ngoại lệ là gì? Cách xác định trong mẫu số liệu chi tiết

Giá trị ngoại lệ là gì? Cách xác định trong mẫu số liệu chi tiết

Trong phân tích dữ liệu thống kê, việc nhận biết những giá trị khác biệt bất thường là vô cùng quan trọng. Vậy giá trị ngoại lệ là gì? Đây là những điểm dữ liệu nằm xa so với phần lớn các quan sát khác, có thể ảnh hưởng đáng kể đến kết quả phân tích. Bài viết dưới đây sẽ giúp bạn hiểu rõ giá trị ngoại lệ là gì, công thức xác định và cách xử lý kèm ví dụ minh họa chi tiết.

Giá trị ngoại lệ là gì?

Khi làm việc với dữ liệu thống kê, chúng ta thường gặp những giá trị “lạc loài” so với phần còn lại. Để hiểu rõ giá trị ngoại lệ là gì, hãy cùng tìm hiểu định nghĩa chính xác.

Giá trị ngoại lệ (Outlier) là những quan sát có giá trị khác biệt đáng kể so với phần lớn các quan sát khác trong tập dữ liệu. Chúng nằm xa khỏi xu hướng chung và vùng tập trung chính của dữ liệu.

Ví dụ đơn giản: Trong dãy điểm thi: 7, 8, 7.5, 8, 9, 8.5, 2, 8 thì điểm 2 là giá trị ngoại lệ vì khác biệt rõ rệt so với các điểm còn lại.

Tên gọi khác của giá trị ngoại lệ:

  • Giá trị bất thường
  • Giá trị ngoại lai
  • Điểm ngoại lệ
  • Outlier (tiếng Anh)

Đặc điểm nhận biết giá trị ngoại lệ

Sau khi hiểu định nghĩa, chúng ta cần nắm rõ các đặc điểm để nhận biết giá trị ngoại lệ trong thực tế.

Các dấu hiệu nhận biết:

Đặc điểm Mô tả
Khoảng cách xa Nằm xa so với giá trị trung bình hoặc trung vị của dữ liệu
Khác biệt rõ rệt Chênh lệch đáng kể so với các giá trị lân cận
Vị trí biên Thường xuất hiện ở đầu hoặc cuối dãy dữ liệu đã sắp xếp
Tần suất thấp Xuất hiện hiếm, không theo quy luật chung

Phân loại giá trị ngoại lệ:

  • Giá trị ngoại lệ thấp (Low outlier): Nhỏ hơn nhiều so với các giá trị khác
  • Giá trị ngoại lệ cao (High outlier): Lớn hơn nhiều so với các giá trị khác

Nguyên nhân xuất hiện giá trị ngoại lệ

Trước khi quyết định xử lý, việc hiểu rõ nguyên nhân xuất hiện giá trị ngoại lệ giúp chúng ta đưa ra phương án phù hợp.

  1. Lỗi đo lường: Thiết bị đo không chính xác hoặc sai phương pháp đo
  2. Lỗi nhập liệu: Gõ nhầm số liệu khi nhập dữ liệu vào hệ thống
  3. Lỗi xử lý: Sai sót trong tính toán, chuyển đổi đơn vị
  4. Biến động tự nhiên: Sự đa dạng thực sự trong dữ liệu, phản ánh hiện tượng có thật
  5. Sự kiện đặc biệt: Các sự kiện hiếm gặp như thiên tai, khủng hoảng, đột biến
  6. Lỗi lấy mẫu: Mẫu không đại diện cho tổng thể nghiên cứu

Công thức xác định giá trị ngoại lệ

Có nhiều phương pháp toán học để xác định chính xác giá trị ngoại lệ. Dưới đây là hai phương pháp phổ biến nhất.

Phương pháp 1: Sử dụng tứ phân vị (Quy tắc IQR)

Đây là phương pháp phổ biến và đơn giản nhất để xác định giá trị ngoại lệ.

Bước 1: Tính khoảng tứ phân vị

\( IQR = Q_3 – Q_1 \)

Bước 2: Xác định các cận

  • Cận dưới: \( Q_1 – 1{,}5 \times IQR \)
  • Cận trên: \( Q_3 + 1{,}5 \times IQR \)

Quy tắc xác định:

Điều kiện Kết luận
\( x < Q_1 – 1{,}5 \times IQR \) Giá trị ngoại lệ thấp
\( Q_1 – 1{,}5 \times IQR \leq x \leq Q_3 + 1{,}5 \times IQR \) Giá trị bình thường
\( x > Q_3 + 1{,}5 \times IQR \) Giá trị ngoại lệ cao

Trong đó:

  • \( Q_1 \): Tứ phân vị thứ nhất (percentile 25%)
  • \( Q_3 \): Tứ phân vị thứ ba (percentile 75%)
  • \( IQR \): Khoảng tứ phân vị (Interquartile Range)

Phương pháp 2: Sử dụng độ lệch chuẩn (Quy tắc 3-sigma)

Công thức: Giá trị được coi là ngoại lệ nếu nằm ngoài khoảng:

\( \bar{x} – 3\sigma \leq x \leq \bar{x} + 3\sigma \)

Trong đó:

  • \( \bar{x} \): Giá trị trung bình của dữ liệu
  • \( \sigma \): Độ lệch chuẩn

Lưu ý: Phương pháp này phù hợp với dữ liệu có phân phối chuẩn.

Cách tìm giá trị ngoại lệ từng bước

Dưới đây là hướng dẫn chi tiết từng bước để tìm giá trị ngoại lệ bằng phương pháp tứ phân vị.

  1. Bước 1: Sắp xếp dữ liệu theo thứ tự tăng dần
  2. Bước 2: Tìm trung vị \( Q_2 \) của dãy dữ liệu
  3. Bước 3: Tìm \( Q_1 \) (trung vị của nửa dưới)
  4. Bước 4: Tìm \( Q_3 \) (trung vị của nửa trên)
  5. Bước 5: Tính \( IQR = Q_3 – Q_1 \)
  6. Bước 6: Tính cận dưới = \( Q_1 – 1{,}5 \times IQR \)
  7. Bước 7: Tính cận trên = \( Q_3 + 1{,}5 \times IQR \)
  8. Bước 8: Xác định các giá trị nằm ngoài khoảng [cận dưới, cận trên]

Cách xử lý giá trị ngoại lệ trong thống kê

Sau khi xác định được giá trị ngoại lệ, việc lựa chọn cách xử lý phù hợp phụ thuộc vào nguyên nhân và mục đích phân tích.

Phương pháp Mô tả Khi nào áp dụng
Loại bỏ Xóa giá trị ngoại lệ khỏi tập dữ liệu Khi xác định rõ là lỗi nhập liệu hoặc đo lường
Thay thế bằng cận Thay bằng giá trị cận trên hoặc cận dưới Khi muốn giữ nguyên kích thước mẫu
Thay thế bằng trung vị Thay bằng giá trị trung vị của dữ liệu Khi dữ liệu có phân phối lệch
Giữ nguyên Không can thiệp Khi giá trị phản ánh hiện tượng thực tế quan trọng
Phân tích riêng Tách riêng để nghiên cứu Khi giá trị ngoại lệ mang ý nghĩa đặc biệt

Ví dụ minh họa cách tìm giá trị ngoại lệ

Để hiểu rõ hơn cách áp dụng lý thuyết vào thực tế, hãy cùng xem các ví dụ cụ thể dưới đây.

Ví dụ 1: Tìm giá trị ngoại lệ trong dãy điểm

Đề bài: Điểm kiểm tra của 10 học sinh: 4, 7, 7, 8, 8, 8, 9, 9, 10, 10. Xác định có giá trị ngoại lệ không?

Lời giải:

Bước 1: Dữ liệu đã sắp xếp tăng dần với \( n = 10 \)

Bước 2: Tìm các tứ phân vị

  • Nửa dưới: 4, 7, 7, 8, 8
  • Nửa trên: 8, 9, 9, 10, 10
  • \( Q_1 = 7 \) (phần tử giữa nửa dưới)
  • \( Q_3 = 9 \) (phần tử giữa nửa trên)

Bước 3: Tính IQR

\( IQR = Q_3 – Q_1 = 9 – 7 = 2 \)

Bước 4: Tính các cận

  • Cận dưới: \( Q_1 – 1{,}5 \times IQR = 7 – 1{,}5 \times 2 = 7 – 3 = 4 \)
  • Cận trên: \( Q_3 + 1{,}5 \times IQR = 9 + 1{,}5 \times 2 = 9 + 3 = 12 \)

Bước 5: Kiểm tra

Tất cả các giá trị đều nằm trong khoảng [4, 12]

Kết luận: Không có giá trị ngoại lệ trong dữ liệu.

Ví dụ 2: Dữ liệu có giá trị ngoại lệ

Đề bài: Cân nặng (kg) của 11 học sinh: 35, 40, 42, 45, 47, 48, 50, 52, 55, 58, 95. Tìm giá trị ngoại lệ.

Lời giải:

Bước 1: Dữ liệu đã sắp xếp với \( n = 11 \)

Bước 2: Tìm các tứ phân vị

  • \( Q_2 = 48 \) (phần tử thứ 6)
  • Nửa dưới: 35, 40, 42, 45, 47 → \( Q_1 = 42 \)
  • Nửa trên: 50, 52, 55, 58, 95 → \( Q_3 = 55 \)

Bước 3: Tính IQR

\( IQR = 55 – 42 = 13 \)

Bước 4: Tính các cận

  • Cận dưới: \( 42 – 1{,}5 \times 13 = 42 – 19{,}5 = 22{,}5 \)
  • Cận trên: \( 55 + 1{,}5 \times 13 = 55 + 19{,}5 = 74{,}5 \)

Bước 5: Kiểm tra

Giá trị 95 > 74,5

Kết luận: 95 kg là giá trị ngoại lệ cao.

Bài tập về giá trị ngoại lệ có lời giải chi tiết

Hãy luyện tập thêm với các bài tập dưới đây để củng cố kiến thức.

Bài tập 1

Đề bài: Số giờ học mỗi tuần của 12 sinh viên: 5, 10, 12, 14, 15, 16, 18, 20, 22, 24, 25, 55. Tìm giá trị ngoại lệ.

Lời giải:

Dữ liệu đã sắp xếp với \( n = 12 \)

Tìm các tứ phân vị:

  • Nửa dưới: 5, 10, 12, 14, 15, 16
  • Nửa trên: 18, 20, 22, 24, 25, 55
  • \( Q_1 = \displaystyle \frac{12 + 14}{2} = 13 \)
  • \( Q_3 = \displaystyle \frac{22 + 24}{2} = 23 \)

Tính IQR:

\( IQR = 23 – 13 = 10 \)

Tính các cận:

  • Cận dưới: \( 13 – 1{,}5 \times 10 = 13 – 15 = -2 \)
  • Cận trên: \( 23 + 1{,}5 \times 10 = 23 + 15 = 38 \)

Kiểm tra:

  • Giá trị 5 > -2 → Không phải ngoại lệ
  • Giá trị 55 > 38 → Giá trị ngoại lệ

Đáp số: 55 giờ là giá trị ngoại lệ.

Bài tập 2

Đề bài: Doanh thu (triệu đồng) trong 10 ngày: 15, 18, 20, 22, 25, 26, 28, 30, 32, 100. Xác định giá trị ngoại lệ và đề xuất cách xử lý.

Lời giải:

Dữ liệu đã sắp xếp với \( n = 10 \)

Tìm các tứ phân vị:

  • Nửa dưới: 15, 18, 20, 22, 25 → \( Q_1 = 20 \)
  • Nửa trên: 26, 28, 30, 32, 100 → \( Q_3 = 30 \)

Tính IQR:

\( IQR = 30 – 20 = 10 \)

Tính các cận:

  • Cận dưới: \( 20 – 1{,}5 \times 10 = 5 \)
  • Cận trên: \( 30 + 1{,}5 \times 10 = 45 \)

Kết luận: 100 triệu > 45 → 100 triệu là giá trị ngoại lệ

Đề xuất xử lý:

  • Nếu do sự kiện đặc biệt (khuyến mãi lớn, ngày lễ) → Giữ nguyên hoặc phân tích riêng
  • Nếu do lỗi nhập liệu → Kiểm tra và sửa lại

Bài tập 3

Đề bài: Nhiệt độ (°C) đo được trong 9 ngày: 1, 25, 26, 27, 28, 29, 30, 31, 32. Tìm giá trị ngoại lệ.

Lời giải:

Dữ liệu đã sắp xếp với \( n = 9 \)

Tìm các tứ phân vị:

  • \( Q_2 = 28 \) (phần tử thứ 5)
  • Nửa dưới: 1, 25, 26, 27 → \( Q_1 = \displaystyle \frac{25 + 26}{2} = 25{,}5 \)
  • Nửa trên: 29, 30, 31, 32 → \( Q_3 = \displaystyle \frac{30 + 31}{2} = 30{,}5 \)

Tính IQR:

\( IQR = 30{,}5 – 25{,}5 = 5 \)

Tính các cận:

  • Cận dưới: \( 25{,}5 – 1{,}5 \times 5 = 25{,}5 – 7{,}5 = 18 \)
  • Cận trên: \( 30{,}5 + 1{,}5 \times 5 = 30{,}5 + 7{,}5 = 38 \)

Kiểm tra:

Giá trị 1 < 18 → Giá trị ngoại lệ thấp

Đáp số: 1°C là giá trị ngoại lệ (có thể do lỗi đo hoặc thời tiết đột ngột).

Kết luận

Qua bài viết này, bạn đã hiểu rõ giá trị ngoại lệ là gì và tầm quan trọng của việc nhận biết chúng trong phân tích dữ liệu. Phương pháp tứ phân vị với quy tắc 1,5×IQR là cách phổ biến và hiệu quả nhất để xác định giá trị ngoại lệ. Việc xử lý giá trị ngoại lệ cần dựa trên nguyên nhân cụ thể: loại bỏ nếu là lỗi, giữ nguyên nếu phản ánh thực tế. Hãy luôn kiểm tra và xử lý giá trị ngoại lệ cẩn thận trước khi đưa ra kết luận từ dữ liệu để đảm bảo tính chính xác của phân tích thống kê.

Fenwick Trần

Fenwick Trần

Fenwick Trần là tác giả VJOL - Tạp chí Khoa học Việt Nam Trực tuyến. Ông cống hiến cho sứ mệnh lan tỏa tri thức đến cộng đồng học thuật.