Phân lớp dữ liệu mất cân bằng với thuật toán HBU
Nguyễn Thị Lan Anh
Tóm tắt
Tóm tắt: Dữ liệu mất cân bằng là một trong những nguyên nhân làm giảm hiệu suất của bài toán phân lớp. Nhiều phương pháp đã được nghiên cứu để giải quyết vấn đề này. Trong bài báo này chúng tôi đề xuất một thuật toán làm giảm số lượng phần tử lớp đa số, đặc biệt là các phần tử ở đường biên, dựa trên Hypothesis margin của các đối tượng thuộc lớp thiểu số để cải thiện hiệu suất phân lớp tập dữ liệu mất cân bằng.
Từ khóa: Dữ liệu mất cân bằng, phương pháp làm giảm số lượng phần tử, Hypothesis marginToàn văn: PDF