Tạp chí Phát triển Khoa học và Công nghệ, T. 9, S. 2 (2006)

Cỡ chữ:  Nhỏ  Vừa  Lớn

Gán nhãn từ loại cho Tiếng Việt dựa trên văn phong và tính toán xác suất

Nguyễn Quang Châu, Phan Thị Tươi, Cao Hoàng Trụ

Tóm tắt


Xác định từ loại chính xác cho các từ trong văn bản tiếng Việt là vấn đề rất quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên. Việc xác định này sẽ hỗ trợ cho việc phân tích cú pháp các văn bản, góp phần giải quyết tính đa nghĩa của từ, và trợ giúp các hệ thống rút trích thông tin hướng đến ngữ nghĩa, v.v… Bài báo này trình bày một hướng tiếp cận cho bài toán gán nhãn từ loại trong văn bản tiếng Việt trên cơ sở vận dụng các mô hình thống kê dựa vào kho ngữ liệu, từ điển, cú pháp và ngữ cảnh. Đồng thời trong quá trình phát triển hệ thống ứng dụng, do chưa có kho ngữ liệu dành cho mục đích nghiên cứu về xử lý ngôn ngữ tự nhiên tiếng Việt, chúng tôi cũng đã xây dựng có tính kế thừa [1][4] được một kho ngữ lịêu gồm gần 75.000 từ tiếng Việt, và một từ điển gồm 80.000 mục từ, để phục vụ cho vấn đề nghiên cứu này.


Toàn văn: PDF

Tạp chí Phát triển Khoa học và Công nghệ/Journal of Science and Technology Development
ISSN: 1859-0128

VietnamJOL is supported by INASP