Khóa luận Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể
- Người chia sẻ :
- Số trang : 50 trang
- Lượt xem : 9
- Lượt tải : 500
- Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại
Bạn đang xem trước 20 trang tài liệu Khóa luận Phân biệt nhập nhằng tên người trong hệ thống tìm kiếm thực thể, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên
Sựra đời của các máy tìm kiếm đã giúp ích cho con người rất nhiều trong các hoạt động khai thác thông tin. Tuy nhiên, chất lượng tìm kiếm thông tin vẫn còn nhiều hạn chế, đặc biệt là tìm kiếm thông tin vềngười, một trong những lĩnh vực có truy vấn lớn nhất trong các máy tìm kiếm. Mặt khác, thực thểngười là một trong những loại thực thểcó độnhập nhằng cao nhất, vì vậy mà các kết quảtrảvềbởi máy tìm kiếm sẽ bao gồm tất cảnhững người có tên giống nhau và người dùng cần phải đọc lần lượt để tìm ra kết quảmong muốn. Vì vậy mà cần thiết phải có một hệthống có khảnăng gom cụm kết quảsao cho những trang Web thuộc cùng một cụm nói vềmột người, và những trang Web thuộc các cụm khác nhau nói vềnhững người khác nhau. Bài toán cốt lõi cho vấn đềnày là bài toán giải quyết nhập nhằng tên người trên tập văn bản. Bài toán này đã nhận được sựquan tâm từcác nhà nghiên cứu trong các hội nghịlớn trong những năm gần đây nhưColling, ACL, Senseval Đặc biệt là hội nghịWebPS1 , hội nghịdành riêng cho các vấn đềgiải quyết nhập nhằng tên người trong kết quảtìm kiếm Web. Trong những năm gần đây, có rất nhiều nghiên cứu và ý tưởng được đềxuất trên thếgiới đểgiải quyết bài toán này, Tuy nhiên, đối với tiếng Việt thi các nghiên cứu vềbài toán này vẫn còn rất hạn chế. Các nghiên cứu tập trung chủyếu vào việc thểhiện tốt nhất các ngữcảnh riêng biệt cho từng người, tìm các độ đo tương đồng ngữcảnh phù hợp và phân cụm ngữ cảnh, hay phân cụm văn bản chứa ngữcảnh. Và các phương pháp thường chỉthao tác trên một miền dữliệu tương đối đặc thù, chứkhông có một phương pháp khảthi trên nhiều miền dữliệu. Việc tìm ra một phương pháp tốt cho tiếng Việt vẫn là một vấn đề khó khăn, mặc dù tiếng Việt đã giải quyết được một sốbài toán cơsở(thuộc đềtài KC 01.01/06-10), tuy nhiên so với nhu cầu của bài toán giải quyết nhập nhằng tên người thì vẫn chưa đủ. Mục tiêu của khóa luận là khảo sát, nghiên cứu để đưa ra một phương pháp đủ tốt giải quyết bài toán phân biệt nhập nhằng tên người trên miền dữliệu báo điện tử tiếng Việt. Để đạt được mục tiêu này, khóa luận khảo sát một sốphương pháp tiêu biểu nhất giải quyết bài toán này trên thếgiới. Từ đó, khóa luận đưa ra phương pháp giải quyết bài toán phân biệt nhập nhằng tên người trên tập văn bản tiếng Việt. Đầu tiên, khảo sát miền dữliệu báo điện tử đểtìm ra những đặc trưng tốt (dựa trên từvựng và đặc điểm mạng xã hội) thểhiện riêng biệt cho một người, phân biệt người đó với những người khác cùng tên. Tiếp đó, thực hiện việc gom cụm các văn bản chứa tên người này bằng thuật toán HAC. Khóa luận đã thực nghiệm với kết quả độ đo F đạt mức tốt so với kết quảcủa thếgiới (F 5 . 0 = 0.791 và F 2 . 0 = 0.773); đồng thời, đềxuất một mô hình hệthống tìm kiếm thực thểngười dựa trên kết quảbài toán này. Nội dung của khóa luận được chia thành các chương nhưsau: Chương 1: Khóa luận giới thiệu khái quát vềhệthống tìm kiếm thực thểvà bài toán giải quyết nhập nhằng tên người trên tập tài liệu, vai trò của bài toán đối với hệ thống tìm kiếm thực thểngười. Khóa luận cũng trình bày mối liên hệcủa bài toán với bài toán phân biệt nhập nhằng nghĩa của từ, và phương pháp đánh giá cho bài toán phân biệt nhập nhằng tên người trên tập văn bản. Chương 2: Khóa luận giới thiệu chi tiết các phương pháp tiêu biểu đểgiải quyết vấn đềphân biệt nhập nhằng tên người trên tập văn bản. Chương 3: Khoá luận đã giới thiệu các đặc trưng của miền dữliệu báo điện tử đểtừ đó đềxuất ra mô hình giải quyết bài toán nhập nhằng tên người trên tập văn bản và ứng dụng bài toán đó trong việc đềxuất mô hình hệthống tìm kiếm thực thểngười. Chương 4: Thực nghiệm, kết quảvà đánh giá. Tiến hành thực nghiệm việc việc phân biệt nhập nhằng trên miền dữliệu báo điện tửtiếng Việt với tập dữliệu kiểm thử là những tên người có độnhập nhằng cao. Phần kết luận:Tóm lược kết quả đạt được của khóa luận và định hướng phát triển tương lai.
