Đồ án Ứng dụng SOM trong khai phá dữ liệu văn bản Tiếng Việt

Người chia sẻ :
Số trang : 49 trang
Lượt xem : 31
Lượt tải : 500

Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại

NHẬP MÃ XÁC NHẬN ĐỂ TẢI LUẬN VĂN NÀY

Nếu bạn thấy thông báo hết nhiệm vụ vui lòng tải lại trang

Bạn đang xem trước 20 trang tài liệu Đồ án Ứng dụng SOM trong khai phá dữ liệu văn bản Tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên

Thuật toán SOM là một biểu tượng của lớp mạng neural học không giám sát. Trong đó, sơ khai đầu tiên của SOM được phát minh bởi giáo sư Teuvo Kohonen tại trung tâm nghiên cứu của mạng Neural- Network (1981-1982). Ông đã ứng dụng SOM vào rất nhiều những chương trình phiên bản một cách nhanh chóng và hiệu quả. Trọng tâm của SOM là đưa và hiển thị dữ liệu hoặc cụm dữ liệu một cách rõ ràng lên mảng một hoặc hai chiều. Nếu các biến trong bản ghi dữ liệu là các vector thì các biến đó sẽ được mô tả như một dữ liệu thống kê, được sử dụng độc lập các mức xám hoặc các mã màu nền riêng. Dùng SOM khai phá để tìm ra được mối quan hệ hữu ích, phụ thuộc lẫn nhau giữa các biến và cấu trúc của dữ liệu. Lĩnh vực khai phá dữ liệu văn bản cho đến nay đã đạt mục tiêu chính: đó là chứng minh được bằng lý thuyết và thực nghiệm rằng bản đồ văn bản tự tổ chức là một công cụ trọng tâm có nhiều triển vọng, và việc xây dựng những bản đồ như vậy là hoàn toàn tự động. Tuy nhiên, mọi thành quả chỉ mới là ở giai đoạn sơ khai, còn tồn đọng rất nhiều vấn đề không thể giải quyết một cách bao quát được, đặc biệt quan trọng là vấn đề chọn lựa đặc trưng cho nội dung văn bản trong quá trình xây dựng bản đồ, cũng như việc đánh giá chất lượng bản đồ kết quả. Đó là những điều rất đáng phải suy nghĩ Tính cấp thiết của đề tài nằm ở những mối quan tâm đó – những gì còn chưa đầy đủ và không thể bao quát được của mô hình đã có – khi ứng dụng vào của Tiếng Việt. Trong giai đoạn tiền xử lý, bao hàm trọng tâm là phương pháp chọn lựa đặc trưng cho văn bản, thật ra còn quyết định chất lượng bản đồ nhiều hơn là các yếu tố khác. Sự triển khai lĩnh vực khai phá dữ liệu văn bản trong các ngôn ngữ đặc thù thì dường như là những đề tài vô tận. Đề tài nghiên cứu mọi khía cạnh tổng quát của mô hình khai phá dữ liệu văn bản với thuật toán bản đồ tự tổ chức, sau đó triển khai với một ngữ liệu văn bản Tiếng Việt Nội dung cụ thể của đề tài bao gồm việc trình bày tổng quan về các lĩnh vực nghiên cứu có liên quan, thu thập, tổ chức ngữ liệu văn bản và tiền xử lý; xây dựng mới và nghiên cứu các thuật toán chọn lựa đặc trưng: xác định ngữ đoạn, xác định cụm từ, xác định các từ vựng theo chỉ số hữu ích từ vị của Rosengren, xác định các từ khóa theo quan điểm Guiraud; nghiên cứu các phương pháp mã hóa văn bản dựa trên từ vựng, cụm từ, ngữ đoạn;nghiên cứu thuật toán bản đồ tự tổ chức (Self Organizing Map), thuật toán chiếu ngẫu nhiên; đánh giá bản đồ văn bản theo những phương pháp khác nhau. Ngoài ra, đề tài còn triển khai hai vấn đề quan trọng, đó là cơ sở của việc khám phá và quản lý tri thức trên bản đồ: gom nhóm trên bản đồ và gán nhãn trên bản đồ. Ứng dụng ngữ đoạn trong việc gán nhãn các đơn vị bản đồ và các vùng văn bản. Những vấn đề này đã được một số tác giả nước ngoài nghiên cứu bước đầu.

NHỮNG LUẬN VĂN LIÊN QUAN

Công Nghệ Thông Tin

Thuật toán tô màu đồ thị và ứng dụng xếp lịch thi

Với hình thức học chế tín chỉ, sinh viên có thể chủ động chọn đăng kí môn học theo kế hoạch học tập của mình. Điều này làm cho việc xếp lịch thi trở nên khó khăn hơn. Phòng đào [...]

Download

Công Nghệ Thông Tin

Nghiên cứu xây dựng Website bằng Flash và WebService

Đề tài này trình bày phương pháp lập trình để xây dựng hệ thống website bằng flash và webservice. Với phương pháp này, chúng ta có thể dễ dàng xây dựng được những web site có giao diện đẹp với [...]

Download

Công Nghệ Thông Tin

Thời gian Logic Vector và vấn đề đồng bộ hóa các tiến trình trong bài toán bãi đỗ xe nhiều cổng

Ngày nay, một trong những hướng nghiên cứu quan trọng trong hệ thống phân tán đó là vấn đề đồng bộ hóa các tiến trình sử dụng tài nguyên dùng chung. Để đạt được điều đó thì chúng ta phải [...]

Download

Công Nghệ Thông Tin

Thư viện học liệu trực tuyến

Trong quá trình học tập, việc tìm kiếm tài liệu, trao đổi kiến thức và áp dụng các kiến thức đã học được là một điều rất quan trọng. Tuy nhiên, không phải sinh viên nào cũng có điều kiện [...]

Download