Luận văn Nghiên cứu công nghệ khai phá dữ liệu văn bản, áp dụng cho các trang tin tức trên các thiết bị cầm tay (pdas & smartphones)
- Người chia sẻ :
- Số trang : 62 trang
- Lượt xem : 8
- Lượt tải : 500
- Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại
Bạn đang xem trước 20 trang tài liệu Luận văn Nghiên cứu công nghệ khai phá dữ liệu văn bản, áp dụng cho các trang tin tức trên các thiết bị cầm tay (pdas & smartphones), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên
Sựphát triển của báo điện tử, một thành quảcủa Internet nói riêng và của Công nghệthông tin nói chung, đã dẫn tới các thay đổi lớn đối với thói quen đọc báo. Internet với ưu thếvềtốc độvà khảnăng vươn xa cho phép độc giảcó thểtiếp cận tin tức mọi lúc mọi nơi. Với sựtiến bộkhông ngừng của công nghệviễn thông, ngày nay thiết bịcầm tay thông minh ngày càng được phổbiến với giá cảngày càng hạvà đã trởthành một công cụ đắc lực, bình dân và không thể thay thế. Tốc độkết nối Internet không dây được cải thiện không chỉvềtốc độ mà cảvềphạm vi phủsóng, trong đó, thếhệmạng không dây chuẩn WIMAX (IEEE 802.16) cho phép khoảng cách phủsóng tới 50km và thông lượng tối đa tới 70Mbps. Tất cảnhững yếu tốtrên đây đã trởthành tiền đềcho việc đáp ứng nhu cầu xem tin tức trên thiết bịcầm tay, một nhu cầu đã trởthành thiết yếu, hàng ngày, hàng giờcủa mỗi người dùng cuối các thiết bịnày. Tuy nhiên, việc đọc báo trên các thiết bịcầm tay còn nhiều bất tiện. Khung màn hình hạn chếcủa thiết bịcầm tay không cho phép hiển thịtrang Web được thiết kếcho máy tính đểbàn: font chữthường bịlỗi khi xem tin tức trên thiết bị cầm tay, các thông tin quảng cáo và banner cũng được tải vềcùng với tin tức làm giảm đáng kểtốc độvà gây tràn màn hình Chính vì vậy, mục đích của luận văn này là xây dựng một hệthống cho phép dễdàng và thuận tiện xem tin tức tiếng Việt của báo điện tửbất kỳtrên thiết bị cầm tay thông minh. Luận văn sửdụng thuật toán RTDM (Restricted Top-Down Mapping) do Davi de Castro Reis và các đồng tác giả đềxuất [28], một thuật toán được đánh giá rất hiệu quảtrong việc trích xuất tin tức tức tự động thông qua việc phân tích cấu trúc cây. Thuật toán RTDM được cải tiến trên thuật toán trích xuất thông tin Web đã có đểáp dụng đặc thù riêng cho bài toán trích xuất tin tức. Qua thực nghiệm trên 35 trang tin tức, thuật toán RTDM cho kết quảtrung bình 87.71% trích xuất tin tức thành công không cần có sựcan thiệp của con người. Hiện tại, RTDM được sửdụng nhưlà thành phần lõi chính của hệthống trích xuất tin tức có tên là AkwanClipping (Akwan Information Technologies VũNgọc Anh – K9T3 Trang 10 thuộc công ty Google tại Braxin) cung cấp tin tức hàng ngày của các tờbáo phổbiến nhất tại Braxin. Chúng tôi đã chi tiết và hoàn thiện các nội dung không công bốcủa thuật toán RTDM, đồng thời tiến hành xây dựng một hệthống kênh cung cấp tin điện tử trên các thiết bịcầm tay thông minh. Hệthống thửnghiệm đã trích chọn thông tin trên các báo điện tửtiếng Việt phổdụng hiện nay. Chúng tôi đã tiến hành đánh giá hệthống và các kết quả đánh giá cho thấy hệthống là hữu dụng. Tuy nhiên, để đưa hệthống vào hoạt động thực tiễn cần phải nghiên cứu tăng tốc độ hoạt động của nó. Nội dung của luận văn được tổchức thành bốn chương được giới thiệu sơbộ nhưdưới đây. Chương 1.Xây dựng kênh tin tức điện tửtrên các thiết bịcầm taygiới thiệu sự phát triển nhanh chóng của báo điện tửvà công nghệkết nối Internet không dây, tiền đềcho việc ra đời của kênh cung cấp tin điện tửtrên các thiết bịcầm tay. Mô tảbài toán và hướng tiếp cận giải quyết bài toán xây dựng kênh tin điện tửtừcác báo điện tửtiếng Việt trên các thiết bịcầm tay cũng được trình bày. Bài toán xây dựng kênh tin tức điện tửtrên các thiết bịcầm tay được giải quyết trên cơsởphân cụm các trang Web trong site báo điện tửtheo đó nội dung tin tức cần trích chọn được lấy từvùng nội dung thông tin trong cấu trúc các trang Web của site đó. Chương 2. Thuật toán RTDM và ứng dụng trong trích xuất tintrình bày vấn đề đánh giá tính tương đồng của các trang Web thông qua khái niệm chi phí chuyển đổi cây đối với kiến trúc cây mô tảcác trang Web. Sau khi phân cụm, lớp tương ứng với mỗi cụm được gán nhãn đểtạo dựng mô hình phân lớp cho các trang Web mới và trích chọn tin tức. Luận văn đềxuất một phiên bản chi tiết của thuật toán đểthi hành hệthống trích chọn tin tức trên các báo điện tử. Với phiên bản này, vấn đềthi hành hệthống trởnên dễdàng hơn. Chương 3 giới thiệu quá trình phântích và thiết kếhệthống theo tiếp cận hướng đối tượng. Các mô hình tương ứng được trình bày ở đây. Chương 4. trình bày hệthống thực nghiệm với một sốnhận xét đánh giá kết quảthực nghiệm.
