Phương pháp lọc thư rác tiếng Việt dựa trên từ ghép và theo viết người sử dụng
- Người chia sẻ :
- Số trang : 11 trang
- Lượt xem : 9
- Lượt tải : 500
- Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại
Bạn đang xem trước 20 trang tài liệu Phương pháp lọc thư rác tiếng Việt dựa trên từ ghép và theo viết người sử dụng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên
Tách từ là vấn đề quan tâm nhất khi lọc thư rác tiếng Việt do tiếng Việt có các đặc trưng riêng mặc dù tiếng Việt cũng dùng ký tự latinh như tiếng Anh. Tiếng Việt có 2 thành phần cơ bản [1]: tiếng và từ. Một số mối liên quan giữa từ và tiếng như sau. Về ngữ pháp, tiếng là đơn vị cấu tạo của từ. Từ là đơn vị nhỏ nhất để tạo câu, hình thức và ý nghĩa của từ độc lập với cú pháp. Có 2 loại từ phổ biến: từ một tiếng (từ đơn) và từ n tiếng trở lên (n<5) gọi là từ phức. Trong đặt câu tiếng Việt, sử dụng từ chứ không sử dụng tiếng. Trong tiếng Anh, từ được định nghĩa như sau: “Từ là một nhóm ký tự có nghĩa, được phân cách bởi ký tự khoảng trắng trong câu” (từ điển Webter). Ví dụ: “I am a student” sẽ tách được 4 từ: I, am, a, student. Trong tiếng Việt, ví dụ: “Tôi là học sinh” sẽ tách được 3 từ: tôi, là, học sinh. Trong đó từ ghép “học sinh” là từ được hình thành bởi 2 tiếng: “học”, “sinh”. Do sự khác biệt này , khi ta ́ ch mô ̣ t tư ̀ ghép trong ca ́ c thư rác tha ̀ nh ca ́ c tư ̀ đơn thi ̀ la ̣ i đươ ̣ c du ̀ ng phô ̉ biê ́ n trong ca ́ c thư tô ́ t . Cụ thể, từ “khuyê ́ n ma ̃ i ” la ̀ tư ̀ thươ ̀ ng đ ược dùng trong thư rác nhưng khi ta ́ ch ra tha ̀ nh tư ̀ “ khuyê ́ n” va ̀ tư ̀ “ mãi” thi ̀ như ̃ ng tư ̀ na ̀ y la ̣ i đươ ̣ c sư ̉ dụng nhiều trong các thư tốt . Như vâ ̣ y, đô ́ i vơ ́ i thư ra ́ c tiê ́ ng Viê ̣ t hướng tiê ́ p câ ̣ n phân ti ́ ch dư ̣ a va ̀ o tư ̀ ghe ́ p hay tư ̀ co ́ nghi ̃ a chư ́ không pha ̉ i dư ̣ a va ̀ o tư ̀ đơn như trong tiê ́ ng Anh . Vâ ́ n đề hàng đầu đă ̣ t ra la ̀ chưa có bộ từ tiếng Việt nào hoàn hảo cho việc làm trên .
