Luận văn Nhận dạng chữ viết và phân tích trang tài liệu
- Người chia sẻ :
- Số trang : 106 trang
- Lượt xem : 11
- Lượt tải : 500
- Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại
Bạn đang xem trước 20 trang tài liệu Luận văn Nhận dạng chữ viết và phân tích trang tài liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên
Ngày nay việc sử dụng máy tính để lƣu trữ tài liệu không còn là vấn đề mới mẻ và cần phải chứng minh tính an toàn, thuận tiện của nó. Tuy nhiên việc sử dụng giấy để lƣu trữ tài liệu trong một số mục đích vẫn không thể thay thế đƣợc (nhƣ báo, sách, công văn, ). Hơn nữa lƣợng tài liệu đƣợc tạo ra từ nhiều năm trƣớc vẫn còn rất nhiều mà không thể bỏ đi đƣợc vì tính quan trọng của chúng. Chúng ta mong muốn có thể điện tử hóa hàng tỉ trang tài liệu đó và cất chúng chỉ trong một ổ cứng kích thƣớc bằng một cuốn sách nhỏ, tìm kiếm thông tin mà chỉ cần tốn vài giây với một cái gõ phím Enter. Giải pháp là gì? Thông thƣờng ngƣời ta sẽ phải thuê ngƣời cùng với việc tốn hàng tháng, hàng năm mới có thể nhập vào máy tính đƣợc hết lƣợng tài liệu đó. Hiện nay chúng ta đã có các máy Scan với tốc độ cao, công nghệ xử lý của máy tính ngày càng siêu việt với tốc độ tính toán vƣợt cả tốc độ ánh sáng, vậy tại sao chúng ta không quét toàn bộ các trang tài liệu vào và chuyển chúng thành văn bản một cách tự động? Bằng cách đó tốc độ và tính chính xác sẽ tăng hàng trăm lần trong khi chi phí lại là cực tiểu. Vấn đề là khi quét vào máy tính chúng ta không thu đƣợc ngay các dòng văn bản từ các trang tài liệu kia, để có thể soạn thảo, sửa chữa và tìm kiếm nhƣ làm trên Office. Tất cả những gì thu đƣợc chỉ là các tấm ảnh của các trang văn bản, máy tính lại đối xử công bằng nhƣ nhau với mọi điểm ảnh, máy tính không có “mắt” nhƣ chúng ta để biết đâu là điểm ảnh của chữ, đâu là điểm ảnh của đối tƣợ ng đồ họa. Một giải pháp đƣợc nghĩ đến ngay đó là đó là xây dựng các hệ thống nhận dạng chữ, trong tấm ảnh chứa cả chữ và đối tƣợng đồ họa cần tách và chuyển thành dạng trang văn bản, từ đó có thể mở và soạn thảo đƣợc trên các trình soạn thảo văn bản.
