Trích chọn sự kiện y sinh phức hợp dựa vào mô hình phân tích cây phụ thuộc trong văn bản về bệnh ung thư di truyền
- Người chia sẻ :
- Số trang : 53 trang
- Lượt xem : 11
- Lượt tải : 500
- Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại
Bạn đang xem trước 20 trang tài liệu Trích chọn sự kiện y sinh phức hợp dựa vào mô hình phân tích cây phụ thuộc trong văn bản về bệnh ung thư di truyền, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên
Thuật ngữ trích chọn sự kiện y sinh học được sử dụng để đề cập đến bài toán trích chọn sự mô tả về các hoạt động và quan hệ giữa một hoặc nhiều thực thể từ tài liệu y sinh học. Việc tự động nhận dạng bất kì đối tượng của một lớp sự kiện riêng, trích chọn các tham số liên quan của chúng và biểu diễn thông tin được trích chọn vào một dạng có cấu trúc từ các công trình khoa học giúp cộng đồng nghiên cứu y sinh học nhanh chóng thu nhận được các kết quả nghiên cứu mới nhất trong lĩnh vực liên quan mật thiết tới việc đảm bảo sức khỏe con người. Các kết quả mới nhất cho thấy hiệu năng khi trích chọn các sự kiện phức hợp (sự kiện có thể nhận tham số là thực thể hoặc sự kiện khác) chỉ đạt khoảng 40-50% F1 tại BioNLP Shared Task 2011. Khóa luận này đề xuất một mô hình học máy cho bài toán trích chọn sự kiện y sinh phức hợp và áp dụng vào Cancer Genetics (CG) task – một bài toán trích chọn thông tin trong BioNLP Shared Task (ST) 2013. Mục đích của CG task là trích chọn thông tin tự động từ các văn bản về quá trình sinh học, liên quan đến sự phát triển và tiến triển của bệnh ung thư. Mô hình của chúng tôi gồm ba thành phần chính: (1) nhận diện trigger; (2) trích chọn ứng viên sự kiện; (3) xếp hạng và đưa ra kết quả. Khi đánh giá trên tập dữ liệu phát triển được cung cấp bởi BioNLP-ST 2013, với khoảng 1000 câu lấy từ PubMed, chúng tôi thu được kết quả bước đầu khá khả quan: độ đo F1 khi trích chọn các sự kiện phức hợp đạt từ 50% đến 70%. Mô hình mới phù hợp với miền dữ liệu về bệnh ung thư di truyền và cho hiệu năng tốt hơn mô hình cơ sở chúng tôi đưa ra.
