Đề tài Nhận dạng tiếng nói bằng mạng nơron nhân tạo
- Người chia sẻ :
- Số trang : 7 trang
- Lượt xem : 10
- Lượt tải : 500
- Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại
Bạn đang xem trước 20 trang tài liệu Đề tài Nhận dạng tiếng nói bằng mạng nơron nhân tạo, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên
Mạng nơ ron (Neuron Netwok) là một công cụ có khả năng giải quyết được nhiều bài toán khó, thực tế những nghiên cứu về mạng nơ ron đưa ra một cách tiếp cận khác với những cách tiếp cận truyền thống trong lý thuyết nhận dạng. Trong khuôn khổ bài báo này tác giả mong muốn được thảo luận về 1 phương pháp nhận dạng tiếng nói sử dụng mạng nơ ron. •Ths. Phùng Chí Dũng Mở đầu Đã có nhiều công trình nghiên cứu về lĩnh vực nhận dạng tiếng nói (Speech recognition) trên cơ sở lý thuyết các hệ thống thông minh nhân tạo, nhiều kết quả đã trở thành sản phẩm thương mại như ViaVoice, Dragon., các hệ thống bảo mật thông qua nhận dạng tiếng nói các hệ quay số điện thoại bằng giọng nói. Triển khai những công trình nghiên cứu và đưa vào thực tế ứng dụng vấn đề này là một việc làm hết sức có ý nghĩa đặc biệt trong giai đoạn công nghiệp hoá hiện đại hoá hiện nay của nước nhà. Mạng nơ ron (Neuron Netwok) là một công cụ có khả năng giải quyết được nhiều bài toán khó, thực tế những nghiên cứu về mạng nơ ron đưa ra một cách tiếp cận khác với những cách tiếp cận truyền thống trong lý thuyết nhận dạng. Trong khuôn khổ bài báo này tác giả mong muốn được thảo luận về 1 phương pháp nhận dạng tiếng nói sử dụng mạng nơ ron với: – Phương pháp mã dự đoán tuyến tính LPC (Linear Predictive Coding) được sử dụng trong việc trích trọn những đặc trưng cơ bản của tiếng nói. – Mạng nơ ron lan truyền ngược hướng (Back-propagation Neural Network) được sử dụng để học mẫu và ra quyết định đối tượng nhận dạng. Xử lý tín hiệu tiếng nói Quá trình tiền xử lý tín hiệu là chuyển tiếng nói từ dạng sóng (wave form representation) sang dạng biểu diễn tham số (parametric form representation). Các tham số biểu diễn tín hiệu tiếng nói có thể là: năng lượng thời gian ngắn (short time energy), tỷ lệ qua điểm không (zero crossing rate) tỷ lệ qua mức (level crossing rate) . Đã có nhiều cách dùng để trích chọn ra được những thông tin về âm thanh một cách trực tiếp từ những tín hiệu số của tiếng nói và hiệu quả hơn là phương pháp biểu diễn tín hiệu theo phổ được sử dụng rộng rãi. Phân tích phổ theo phương pháp mã dự đoán tuyến tính LPC được nghiên cứu nhằm trích chọn ra các đặc tính cơ bản của tín hiệu tiếng nói, là những tham số đầu vào cho hệ thống nhận dạng tiếng nói. Phương pháp này biểu diễn mẫu tiếng nói tại thời điểm n, x(n) bằng phép xấp xỉ tuyến tính p mẫu quá khứ: x(n) a1x(n – 1) + a2x(n – 2) + .+ apx(n – p) Trong đó, x(n) là mẫu dự đoán tại thời điểm n và các hệ số a1, a2, ., ap được coi là các hằng số trên khung (frame) phân tích tiếng nói. Thêm thành phần kích thích Gu(n) thì: Trong đó u(n) là nguồn kích thích đã chuẩn hoá và G là hệ số khuyếch đại kích thích. Nguồn kích thích đã chuẩn hoá đem nhân tỷ lệ với hệ số khuyếch đại G và đưa vào hệ thống toàn điểm cực để tạo ra tín hiệu tiếng nói. Mặt khác, ta biết rằng hàm kích thích phải là xung tuần hoàn (đối với âm hữu thanh) hoặc là nguồn nhiễu ngẫu nhiên (đối với âm vô thanh). Đối với mô hình này, nguồn kích thích là một công tắc được điều khiển bởi đặc tính hữu thanh/vô thanh của tiếng nói tương ứng cho phép chọn xung tuần hoàn hoặc nhiễu ngẫu nhiên. Mức khuếch đại kích thích G được đánh giá trực tiếp từ tín hiệu tiếng nói. Đối với mô hình LPC, các tham số là sự phân lớp âm hữu thanh/âm vô thanh, vị trí đỉnh âm tiết và các hệ số bộ lọc {ak}.
