Nhận dạng tiếng nói điều khiển với convolutional neural network (CNN)
Điều khiển bằng giọng nói là một chức năng quan trọng trong nhiều thiết bị di động, hệ thống nhà thông minh, đặc biệt đó là một giải pháp giúp cho người khuyết tật có thể điều khiển được các thiết bị thông dụng trong cuộc sống. Bài báo trình bày một phương pháp nhận dạng tiếng nói điều khiển ngắn s...
Main Author: | |
---|---|
Format: | Article |
Language: | Vietnamese |
Published: |
Can Tho University Publisher
2021-08-01
|
Series: | Tạp chí Khoa học Đại học Cần Thơ |
Subjects: | |
Online Access: | https://ctujsvn.ctu.edu.vn/index.php/ctujsvn/article/view/3956 |
_version_ | 1797286929756061696 |
---|---|
author | Thái Thuận Thương |
author_facet | Thái Thuận Thương |
author_sort | Thái Thuận Thương |
collection | DOAJ |
description |
Điều khiển bằng giọng nói là một chức năng quan trọng trong nhiều thiết bị di động, hệ thống nhà thông minh, đặc biệt đó là một giải pháp giúp cho người khuyết tật có thể điều khiển được các thiết bị thông dụng trong cuộc sống. Bài báo trình bày một phương pháp nhận dạng tiếng nói điều khiển ngắn sử dụng đặc trưng MFCC (Mel frequency cepstral coefficients) và mô hình convolutional neural network (CNN). Dữ liệu âm thanh đầu vào là các file wave được giả định có thời lượng đúng 1 giây. Một cửa sổ trượt kích thước 30 ms với bước dịch chuyển 10 ms lần lượt trượt trên dữ liệu đầu vào để tính các thông số MFCC. Với mỗi tập tin đầu vào sẽ thu được 98 đặc trưng MFCC, mỗi đặc trưng MFCC là một vector 40 chiều (tương ứng 40 hệ số của các bộ lọc Mel-scales). Nghiên cứu đã để xuất sử dụng 3 mô hình Neural Network để phân lớp các tập tin tiếng nói điều khiển này: Mô hình Vanilla Neural Network 1 layer (1 softmax layer), Deep Neural Network - DNN (với 3 layers ẩn kết nối đầy đủ và 1 lớp output) và mô hình Convolution Neural Network - CNN. Các thực nghiệm được thực hiện trên tập dữ liệu “Speech Commands Dataset” của Google (https://ai.googleblog.com/2017/08/launching-speech-commands-dataset.html) gồm 65.000 mẫu được chia thành 30 lớp. Kết quả thực nghiệm cho thấy mô hình CNN đạt...
|
first_indexed | 2024-03-07T18:25:30Z |
format | Article |
id | doaj.art-147d8ea4b9e8407aad41871abae36c00 |
institution | Directory Open Access Journal |
issn | 1859-2333 2815-5599 |
language | Vietnamese |
last_indexed | 2024-03-07T18:25:30Z |
publishDate | 2021-08-01 |
publisher | Can Tho University Publisher |
record_format | Article |
series | Tạp chí Khoa học Đại học Cần Thơ |
spelling | doaj.art-147d8ea4b9e8407aad41871abae36c002024-03-02T07:02:29ZvieCan Tho University PublisherTạp chí Khoa học Đại học Cần Thơ1859-23332815-55992021-08-0157410.22144/ctu.jvn.2021.111Nhận dạng tiếng nói điều khiển với convolutional neural network (CNN)Thái Thuận Thương0Khoa Công nghệ Thông tin, Trường Đại học Yersin Đà Lạt Điều khiển bằng giọng nói là một chức năng quan trọng trong nhiều thiết bị di động, hệ thống nhà thông minh, đặc biệt đó là một giải pháp giúp cho người khuyết tật có thể điều khiển được các thiết bị thông dụng trong cuộc sống. Bài báo trình bày một phương pháp nhận dạng tiếng nói điều khiển ngắn sử dụng đặc trưng MFCC (Mel frequency cepstral coefficients) và mô hình convolutional neural network (CNN). Dữ liệu âm thanh đầu vào là các file wave được giả định có thời lượng đúng 1 giây. Một cửa sổ trượt kích thước 30 ms với bước dịch chuyển 10 ms lần lượt trượt trên dữ liệu đầu vào để tính các thông số MFCC. Với mỗi tập tin đầu vào sẽ thu được 98 đặc trưng MFCC, mỗi đặc trưng MFCC là một vector 40 chiều (tương ứng 40 hệ số của các bộ lọc Mel-scales). Nghiên cứu đã để xuất sử dụng 3 mô hình Neural Network để phân lớp các tập tin tiếng nói điều khiển này: Mô hình Vanilla Neural Network 1 layer (1 softmax layer), Deep Neural Network - DNN (với 3 layers ẩn kết nối đầy đủ và 1 lớp output) và mô hình Convolution Neural Network - CNN. Các thực nghiệm được thực hiện trên tập dữ liệu “Speech Commands Dataset” của Google (https://ai.googleblog.com/2017/08/launching-speech-commands-dataset.html) gồm 65.000 mẫu được chia thành 30 lớp. Kết quả thực nghiệm cho thấy mô hình CNN đạt... https://ctujsvn.ctu.edu.vn/index.php/ctujsvn/article/view/3956Convolutional neural network (CNN)deep neural network (DNN)keyword spooting (KWS) |
spellingShingle | Thái Thuận Thương Nhận dạng tiếng nói điều khiển với convolutional neural network (CNN) Tạp chí Khoa học Đại học Cần Thơ Convolutional neural network (CNN) deep neural network (DNN) keyword spooting (KWS) |
title | Nhận dạng tiếng nói điều khiển với convolutional neural network (CNN) |
title_full | Nhận dạng tiếng nói điều khiển với convolutional neural network (CNN) |
title_fullStr | Nhận dạng tiếng nói điều khiển với convolutional neural network (CNN) |
title_full_unstemmed | Nhận dạng tiếng nói điều khiển với convolutional neural network (CNN) |
title_short | Nhận dạng tiếng nói điều khiển với convolutional neural network (CNN) |
title_sort | nhan dang tieng noi dieu khien voi convolutional neural network cnn |
topic | Convolutional neural network (CNN) deep neural network (DNN) keyword spooting (KWS) |
url | https://ctujsvn.ctu.edu.vn/index.php/ctujsvn/article/view/3956 |
work_keys_str_mv | AT thaithuanthuong nhandangtiengnoiđieukhienvoiconvolutionalneuralnetworkcnn |