Nhận dạng tiếng nói điều khiển với convolutional neural network (CNN)

Điều khiển bằng giọng nói là một chức năng quan trọng trong nhiều thiết bị di động, hệ thống nhà thông minh, đặc biệt đó là một giải pháp giúp cho người khuyết tật có thể điều khiển được các thiết bị thông dụng trong cuộc sống. Bài báo trình bày một phương pháp nhận dạng tiếng nói điều khiển ngắn s...

Full description

Bibliographic Details
Main Author: Thái Thuận Thương
Format: Article
Language:Vietnamese
Published: Can Tho University Publisher 2021-08-01
Series:Tạp chí Khoa học Đại học Cần Thơ
Subjects:
Online Access:https://ctujsvn.ctu.edu.vn/index.php/ctujsvn/article/view/3956
_version_ 1797286929756061696
author Thái Thuận Thương
author_facet Thái Thuận Thương
author_sort Thái Thuận Thương
collection DOAJ
description Điều khiển bằng giọng nói là một chức năng quan trọng trong nhiều thiết bị di động, hệ thống nhà thông minh, đặc biệt đó là một giải pháp giúp cho người khuyết tật có thể điều khiển được các thiết bị thông dụng trong cuộc sống. Bài báo trình bày một phương pháp nhận dạng tiếng nói điều khiển ngắn sử dụng đặc trưng MFCC (Mel frequency cepstral coefficients) và mô hình convolutional neural network (CNN). Dữ liệu âm thanh đầu vào là các file wave được giả định có thời lượng đúng 1 giây. Một cửa sổ trượt kích thước 30 ms với bước dịch chuyển 10 ms lần lượt trượt trên dữ liệu đầu vào để tính các thông số MFCC. Với mỗi tập tin đầu vào sẽ thu được 98 đặc trưng MFCC, mỗi đặc trưng MFCC là một vector 40 chiều (tương ứng 40 hệ số của các bộ lọc Mel-scales). Nghiên cứu đã để xuất sử dụng 3 mô hình Neural Network để phân lớp các tập tin tiếng nói điều khiển này: Mô hình Vanilla Neural Network 1 layer (1 softmax layer), Deep Neural Network - DNN (với 3 layers ẩn kết nối đầy đủ và 1 lớp output) và mô hình Convolution Neural Network - CNN. Các thực nghiệm được thực hiện trên tập dữ liệu “Speech Commands Dataset” của Google (https://ai.googleblog.com/2017/08/launching-speech-commands-dataset.html) gồm 65.000 mẫu được chia thành 30 lớp. Kết quả thực nghiệm cho thấy mô hình CNN đạt...
first_indexed 2024-03-07T18:25:30Z
format Article
id doaj.art-147d8ea4b9e8407aad41871abae36c00
institution Directory Open Access Journal
issn 1859-2333
2815-5599
language Vietnamese
last_indexed 2024-03-07T18:25:30Z
publishDate 2021-08-01
publisher Can Tho University Publisher
record_format Article
series Tạp chí Khoa học Đại học Cần Thơ
spelling doaj.art-147d8ea4b9e8407aad41871abae36c002024-03-02T07:02:29ZvieCan Tho University PublisherTạp chí Khoa học Đại học Cần Thơ1859-23332815-55992021-08-0157410.22144/ctu.jvn.2021.111Nhận dạng tiếng nói điều khiển với convolutional neural network (CNN)Thái Thuận Thương0Khoa Công nghệ Thông tin, Trường Đại học Yersin Đà Lạt Điều khiển bằng giọng nói là một chức năng quan trọng trong nhiều thiết bị di động, hệ thống nhà thông minh, đặc biệt đó là một giải pháp giúp cho người khuyết tật có thể điều khiển được các thiết bị thông dụng trong cuộc sống. Bài báo trình bày một phương pháp nhận dạng tiếng nói điều khiển ngắn sử dụng đặc trưng MFCC (Mel frequency cepstral coefficients) và mô hình convolutional neural network (CNN). Dữ liệu âm thanh đầu vào là các file wave được giả định có thời lượng đúng 1 giây. Một cửa sổ trượt kích thước 30 ms với bước dịch chuyển 10 ms lần lượt trượt trên dữ liệu đầu vào để tính các thông số MFCC. Với mỗi tập tin đầu vào sẽ thu được 98 đặc trưng MFCC, mỗi đặc trưng MFCC là một vector 40 chiều (tương ứng 40 hệ số của các bộ lọc Mel-scales). Nghiên cứu đã để xuất sử dụng 3 mô hình Neural Network để phân lớp các tập tin tiếng nói điều khiển này: Mô hình Vanilla Neural Network 1 layer (1 softmax layer), Deep Neural Network - DNN (với 3 layers ẩn kết nối đầy đủ và 1 lớp output) và mô hình Convolution Neural Network - CNN. Các thực nghiệm được thực hiện trên tập dữ liệu “Speech Commands Dataset” của Google (https://ai.googleblog.com/2017/08/launching-speech-commands-dataset.html) gồm 65.000 mẫu được chia thành 30 lớp. Kết quả thực nghiệm cho thấy mô hình CNN đạt... https://ctujsvn.ctu.edu.vn/index.php/ctujsvn/article/view/3956Convolutional neural network (CNN)deep neural network (DNN)keyword spooting (KWS)
spellingShingle Thái Thuận Thương
Nhận dạng tiếng nói điều khiển với convolutional neural network (CNN)
Tạp chí Khoa học Đại học Cần Thơ
Convolutional neural network (CNN)
deep neural network (DNN)
keyword spooting (KWS)
title Nhận dạng tiếng nói điều khiển với convolutional neural network (CNN)
title_full Nhận dạng tiếng nói điều khiển với convolutional neural network (CNN)
title_fullStr Nhận dạng tiếng nói điều khiển với convolutional neural network (CNN)
title_full_unstemmed Nhận dạng tiếng nói điều khiển với convolutional neural network (CNN)
title_short Nhận dạng tiếng nói điều khiển với convolutional neural network (CNN)
title_sort nhan dang tieng noi dieu khien voi convolutional neural network cnn
topic Convolutional neural network (CNN)
deep neural network (DNN)
keyword spooting (KWS)
url https://ctujsvn.ctu.edu.vn/index.php/ctujsvn/article/view/3956
work_keys_str_mv AT thaithuanthuong nhandangtiengnoiđieukhienvoiconvolutionalneuralnetworkcnn