Распознавание именованных объектов для казахского языка
аспознавание именованных объектов (NER) считается одной из важных задач обработки естественного языка (NLP). Это способ распознавания объектов реального мира, таких как географическое положение, имя человека, организация и т. д., которые встречаются в предложении. Существует несколько подходов, осно...
Main Authors: | , |
---|---|
Format: | Article |
Language: | English |
Published: |
Al-Farabi Kazakh National University
2020-09-01
|
Series: | Вестник КазНУ. Серия математика, механика, информатика |
Subjects: | |
Online Access: | https://bm.kaznu.kz/index.php/kaznu/article/view/784/575 |
Summary: | аспознавание именованных объектов (NER) считается одной из важных задач обработки естественного языка (NLP). Это способ распознавания объектов реального мира, таких как географическое положение, имя человека, организация и т. д., которые встречаются в предложении. Существует несколько подходов, основанных на созданных вручную правилах грамматики и статистических моделях, таких как машинное обучение и гибридные методы, для решения задачи распознавания именованных объектов. Цель данной работы состоит в том, чтобы поэкспериментировать с методами, основанными на статистическом подходе и на машинном обучение, и проверить как они справляются с агглютинативным казахским языком. В данной работе представлено распознавание именованных объектов на основе подхода машинного обучения, называемого условным случайным полем (CRF), как статистический метод. А также мы используем гибридный подход, сочетающий двунаправленную модель нейронной сети с долгой краткосрочной памятью (LSTM) и модель CRF. Это современный подход к распознаванию именованных объектов. Модель с перекрестным проверенным рандомизированным поиском показывает оценку f1 с 0,95. Гибридная модель LSTM-CRF показывает оценку f1 с 0,88. Результаты выглядит довольно хорошо, и это не требует каких-либо особенностей разработки по сравнению с моделью CRF.
Для проведения экспериментов, был создан корпус (kazNER) для задачи NER с такими метками, как имя человека, местоположение, организация и другие. Корпус состоит из 29629 предложений, которые содержат хотя бы одно собственное существительное, содержащее только теги части речи. |
---|---|
ISSN: | 1563-0277 2617-4871 |