基于概率分布差异的医学命名实体识别方法

医学命名实体识别是从医学文本中抽取出指代特定概念的医学实体,是医学信息抽取的基础性任务。当前主流的医学命名实体识别算法普遍基于深度学习技术,需要大量高质量的标注样本进行模型训练。然而医学领域的样本标注成本很高,严重限制了模型性能的提升。为了降低模型对标注样本的需求,一种重要的方法是基于主动学习思想,设计合理的样本采样策略,自动选取高价值样本优先标注,从而使模型提前收敛。现有算法普遍基于样本长度、样本识别的概率等特征来设计采样策略,忽视了样本类别分布这一深层次特征,导致命名实体识别召回率较低。提出了一种基于概率分布差异的主动学习算法,通过计算样本间的概率分布差异来评估样本的标注价值,并在标注样本...

Full description

Bibliographic Details
Main Author: 刘聪, 吕雪峰, 王宏林, 王晓伟, 陆瑾, 孙顺, 胡松奇
Format: Article
Language:zho
Published: China InfoCom Media Group 2023-07-01
Series:大数据
Subjects:
Online Access:https://www.infocomm-journal.com/bdr/CN/10.11959/j.issn.2096-0271.2023008