基于层次分类的医学主题词表(MeSH)索引研究文献综述

 2023-08-07 04:08

  1. 课题关键问题及难点:
    1. 解决复杂的多标签文本分类问题
    2. 将主题词之间的层次关系和相关性信息引入模型
    3. 将文本的不同部分对预测不同标签时的贡献引入模型
    1. 不同MeSH(医学主题词)的使用频率相差较大
    2. 文献的索引MeSH数量是不确定的,不同文献对应的MeSH有多有少
    3. 医学文本含有较多的专业术语和缩写,且一般文本较长,难以捕捉完整的文本信息
  2. 文献综述(或调研报告):

早期针对MeSH索引问题提出的方法主要为传统的机器学习方法,但近几年深度学习【1】的迅速发展使得当前的主流方法都是基于深度学习的。

基于传统的机器学习方法

最早的Medical Text Indexer (MTI)的工具,引入索引规则后通过KNN算法和模式匹配算法初步实现了对文献标注标签的功能。之后2014年提出的MeSHLabeler【2】通过提出lsquo;learning to rankrsquo;框架输出候选MeSH集中的前n个(n由模型学习得到)作为答案,MiF(Micro F-measure)指标达到0.6248,并在“Task 2A of 2014 BioASQ challeng”上获得第一名。

基于深度学习方法

2016年提出的DeepMeSH【3】在文本表示上用D2V-TFIDF(Document to Vector - Term Frequency Inverse Document Frequency)的深层语义表示替代之前的BOW(Bag of Words 词袋模型)表示方法,能够更好地捕捉深层的语义信息。其MiF指标达到0.6323, 比MeSHLabeler 的0.6218高2% ,比MTI的0.5637高12%。

2018年提出的两个方法均基于深度递归神经网络和注意机制——其中,AttentionMeSH【4】提出了一种“端到端”模型,注意机制使模型能够将文本信息与标签联系起来,从而在单词级别上提供可解释性。与AttentionMeSH使用的“多标签注意机制”进行分类的方法相比,MeSHProbeNet【5】使用了多视图框架集成多个self-attentive MeSH probes,每个probes可以提取不同方面的生物医学知识。他们分别在当年的“the latest batch of BioASQ challenge”上取得了第二和第一名,MIF都达到0.68。

2019年提出的FullMeSH【6】通过引入全文信息来更好地解决MeSH索引问题。FullMeSH使用的AttentionCNN相较于MeSHProbeNet 应用的BI-GRU,耗时更少,效率更高。FullMeSH针对140万篇全文进行训练,结果 在1万篇文章的测试集上,MiF达到66.76%,分别比DeepMeSH 和 MeSHLabeler高 3.3% 和6.4%;而且相较于DeepMeSH,全文信息的引入使它在索引Check Tags上提高了4.7%(Check Tags是一组最常用的indexed MeSH headings,且与其相关的信息常只出现在全文中)。

附:参考文献

  1. Goodfellow, Y.Bengio, and A.Courville, 《Deep learning》 2016.
  2. Ke Liu, Shengwen Peng, Junqiu Wu,et al. MeSHLabeler: improving the accuracy of large-scale MeSH indexing by integrating diverse evidence, ISMB/ECCB, Bioinformatics, 31, 2015, i339–i347
  3. Shengwen Peng1, Ronghui You1, Hongning Wang, et al. DeepMeSH: deep semantic representation for improving large-scale MeSH indexing, ISMB, Bioinformatics, 32, 2016, i70–i79
  4. Jin,Q. et al. AttentionMeSH: simple, effective and interpretable automatic MeSH indexer. In: BioASQ@EMNLP. Brussels, Belgium, pp. 2018, 47–56
  5. Guangxu Xun, Kishlay Jha, et al.MeSHProbeNet: A Self-attentive Probe Net for
    MeSH Indexing, 2018
  6. Suyang Dai1, Ronghui You1, Zhiyong Lu, et al.FullMeSH: improving large-scale MeSH indexing with full text, Bioinformatics, 2019, 1–9

四、方案(设计方案、或研究方案、研制方案)论证:

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版