一、选题背景和意义:
因为现在在北京华宇信息公司实习,负责智慧法医平台的开发工作,其中有一个子模块的业务是进行对于法医文书信息的特征提取工作,我对自然语言处理这部分工作比较感兴趣所以就开始这个方向的部分研究。
司法鉴定信息化、智能化建设是司法鉴定工作转型升级的重要内容和抓手,这有利于检察业务部门与检察技术部门进一步加强协作配合,有利于更大效能地发挥司法鉴定技术的现实价值,特别是对于防漏纠错、提高案件审查质量和强化法律监督的重要作用。
具体到法医鉴定领域,在对公诉部门提出的技术性协助请求审查通过后,法医进入到证据审查阶段,需通过查看公诉机关提供的《法医学人体损伤程度鉴定书》及其附件,重新生成伤残等级或死亡原因等结论,并最后生成《技术性证据审查意见书》或《技术协助工作说明》等书面文档返回给公诉案件。为了更好地协助检察机关、法医对侦查机关提交的《法医学人体损伤程度鉴定书》进行审查、研判。本课题借鉴项目中已有的病理法医文书特征信息提取模型,设计其他特定类别(如临床)的法医文书特征信息提取,重点就伤情自然语言处理模块展示深入研究,并给出实现方案。主要包括:程序性审查业务、鉴定结果研判业务、实体审查业务提供伤情语句结构化功能、实体信息推送功能、伤情相似度计算功能及伤情一致性检验功能,此外为伤情合并功能模块提供支撑。从而,在一定程度上可以纠正法医的部分失误,并且可以根据提取的信息自动推送相关资料和法条提升法医的办案效率。
二、课题关键问题及难点:
(1)对法医文书进行预处理,包括,对法医文书的内容和专业术语进行高效准确的分词,进行词性标注和命名实体识别
(2)基于tensorflow框架Keras深度学习库,搭建合理的深度学习模型进行训练。
三、文献综述(或调研报告):
在选定自然语言处理的研究方向后,了解了自然语言处理从机器学习从1956年的萌芽期到如今的发展[1],在早期自然语言处理的训练是通过机械学习进行[2]能力十分有限对于许多建模效果并不理想,直到21世纪初深度学习方法被用于处理自然语言处理[3]。
自然语言处理一般分为几个阶段[4][5],得到进行处理的语料集合,进行语料的预处理包括语料清洗、分词、词性标注和去停用词,特征化后进行深度学习模型的训练。分词是指将连续的字序列按照一定的规范重新组合成词序列的过程[6],由于分词是自然语言处理非常重要的一步其结果将会直接影响到后续的处理,传统的方法有机械分词和基于统计的分词[7],为了分词的准确性阅读学习了python的开源库jieba分词[8]。词性标注即在给定的句子中判定每个词最合适的词性标记[9],常见的模型有最大熵模型和隐马尔可夫模型。去停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据之前或之后会自动过滤掉某些字或词[10]。
