- 文献综述(或调研报告):
经过调研,得知比较有名的本体构建工程[1]思想有IDEF5方法、骨架法、TOVE法、METHONTOLOGY法和七步法等[2][3]。
IDEF的概念是在70年代提出的,是在结构化分析方法的基础上发展起来的。IDEF5是KBSI(Knowledge Based Systems Inc.)开发的一套用于描述和获取企业本体的方法。该方法通过使用图表语言和细化说明语言,获取关于客观存在的概念、属性和关系,并将它们形式化成本体。
TOVE法,也称为评价法,是Gruninger和Fox等开发TOVE工程本体的经验总结。这种方法并非直接构建以本体形式描述的知识逻辑模型,而是先建立本体的非形式化描述说明,然后将这种描述形式化。
METHONTOLOGY法是有马德里技术大学人工智能实验室提出的,支持在知识的层次上完成本体构建,专用于构建化学本体,重视本体重用。
七步法由斯坦福大学医学院开发,主要用于领域本体的构建。七个步骤分别是: ① 确定本体的专业领域和范畴;② 考查复用现有本体的可能性;③ 列出本体中的重要术语;④ 定义类和类的等级体系(完善等级体系可行的方法有:自顶向下法、自低向上法和综合法;⑤ 定义类的属性;⑥ 定义属性的分面;⑦ 创建实例。
除了以上著名的本体构建方法,在文献中,还可以找到基于自然语言处理、聚类技术、统计方法等各种方法。
1999年,Mark Sanderson等人提出一种包含方法[4]。该方法不使用训练数据或着标准聚类技术,而是从一组文档中自动导出概念层次组织。其基于关键字的同现来计算关键字与另一个关键字相关联的条件概率。在给定一对关键字的情况下,根据一定的启发式规则,该系统试图理解它们之间是否存在包含关系。然而,这种方法仅限于对共现关键字的统计分析。
TaxGen[5]是通过分层聚类算法和文本挖掘技术从语料库自动生成分类法的另一种方法。聚类算法首先通过观察文档中的语言特征,如文本中的词、人名、组织、领域术语和其他重要词的共现来识别底层簇,然后将这些簇聚类,生成能形成层次结构的更高级别的簇。
在2005年,Cimiano等人提出了一种基于文本资源的本体学习框架Text2Onto[6]。Text2Onto是系统TextToOnto的完全重新设计和再工程。该方法通过在句子结构上应用自然语言处理技术来识别同义词、子/超类层次结构等,其中诸如“例如hellip;”之类的短语,和“以及其他hellip;”暗含术语之间的层次结构。
2012年,Francesco Osborne等人提出了一种Klink算法。该算法[7]是一种自动生成研究领域之间关系的方法,它结合了机器学习方法和来自包括谷歌学术、维基百科在内的大量的外部知识。该算法的输入是大量的学术资源元数据,通过挖掘输入数据及其语义关系,自动生成一个包含所有研究领域的OWL本体。Klink生成的本体被用来为Rexplore提供一个全面的语义主题网络,这是一个集成了语义技术、统计分析和可视化分析的新系统,为理解学术数据提供了有效的支持。值得一提的是,Klink生成的本体在语义上增强了各种数据挖掘和信息提取技术,并改进了搜索和可视化分析。然而,Klink有一些局限性。首先,它只考虑关键字之间的共现图和直接的语义关系,从而忽视相关的间接统计和语义关系。此外,它不能处理因为上下文语境改变而代表不同主题含义的关键字。
