基本信息
- 项目名称:
- 基于XML文档相似度的研究及其在检索中的应用
- 来源:
- 第十一届“挑战杯”国赛作品
- 小类:
- 信息技术
- 大类:
- 自然科学类学术论文
- 简介:
- 本文提出了一种新的计算XML文档之间相似度的算法,该方法不仅考虑了xml文档的内容语义,还充分考虑了它的结构特点。基于此算法我们还提出了一个XML信息检索模型并实现了其原型系统。实验结果证明了该算法具有较高的查全率与查准率。
- 详细介绍:
- 本文同时考虑了XML文档之间的内容和结构特点,提出了一种新的计算XML文档之间相似度的方法,主要工作包括以下几个方面: (1)综合考虑了元素的相似度和路径的结构信息,提出了一种计算路径之间的相似度的算法。 (2)基于路径相似度,提出了一种计算文档之间的相似度的方法,并且基于该方法实现XML文档之间的近似匹配。
作品专业信息
撰写目的和基本思路
- XML文档的相似度计算是XML文档检索、聚类、分类等应用的基本问题,所以对XML相似度计算的研究有重要意义。 XML文档之间的相似度计算思路: (1)把XML文档解析成相应路径集 (2)综合考虑路径中元素的编辑距离和语义相似度得到元素相应的语言相似度 (3)通过路径中元素的相似度利用动态归划思想得出两路径间相似度 (4)通过路径间的相似度得到两路径集间的相似度即两XML文档间的相似度
科学性、先进性及独特之处
- (1)根据WordNet本体计算两个词之间的相似度 (2)计算两元素相似度时考虑了编辑相似度和语义相似度 (3)在计算两路径相似度时综合考虑了元素的相似度和路径的结构信息 (4)计算XML文档相似度的同时考虑了XML文档之间的内容和结构特点
应用价值和现实意义
- 随着XML逐渐成为因特网上数据交换的标准,开发一种基于半结构化数据的搜索引擎有十分重要的科研和应用价值,它不需要用户对所查询XML的DTD或schema模式、复杂的XML查询语言(如XQuery等)等相关知识有所了解,而对数据进行检索。它还可以方便的嵌入到web搜索引擎中,为电子商务和电子政务的发展提供强大的动力,为软件产业的发展提供新的增长点。
学术论文摘要
- 随着XML作为数据表示语言的流行,从中发现和挖掘有用的信息非常重要。本文提出了一种新的计算XML文档之间相似度的算法,分别从元素、路径和文档三个层面进行相似度计算。该方法不仅考虑了XML文档的内容语义,还充分考虑了它的结构特点。其中元素相似度的计算考虑了标签名的编辑相似度和语义相似度,路经相似度的计算时综合考虑了元素的相似度和路径的结构信息,然后基于路径相似度实现XML文档之间的近似匹配。最后基于XML文档相似度算法我们提出了一个XML信息检索模型并实现了其原型系统。
获奖情况
- 该论文在6月12日的第十一届“挑战杯”山东省大学生课外学术科技作品竞赛评审会上被评为山东省一等奖,并被推荐进入国家决赛。
鉴定结果
参考文献
- 一、现有技术 (1)WordNet技术。WordNet是普林斯顿大学科学实验室开发的一个英语词典,它根据词条的意思将各个词条分组,每一个具有相同意义的词条组称为一个synset(同义词集合)。WordNet为每一个synset 提供了简短概要的定义。并记录不同synset之间的语义关系。并提供了相关的API(编程应用接口)。 (2)XML文档解析技术:SAX 和DOM,它提供了相应的API(编程应用接口)。 (3)动态归划算法。利用最优子结构性质和重叠子问题性质设计算法。 二、技术文献的检索目录 万方数据库 EI compendex数据库
同类课题研究水平概述
- 近几年, 许多国内外学者对XML文档的相似度问题进行了广泛研究。概括起来一般分为三类:第一类是基于XML的标签(label)内容,第二类是基于文档结构,第三类综合考虑了XML的标签内容和文档结构。第一类方法主要基于包含相同标签的文档具有相似的文档,两个文档中所拥有的共同标签(相同的标签或同义词标签)越多,则相似度越大。第二类方法涉及点匹配,边匹配,路径匹配,树结构匹配等。基于包含相同的边、相同的路径越多,则它们的文档结构越相似。或者基于标签树结构之间的编辑距离,利用编辑距离来衡量两棵树之间的相似度,其基本思想是将两棵树之间的距离定义为利用编辑操作实现一棵树到另一棵树转换所需的最小代价,树之间的编辑操作主要有插入、删除、替换三种。编辑距离和相似度之间成反比关系,编辑距离越小,则相似度越大,该类方法重点关注XML文档的拓扑结构。第三类方法同时充分考虑了XML的结构和内容信息。