基本信息
- 项目名称:
- 基于BAM的用户查询与网页匹配的研究
- 来源:
- 第十二届“挑战杯”省赛作品
- 小类:
- 信息技术
- 大类:
- 自然科学类学术论文
- 简介:
- 提出一个新匹配的策略使用更加精确和现实的概念以提高过去的基于关键词的匹配策略。根据从各个网页中提取语义概念为每个网页建立1个概念格子。这样概念格由双向联想记忆存储器进行编码以区别于过去复杂概念格建立算法。然后提取这些形式概念中与查询的关键词相关的对象与属性进行匹配操作。
- 详细介绍:
- 提出一个新匹配的策略使用更加精确和现实的概念以提高过去的基于关键词的匹配策略。根据从各个网页中提取语义概念为每个网页建立1个概念格子。这样概念格由双向联想记忆存储器进行编码以区别于过去复杂概念格建立算法。然后提取这些形式概念中与查询的关键词相关的对象与属性进行匹配操作。在新的匹配模型中,使用的形式概念与自然语义概念相似,并且这些概念被作为文本和网页表示的基本元素。匹配模型不仅具有理解自然语言文本的能力而且具有学习的能力。其中各个概念权重是可变的,这个模型可以根据用户反馈更新文本的表示,还可以通过学习得到一组有用的概念来帮助检索。模型中采用的学习策略可以使相关网页的相似性得以加强,不相关网页的相似性得以削弱。实验证明,这个新的匹配模型可以使信息检索的召回率和准确率得以提高。
作品专业信息
撰写目的和基本思路
- 作品撰写的目的是提高网页匹配速度。基本思路是提出一个新的匹配策略,使用更加精确和现实的概念以提高过去基于关键词的匹配策略。
科学性、先进性及独特之处
- 提出了一个新的匹配策略,在新的匹配模型中,使用的形式概念与自然语义概念相似,并且这些概念被作为文本和网页表示的基本元素。匹配模型不仅具有理解自然语言文本的能力而且具有学习的能力。其中各个概念权重是可变的。这个模型可以根据用户反馈更新文本的表示,还可以通过学习得到一组有用的概念来帮助检索。
应用价值和现实意义
- 可以显著的提高搜索性能,提高了准确率和召回率
学术论文摘要
- 提出一个新匹配的策略使用更加精确和现实的概念以提高过去的基于关键词的匹配策略主。根据从各个网页中提取语义概念为每个网页建立1个概念格子。这样概念格由双向联想记忆存储器进行编码以区别于过去复杂概念格建立算法。然后提取这些形式概念中与查询的关键词相关的对象与属性进行匹配操作。
获奖情况
- 无
鉴定结果
- 无
参考文献
- [1]KOSKO B.Bidrectional Associative Memory [J].IEEE Transactions of Systems,Man and Cybernetics,1988,18(1):49-60. [2]WILLE R.Restructuring Lattice Theory:An Approach Based on Hierarchies of Concepts [J].Ordered Sets,1982,32:445-470. [3] BĚLOHLÁVEK R.Respresentation of Concept Lattices by Bidirectional Associative Memories [J].Neural Computation,2000,12(10):2 279-2 290. [4]GODIN R,GECSEI J,PICHET C.Design of Browsing Interface for Information Retrieval [J].Proc SIGIR,1989,89:32-39.
同类课题研究水平概述
- (l)向量模型:1975年由Salton等提出。向量模型中文档被看成一组独立的n维词条向量,对每个词条分量都赋予一个权值,文档和用户查询的匹配问题可以转化为向量空间匹配问题,用两个向量的夹角余弦表示文档和用户查询的匹配程度。 (2)布尔模型:1980年由Booksteinll提出。布尔模型是一种简单的匹配模型,如果用户提交的查询词条在文档中出现就赋予Ture值,反之赋予False值,用and,or,not等逻辑运算符将查询词条连成一个逻辑表达式。布尔模型的检索速度快,并且易于实现,几乎所有的商业搜索引擎都支持该模型。但是该模型要求过于严格,漏检比较严重,而且没有考虑到关键字的权重问题,使得检索结果不够令人满意。 (3)潜在语义索引模型:1990年由Deerwester提出。它利用特征询与文档对象之间的内在关系形成信息的语义结构,来反映数据间最主要的联系模式,忽略了个体文档对词语的不同使用风格。 (4)概率模型:概率模型考虑了词条和文档之间的统计概率。根据先前检索过程中得到的相关性先验信息,计算文档集合中每篇文档成为相关文档的概率,然后根据统计决策理论决定输出标准来确定哪些文档可以输出。 (5)基于命题逻辑的模型:它将文档和查询当成一个命题公式,用逻辑推导的方法计算二者的相关性。此外还有神经网络模型:它将每个关键词作为输入神经元,每篇文档作为输出神经元,通过查询激活相应的输入神经元,来获得输出信号,即相关文档。神经网络模型具有学习能力,考虑了关键词之间的相关性。但是在实际的信息检索系统中很少应用,因为实际中需要太多的神经元表示数据库中的文档和关键词,并且会因此产生大量的计算。