基本信息
- 项目名称:
- 面向主题的中文搜索引擎的设计与实现
- 来源:
- 第十二届“挑战杯”省赛作品
- 小类:
- 信息技术
- 大类:
- 科技发明制作B类
- 简介:
- 针对传统搜索引擎,对于检索关键词返回信息量大,用户筛选困难的缺陷。本系统提出主题划分的思想,主要是对传统搜索引擎的搜索结果进行主题聚类和文档重排。对于某个关键字搜索得到的页面,可以按主题自动分类,不同主题的搜索结果分别在不同的页面上显示结果;对于同一个主题的搜索页面,采用文档重排技术,使得跟关键字更相关的结果显示在搜索页面的前面。
- 详细介绍:
- 作品名称为“面向主题的中文搜索引擎的设计与实现”。针对传统搜索引擎对于一个搜索关键词提供海量搜索结果的缺陷,本作品提出了一种面向主题的搜索引擎的概念,即对传统搜索引擎的搜索结果,进行主题划分和文档重排。本作品的关键技术为,动态确定聚类个数的K-means算法和基于权重重排文档。
作品专业信息
设计、发明的目的和基本思路、创新点、技术关键和主要技术指标
- 设计目的及思路: 传统的Web信息采集的目标就是尽可能多地采集信息页面,甚至是整个Web上的资源,而并不太在意采集的顺序和被采集页面的相关主题。导致给用户的搜索结果中有很多是无关信息,或者耗费用户大量时间来确认哪些网页是自己需要的。 针对这个问题,我们提出一种新的方案,将采集来的页面进行自动分类和文档重排。这种方案可以达到如下效果:对于某个 关键字搜索得到的页面,可以按主题自动分类,不同主题的搜索结果分别在不同的页面上显示结果,即同一个页面上的搜索结果都是同一个主题的,这样可以让用户直接选择自己的主题;另外,对于同一个主题的搜索页面,采用文档重排技术,使得跟关键字更相关的结果显示在搜索页面的前面。 项目的创新点在于能够根据当前搜索引擎的问题,首次提出将自动分类和文档重排技术运用到搜索结果处理中,使用户能在海量的信息中快速、准确地找到自己需求的信息。 技术的关键是设计一个有效的自动分类和文档重排算法。 主要技术指标: (1)查准率 查准率是检索出的相关文档数与检索出的文档总数的比率,用来测量检索出的信息中有多少是正确的。本系统设定查准率不低于70%。 (2)系统响应时间 系统响应时间是指从用户提交检索到获得最终结果这段时间。在不考虑网络拥塞等网络速度的情况下,不应超过30秒每10条记录。
科学性、先进性
- 本作品能够有效地将搜索结果按主题自动分类,使用户可以直接选择自己感兴趣的主题,避免盲目地从海量数据中寻找自己需求的页面;其次,采用自然语言处理中的文档重排技术,使同一个主题中,与关键字联系更紧密的结果排在搜索页面的前面。 该作品与现有的2大搜索引擎(google和baidu)相比,对搜索结果的改善具有显著的提升。目前市面上这2大搜索引擎并没有对结果按主题分类。
获奖情况及鉴定结果
- 无。
作品所处阶段
- 目前作品还处于实验室阶段。
技术转让方式
- 无。
作品可展示的形式
- 现场演示,磁盘。
使用说明,技术特点和优势,适应范围,推广前景的技术性说明,市场分析,经济效益预测
- 由于本系统是对传统搜索引擎搜索结果的一种改进,搜索结果的主题划分可以为用户提供更加清晰的检索结果。 对于用户而言,当输入关键字时,系统返回的不是海量的搜索结果,而是对于搜索结果主题的划分。自动主题划分使得搜索结果显得更为清晰,也使得用户可以根据自己的兴趣选择自己最想看的主题。 而文档重排,使得同一个主题中,与主题靠近的搜索结果靠前。这样用户第一眼就可以看到最重要最相关的搜索结果。 对于需要了解特定关键字多个方面的查询,以及在检索时不明确关键字主题的查询,本系统都提供了极大的方便。
同类课题研究水平概述
- 一、国外研究现状 Aggarwal则提出了一种针对两个假设的基于主题的Web信息采集方法:1)Linkage Locality,即被相关于某一主题的页面链接到的页面趋向于拥有同一主题。2)Sibling Locality,对于某个链接到某主题的页面,它所链接到的其它页面也趋向于拥有这个主题。这样,在采集器接到一个主题采集请求命令后,它就从自己保存的关于这个主题的起点出发,按照两个假设蔓延,并利用指向备选页面中的URL结构以及其他一些meta信息使用统计学习的方法进行修剪,使采集的页面很快接近主题。 North Carolina大学计算机科学系和法学院联合开发研制的LIBCLient ITISWeb系统,只对法律信息进行权威检索,获取全面高质的专业信息的效率大大提高,取得了较为令人满意的效果。但仅限于英文。 二、国内研究现状 国内主要的主题搜索引擎有赛迪网()推出的中文IT垂直搜索引擎“IT罗盘”,慧聪网站()推出的行业搜索等。 在目前这些已有的主题搜索引擎中,国外的大多是针对英文的,而不是中文,不能直接应用。 国内外主要研究的是传统的主题搜索引擎,传统意义上的主题搜索引擎是用主题爬虫爬取主题相关的网页,然后为用户提供结果;而本系统是对搜索引擎的搜索结果进行主题划分。故与前面的国内外研究的主题搜索引擎有所不同。