基本信息
- 项目名称:
- 基于云模型的个性化定制大众评价信息检索系统
- 来源:
- 第十二届“挑战杯”省赛作品
- 小类:
- 信息技术
- 大类:
- 科技发明制作B类
- 简介:
- 本产品面向各种对大众评价信息(如论坛,博客等)比较重视的各种企事业国家政府单位和一些名人,当然也适用于对大众评价信息较感兴趣的普通族群。本着“一次定制,天天搜索,智能搜索”的观念,以为一些企业政府提供的相应服务获得经济效益,而对于一般用户可以通过广告获得盈利。
- 详细介绍:
- 随着World Wide Web(简称WWW,Web)的迅速发展,Web上的信息与日俱增,互联网已成为人们获取信息的重要来源。但是,由于因特网的广泛性和开放性,在因特网上发布信息极为容易而且不受限制,无论任何单位、团体、个人只要具备上网条件便可以自由地在因特网上发布信息,从而加剧了因特网信息的急速膨胀,使得Web的使用者找到对自己有用的信息的难度越来越大。因此,如何快速、准确地从浩瀚的信息资源中寻找所需的信息已经成为困扰用户的一个难题。 而对于像BBS、Blog等放映大众意见的信息,增长量和更新率更是高的惊人,一般数量都是呈指数级增长的。而如何快速的从这部分数量如此大,增长速度如此快的信息中找到想要的信息,并且更加智能,更加方便,更加灵活的展示给信息获取者成了当代信息检索的一种发展方面之一,也是本项目主要研究内容。 首先,运用Hadoop,这个开源分布式计算框架来时实现云模型;再则,运用这个云计算平台来搭建网络爬虫的分布式框架;第三,为了提高网络爬虫的效率,项目提出了基于层次结构保存的Web Crawler 算法,利用该算法能更高速,更高质量的获取网络信息;第四,运用基于面向自然语言处理技术实现对资讯主题分类,以使用户可以更加方便﹑智能的定制和查看相关主题信息;第五,运用数据挖掘中的关联规则技术实现对资讯文本内容的关联分析,使用户可以快速的发现和文本内容相关的网页信息;第六,运用基于进化神经网络模型的文本分类算法对网页信息进行分类,使用户可以更加方便和精确的获取更加有用的信息;最后,就是产品的跨平台使用,不仅仅局限于网络,本系统可以适用于电视、Internet、手机等平台的运用,并在这些应用平台为广告商提供了一种新的广告投放模式。 本项目产品面向各种对大众评价信息(如论坛,博客等)比较重视的各种企事业国家政府单位和一些名人,当然也适用于对大众评价信息较感兴趣的普通族群。以为一些企业政府提供的相应服务获得经济效益,而对于一般用户可以通过广告获得盈利。
作品专业信息
设计、发明的目的和基本思路、创新点、技术关键和主要技术指标
- 当今社会是一个信息的社会,一个有价值信息很多时候会左右一个决定或者政策的成败。而一些国家单位对大众对他们的政策和一些领导的本身的评价信息很重视,因为这些可以很好得到群众对相关政策和领导的意见。这就为这些单位对自己和工作有更进一步的认识,也有利于他们对以后对政策改进和自身的提升,这也是本系统的主要创新点。
科学性、先进性
- 由于当今各种搜索引擎的网页覆盖率不能令人满意和使用过程中灵活性小,本系统通过网络爬虫技术,文本分析技术,元搜索技术和Hadoop集群技术的结合在一定程度上克服了上述的问题。运用自己实现的网络爬虫算法和文本分析技术去获取那部分各大搜索引擎没有覆盖或者覆盖不全的信息,这样就可以在一定程度上提高信息的覆盖率(搜索的效果可见附录)。个性化定制则是指用户根据具体需求,如定时监听服务,跟进服务等。
获奖情况及鉴定结果
- 本系统获得华南理工大学软件学院(香港城市大学物流中心)大力支持,并和惠州学院取得联系,正就软件的可行性进行进一步协商。
作品所处阶段
- 实验室阶段
技术转让方式
- 专利实施许可
作品可展示的形式
- 实物、产品
使用说明,技术特点和优势,适应范围,推广前景的技术性说明,市场分析,经济效益预测
- 该作品的特点是使用方便,界面友好,跨平台(Java实现),效果良好。且使用C/S模式,运用RCP技术(为Eclipse框架的开源部分),这样加大了系统的安全性和用户的体验性以及框架的稳定性。本产品适用于各种对大众评价信息比较重视的各种企事业国家政府单位和一些名人,当然也适用于对大众评价信息较感兴趣的族群。因此适用性很广,且由于框架设计合理,相关程序算法稳定,接口合理,推广技术难度不大,可行性高。通过上面的分析可以知道该系统市场前景广阔,对于一些企业政府可以通过软件和提供的相应服务获得经济效益,而对于一般用户可以通过广告获得盈利。
同类课题研究水平概述
- 索引擎从诞生到现在不足20年时间,经过一个短暂的雏形阶段,目前已经发展成熟了两代产品,包括以人工目录搜索为特点的第一代搜索引擎,以AltaVista、YAHOO、Info seek为代表,主要依靠人工目录分类,由于人工分类难以处理海量的信息,搜索结果的好坏往往用反馈结果的数量来衡量;以超链分析为基础,机器自动处理的第二代搜索引擎,由于链接分析技术的引入,真正提高了自动搜索引擎的结果质量,以信息自动抓取和自动排序检索为特征,商业产品以Google,Baidu为代表。第三代搜索引擎目前正在发展和形成中,个性化、分类化和智能化是目前比较公认应该具有的特征。 如前所述网络上每日涌现大量的及时信息,如何将这些最新的信息反馈给用户已经成为一个比较棘手的问题。传统的搜索引擎只能搜索互联网上与用户输入相关的网页信息,而不能反馈及时最新的信息,弊端主要反映在以下四个方面: (1)不同领域、不同背景的用户往往具有不同的检索目的和需求,传统搜索引擎所返回的结果包含大量用户不关心的信息。 (2)通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之问的矛盾将进一步加深。 (3)信息数据形式的丰富和网络技术的不断发展,图片、数据库、音频/视频多媒体等不同数据大量出现,传统搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。 (4)传统搜索引擎大多提供基于关键词的检索,难以支持针对语义信息的查询。 随着网络信息的日益膨胀,如何确保信息的时效性已经成为一个比较重要的话题。保证信息的时效性对于一些敏感信息,例如政府,商务,工作应聘等信息具有重要意义。本课题研究的目标是利用网络爬虫技术和元搜索技术的结合,实现基于RCP框架的C/S模式的大众评价系统的搜索引擎,提供对网络及时更新信息的检索查询。