是否包含论文文档
是
详细描述
我们处在一个大数据的时代,伴随着网络信息资源的庞大,人们越来越多地注重怎样才能快速有效地从海量的网络信息中,检索出自己需要的、潜在的、有价值的信息,从而可以有效地在日常工作和生活中发挥作用。因为搜索引擎这一技术很好的解决了用户搜索网上大量信息的难题,所以在当今的社会,无论是发展迅猛的计算机行业,还是作为后起之秀的信息产业界,都把Web搜索引擎的技术作为了争相探讨与专研的方向。搜索引擎的定义就是指按照既定的策略与方法,采取相关的计算机程序,通过在互联网中进行寻找信息,并显示信息,最后把找到的信息进行整理和筛选,为搜索引擎的使用者提供检索信息的服务,终极目标是为了提供给使用者,他所搜索信息相关的资料的计算机系统。搜索引擎的种类繁多,既可以进行全文的索引,还可以进行目录的索引,不仅有集合式的搜索引擎,还有垂直搜索的引擎以及元搜索引擎。除此之外,还有门户搜索引擎和免费链接列表等等。本文首先介绍了搜索引擎出现的必要性,以及什么是搜索引擎、搜索引擎的分类、处理流程、核心技术,同时也对如何才能提高搜索引擎的精准度以及关联度进行了更加深入的研究。
项目截图描述
1 绪论
1.1 项目背景
环球信息网(World Wide Web),即3W,一般在计算机与信息行业用Web这个词汇来来表示,万维网是它进入中国时所赋予的称呼,其实,这就是一个资料的汇集与存储的空间。
在这个空间中,以事物为单位,一个事物也可以称为一样“资源”,利用URL来标识,统一资源标识符”(URL。这些资源通过超文本传输协议(Hypertext Transfer Protocol,HTP)传送给终端用户,其中给到用户手上的是一个个链接,然后用户通过逐层点击链接,就可以查看到资源,也可以获得到资源。
万维网也常常被人们误以为是因特网的近义词,在这里必须要表明的概念是:万维网与因特网存在着本质的区别。因特网(Internet)是指,把全世界所有的各类型电脑,利用网络连接,所形成的硬件框架,这是一个实实在在的“网”。万维网,其本质是一种功能,即让使用者光看网络页面,而页面之间又交相辉映,从而让使用者觉得这也是一种“网”,但这种网是虚拟的,是不存在的。
可以说1994年在信息时代是一个重大突破的一年,因为万维网(World Wide Web)出现了。在这一改变之前,人们的信息获取方式还是通过各种传统文化传媒,相对于万维网来说是很传统、笨拙的,它在开放性和广泛的可访问性极大的激励了人们创作的积极性。所以万维网的出现极大的缩短了人们信息获取的时间,同时信息的时效性也得到了保障。万维网一出现就收到了全世界各国人的追捧,人们在它出现的十几年的一个时间段中,就在万维网这一平台上发布了几十亿条的网页信息,他的一个数据量是那么的庞大,粗略计算一下,万维网上的网页信息每天都会不断增长几十万。因为网络化、数字化的信息资源,所以网络信息也是有利有弊:利的一面是提高了我们的信息量;不利的一面是庞大的信息一并向我们开来,犹如破堤的江水,汹涌澎湃,造成了我们无所适从。
关于搜索引擎的由来,北美加拿大(Canada)的麦吉尔大学就必须要介绍一下了,早在上世纪,90年代之初,由于网络资源众多,分散性特别大,人们在找资料的时候特别费力。麦吉尔大学的团队也意识到了这个问题,所以他们就研发出了Archie,这是一个可以自动运行的系统,可以完成在FTP上搜集有用资源的作用。该系统定期会自动搜索FTP系统上保存的文档名以及相关的资源,而且还可以自行分析,如果有客户端发出搜索请求,该系统会根据搜索请求的内容,自动提供保存在主机中文件。在以Web网页为对象的搜索引擎系统的大背景下,搜索引擎被人们当做了在网上查找信息的重要手段,通过搜索引擎系统人们可以在浩瀚的网络海洋中第一时间找到自己真正想要的信息,并且搜索引擎的智能以及现在网页的特性使得人们只要输入相关的词语(即关键词)就可以找到相关的信息。
现如今,人们看到的百度、Google取得的显著成效,可以说是成为了行业的领头羊,所以整个世界也都把视觉一部分放置在了搜索引擎这一领域当中,各种各样的搜索服务犹如雨后春笋一般争相冒出。搜索引擎不仅种类愈来愈多,而且其服务的质量也越来越全面,从最初期的国外的Google引擎、Yahoo引擎,到如今的中国的Baidu引擎、360引擎等等。随着web技术的不断完善,网络信息资源也是翻倍增长的(变化关系是成正比的)。所以为了满足用户的需要,既可以快速的找到到资源,而且还可以提高资源的质量,各类型的引擎中,必须引入检索这一概念。此外,在企业级应用的市场上,由于搜索的资源需求量大,要求的精度更加高,全文检索的功能也就被人们重视起来了,例如在各种文件档案的处理过程中、企业管理的软件中。
在这样的环境下,搜索引擎的技术也在迅猛发展。各种讨论搜索引擎的文章、博客、杂志等席卷网络的相关信息。在这个信息化全面进入人们生活各层各面的时代,搜索引擎这项技术无疑会在最热门的技术中占有一席之地。
1.2 国内外发展现状及分类
当今的时代,网络信息呈现指数型上升,其复杂性不言而喻,而网络检索技术的发展却不尽如人意,有很多方面的不足,具体阐述如下:
(1) 随着网页数量的迅猛增加,尽管是专业人员,他对所有的认知也存在不足,同时专业人员的工作量也很大,单凭人工操作,是没有办法对如此庞大的信息量进行有效的分类,更不用说是再加以检索和利用了。网络用户接触的是庞大对的、未经组织的信息,只是使用简单的关键词搜索,它对应的反馈给用户的结果冗余度较大且涵盖有限,这是让用户无法接受的。
(2) 信息实用性评价低迷。有些网站在网页中高频的出现某些关键字,从而轻易的被一些显著的搜索引擎收录,以此来提高该网站的知名度,但实际上它对用户是没有提供任何有价值的信息。
(3) 网络信息变更过快。如今的社会就是一个快节奏的社会,人们更多的喜欢是速食文化,即尽可能快的获取信息,可是分布式的信息布局,就算网络传输速度再快,要想实现实时的搜索难度堪比登天啊,即使是上一秒刷新过的网页,在下一秒就会有无尽的可能,时效性一直是人们追求网络信息的方向,但却很难做到真正的实时。
速度和效率往往是会体现这个搜索引擎是否良好的标准,故此,对于网络信息检索工具而言,其发展的主要方向就是,在信息检索的速度和效率是一步一步不断改进和突破,以提高检索的技术,提供更高的检索服务的质量,改善甚至消除局部网络信息检索的用户不满意之处。
万维网:它是世界上最大的域名注册以及虚拟主机提供商,现在的域名多种多样,不过以www开头的最多,相应的费用也是最贵的,但是,现在还有一批域名不是以www开头,直接二级域名开头,我们在做网站的时候,首先需要购买域名,然后大约根据程序的大小订购服务器,服务器按系统分为linux、window的,按开发语言也可以选择服务器,按代码的上传方式也可以选择服务器,服务器有一定的界面,当然你也可以在linux系统中敲指令来实现,window服务器使用起来比较麻烦,因为你的电脑是window的,然后你要进入另外一台主机中,就会出现只能选择其一的现象,不能同时看到,接着建立站点,设置 ftp,建立数据库,然后上传代码。
1.3 本论文组织结构介绍
本次设计是在Lucene技术之上进行的开发,最终成功的设计出搜索引擎的全过程。从开始本次设计到最终的实现,都会在下述做详细的介绍:
第1章 绪论,本章主要从如下几个方面做了阐述:1、本次设计的系统所会面临的问题;2、怎么处理所面临的难题;3、攻克难题的详细内容;4、本次课题是基于什么样的研究背景、意义而进行;5、本次设计的可行性分析以及论文中各章节内容描述。
第2章 相关技术介绍,对涉及到的理论知识和用到的开发工具做相关阐述。
第3章搜索引擎的基本原理,详细介绍了搜索引擎的基本组成结构和工作原理。
第4章 搜索引擎系统的分析与设计,根据所需要实现的功能入手,一步步的完成设计目标。
第5章 搜索引擎系统的具体设计步骤,分步骤详细地表述了该设计的实现过程以及设计中会遇到的注意事项。
第6章 系统测试,对系统做了相关测试和评价说明。
最后:总结、致谢、参考文献。