今天给大家聊到了相关搜索,以及相关的内容,在此希望可以让网友有所了解,最后记得收藏本站。
搜索关键词即用户输入一个词/句子,以此为内容进行搜索,搜索引擎据因为内容显示的搜索结果。其中用户输入的内容就是“关键词”。
关键词源于英文“keywords”,特指单个媒体在制作使用索引时,所用到的词汇。是图书馆学中的词汇。关键词搜索是网络搜索索引主要方法之一,就是访问者希望了解的产品、服务和公司等的具体名称用语。
创建关键词注意事项:
A:认真思索
用笔写下与你的网站或产品有关的所有关键字,先不要对这些关键字进行审评。不要局限于你是卖什么的,尽量站在你客人方面考虑。那些人会为你的网站带来利益,尽量站在这些人的角度想。
B:多问周围人的意见
将你的家里人,朋友,同学怎样的词语适合描述你的产品或网站。他们很有可能会找出一些你连想到没想过的词语。
C:分析日志文档
日志文档将会告诉你,人们是使用什么关键字来访问你的网站的。
D:参考其他网站
参照那些主题与你相似或相同的网站,看一下他们的meta keyword 是怎么写的。这样你有可能会得到意外的关键字,但是不要直接将人家的模板粘贴过来,因为你不知道网管在设计网站之前对关键字进行了那些可能性的研究。这主要是用于关键字研究。
E:找出错误的拼写(多用于英文)
有很多关键字人们会经常拼写错误的,找出这些经常出现错误拼写的词或词组可以为你带来额外的流量。
随着互联网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找自己所需的信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。搜索引擎是指互联网上专门提供检索服务的一类网站,这些站点的服务器通过网络搜索软件(例如网络搜索机器人)或网络登录等方式,将Intemet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库,从而对用户提出的各种检索作出响应,提供用户所需的信息或相关指针。用户的检索途径主要包括自由词全文检索、关键词检索、分类检索及其他特殊信息的检索(如企业、人名、电话黄页等)。下面以网络搜索机器人为例来说明搜索引擎技术。
1.网络机器人技术
网络机器人(Robot)又被称作Spider、Worm或Random,核心目的是为获取Intemet上的信息。一般定义为“一个在网络上检索文件且自动跟踪该文件的超文本结构并循环检索被参照的所有文件的软件”。机器人利用主页中的超文本链接遍历WWW,通过U趾引用从一个HT2LIL文档爬行到另一个HTML文档。网上机器人收集到的信息可有多种用途,如建立索引、HIML文件合法性的验证、uRL链接点验证与确认、监控与获取更新信息、站点镜像等。
机器人安在网上爬行,因此需要建立一个URL列表来记录访问的轨迹。它使用超文本,指向其他文档的URL是隐藏在文档中,需要从中分析提取URL,机器人一般都用于生成索引数据库。所有WWW的搜索程序都有如下的工作步骤:
(1)机器人从起始URL列表中取出URL并从网上读取其指向的内容;
(2)从每一个文档中提取某些信息(如关键字)并放入索引数据库中;
(3)从文档中提取指向其他文档的URL,并加入到URL列表中;
(4)重复上述3个步骤,直到再没有新的URL出现或超出了某些限制(时间或磁盘空间);
(5)给索引数据库加上检索接口,向网上用户发布或提供给用户检索。
搜索算法一般有深度优先和广度优先两种基本的搜索策略。机器人以URL列表存取的方式决定搜索策略:先进先出,则形成广度优先搜索,当起始列表包含有大量的WWW服务器地址时,广度优先搜索将产生一个很好的初始结果,但很难深入到服务器中去;先进后出,则形成深度优先搜索,这样能产生较好的文档分布,更容易发现文档的结构,即找到最大数目的交叉引用。也可以采用遍历搜索的方法,就是直接将32位的IP地址变化,逐个搜索整个Intemet。
搜索引擎是一个技术含量很高的网络应用系统。它包括网络技术、数据库技术动标引技术、检索技术、自动分类技术,机器学习等人工智能技术。
2.索引技术
索引技术是搜索引擎的核心技术之一。搜索引擎要对所收集到的信息进行整理、分类、索引以产生索引库,而中文搜索引擎的核心是分词技术。分词技术是利用一定的规则和词库,切分出一个句子中的词,为自动索引做好准备。目前的索引多采用Non—clustered方法,该技术和语言文字的学问有很大的关系,具体有如下几点:
(1)存储语法库,和词汇库配合分出句子中的词汇;
(2)存储词汇库,要同时存储词汇的使用频率和常见搭配方式;
(3)词汇宽,应可划分为不同的专业库,以便于处理专业文献;
(4)对无法分词的句子,把每个字当作词来处理。
索引器生成从关键词到URL的关系索引表。索引表一般使用某种形式的倒排表(1nversionUst),即由索引项查找相应的URL。索引表也要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻关系或接近关系,并以特定的数据结构存储在硬盘上。
不同的搜索引擎系统可能采用不尽相同的标引方法。例如Webcrawler利用全文检索技术,对网页中每一个单词进行索引;Lycos只对页名、标题以及最重要的100个注释词等选择性词语进行索引;Infoseek则提供概念检索和词组检索,支持and、or、near、not等布尔运算。检索引擎的索引方法大致可分为自动索引、手工索引和用户登录三类。
3.检索器与结果处理技术
检索器的主要功能是根据用户输入的关键词在索引器形成的倒排表中进行检索,同时完成页面与检索之间的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。
通过搜索引擎获得的检索结果往往成百上千,为了得到有用的信息,常用的方法是按网页的重要性或相关性给网页评级,进行相关性排序。这里的相关度是指搜索关键字在文档中出现的额度。当额度越高时,则认为该文档的相关程度越高。能见度也是常用的衡量标准之一。一个网页的能见度是指该网页入口超级链接的数目。能见度方法是基于这样的观点:一个网页被其他网页引用得越多,则该网页就越有价值。特别地,一个网页被越重要的网页所引用,则该网页的重要程度也就越高。结果处理技术可归纳为:
(1)按频次排定次序通常,如果一个页面包含了越多的关键词,其搜索目标的相关性应该越好,这是非常合平常理的解决方案。
(2)按页面被访问度排序在这种方法中,搜索引擎会记录它所搜索到的页面被访问的频率。人们访问较多的页面通常应该包含比较多的信息,或者有其他吸引入的长处。这种解决方案适合一般的搜索用户,而因为大部分的搜索引擎都不是专业性用户,所以这种方案也比较适合一般搜索引擎使用。
(3)二次检索进一步净化(比flne)结果,按照一定的条件对搜索结果进行优化,可以再选择类别、相关词进行二次搜索等。
由于目前的搜索引擎还不具备智能,除非知道要查找的文档的标题,否则排列第一的结果未必是“最好”的结果。所以有些文档尽管相关程度高,但并不一定是用户最需要的文档。
搜索引擎技术的行业应用:
搜索引擎的行业应用一般指类似于千瓦通信提供的多种搜索引擎行业与产品应用模式,大体上分为如下几种形式:
1、政府机关行业应用
n实时跟踪、采集与业务工作相关的信息来源。
n全面满足内部工作人员对互联网信息的全局观测需求。
n及时解决政务外网、政务内网的信息源问题,实现动态发布。
n快速解决政府主网站对各地级子网站的信息获取需求。
n全面整合信息,实现政府内部跨地区、跨部门的信息资源共享与有效沟通。
n节约信息采集的人力、物力、时间,提高办公效率。
2、企业行业应用
n实时准确地监控、追踪竞争对手动态,是企业获取竞争情报的利器。
n及时获取竞争对手的公开信息以便研究同行业的发展与市场需求。
n为企业决策部门和管理层提供便捷、多途径的企业战略决策工具。
n大幅度地提高企业获取、利用情报的效率,节省情报信息收集、存储、挖掘的相关费用,是提高企业核心竞争力的关键。
n提高企业整体分析研究能力、市场快速反应能力,建立起以知识管理为核心的竞争情报数据仓库,是提高企业核心竞争力的神经中枢。
3、新闻媒体行业应用
n快速准确地自动跟踪、采集数千家网络媒体信息,扩大新闻线索,提高采集速度。
n支持每天对数万条新闻进行有效抓取。监控范围的深度、广度可以自行设定。
n支持对所需内容智能提取、审核。
n实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。
4、行业网站应用
n实时跟踪、采集与网站相关的信息来源。
n及时跟踪行业的信息来源网站,自动,快速更新网站信息。动态更新信息。
n实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。
n针对商务网站提出商务管理模式,大大提高行业网站的商务应用需求。
n针对资讯网站分类目录生成,提出用户生成网站分类结构。并可以实时增加与更新分类结构。不受级数限制。从而大大利高行业的应用性。
n提供搜索引擎SEO优化专业服务,快速提高行业网站的推广。
n提供与CCDC呼叫搜索引擎的广告合作。建立行业网站联盟,提高行业网站知名度。
5)网络信息监察与监控
n网络舆情系统。如“千瓦通信-网络舆情雷达监测系统”
n网站信息与内容监察与监控系统,如“千瓦通信-网站信息与内容监测与监察系统(站内神探)”
随着因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就象大海捞
针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。目前,
搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。
搜索引擎(SearchEngine)是随着WEB信息的迅速增加,从1995年开始逐渐发展起来
的技术。据发表在《科学》杂志1999年7月的文章《WEB信息的可访问性》估计,全球目前
的网页超过8亿,有效数据超过9T,并且仍以每4个月翻一番的速度增长。用户要在如此浩
瀚的信息海洋里寻找信息,必然会"大海捞针"无功而返。搜索引擎正是为了解决这个"迷航
"问题而出现的技术。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解
、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎提供
的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为"网络门户"
。搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。本文旨在对搜索
引擎的关键技术进行简单的介绍,以起到抛砖引玉的作用。
分类
按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:
1.目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人
工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏
览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高
,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是
:Yahoo、LookSmart、OpenDirectory、GoGuide等。
2.机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互
联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输
入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜
索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关
信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:AltaVista、NorthernLigh
t、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:"天网"、悠游、O
penFind等。
3.元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜
索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用
户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更
全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引
擎的代表是WebCrawler、InfoMarket等。
性能指标
我们可以将WEB信息的搜索看作一个信息检索问题,即在由WEB网页组成的文档库中检索
出与用户查询相关的文档。所以我们可以用衡量传统信息检索系统的性能参数-召回率(R
ecall)和精度(Pricision)衡量一个搜索引擎的性能。
召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系
统(搜索引擎)的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量
的是检索系统(搜索引擎)的查准率。对于一个检索系统来讲,召回率和精度不可能两全
其美:召回率高时,精度低,精度高时,召回率低。所以常常用11种召回率下11种精度的
平均值(即11点平均精度)来衡量一个检索系统的精度。对于搜索引擎系统来讲,因为没
有一个搜索引擎系统能够搜集到所有的WEB网页,所以召回率很难计算。目前的搜索引擎系
统都非常关心精度。
影响一个搜索引擎系统的性能有很多因素,最主要的是信息检索模型,包括文档和查询
的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相
关度反馈的机制。
主要技术
一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。
1.搜索器
搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜
不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信
息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。目前有
两种搜集信息的策略:
●从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深
度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL,但常常
是一些非常流行、包含很多链接的站点(如Yahoo!)。
●将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽
搜索。搜索器搜集的信息类型多种多样,包括HTML、XML、Newsgroup文章、FTP文件、
字处理文档、多媒体信息。搜索器的实现常常用分布式、并行计算技术,以提高信息
发现和更新的速度。商业搜索引擎的信息发现可以达到每天几百万网页。
2.索引器
索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生
成文档库的索引表。
索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、
URL、更新时间、编码、长度、链接流行度(LinkPopularity)等等;内容索引项是用来
反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和
多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,
因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切
分。在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的区分
度,同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短
语索引项的提取方法有统计法、概率法和语言学法。
索引表一般使用某种形式的倒排表(InversionList),即由索引项查找相应的文档
。索引表也可能要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或
接近关系(proximity)。
索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时,必须实现即时
索引(InstantIndexing),否则不能够跟上信息量急剧增加的速度。索引算法对索引器
的性能(如大规模峰值查询时的响应速度)有很大的影响。一个搜索引擎的有效性在很大
程度上取决于索引的质量。
3.检索器检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与
查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。
检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。
4.用户接口
用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的
目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。
用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。
用户输入接口可以分为简单接口和复杂接口两种。
简单接口只提供用户输入查询串的文本框;复杂接口可以让用户对查询进行限制,如
逻辑运算(与、或、非;+、-)、相近关系(相邻、NEAR)、域名范围(如.edu、.com)
、出现位置(如标题、内容)、信息时间、长度等等。目前一些公司和机构正在考虑制定
查询选项的标准。
未来动向
搜索引擎已成为一个新的研究、开发领域。因为它要用到信息检索、人工智能、计算
机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和
技术,所以具有综合性和挑战性。又由于搜索引擎有大量的用户,有很好的经济价值,所
以引起了世界各国计算机科学界和信息产业界的高度关注,目前的研究、开发十分活跃,
并出现了很多值得注意的动向。
1.十分注意提高信息查询结果的精度,提高检索的有效性用户在搜索引擎上进行
信息查询时,并不十分关注返回结果的多少,而是看结果是否和自己的需求吻合。对于一
个查询,传统的搜索引擎动辄返回几十万、几百万篇文档,用户不得不在结果中筛选。解
决查询结果过多的现象目前出现了几种方法:一是通过各种方法获得用户没有在查询语句
中表达出来的真正用途,包括使用智能代理跟踪用户检索行为,分析用户模型;使用相关
度反馈机制,使用户告诉搜索引擎哪些文档和自己的需求相关(及其相关的程度),哪些
不相关,通过多次交互逐步求精。二是用正文分类(TextCategorization)技术将结果分
类,使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别。三是进行站点类
聚或内容类聚,减少信息的总量。
2.基于智能代理的信息过滤和个性化服务
信息智能代理是另外一种利用互联网信息的机制。它使用自动获得的领域模型(如We
b知识、信息处理、与用户兴趣相关的信息资源、领域组织结构)、用户模型(如用户背景
、兴趣、行为、风格)知识进行信息搜集、索引、过滤(包括兴趣过滤和不良信息过滤)
,并自动地将用户感兴趣的、对用户有用的信息提交给用户。智能代理具有不断学习、适
应信息和用户兴趣动态变化的能力,从而提供个性化的服务。智能代理可以在用户端进行
,也可以在服务器端运行。
3.采用分布式体系结构提高系统规模和性能
搜索引擎的实现可以采用集中式体系结构和分布式体系结构,两种方法各有千秋。但
当系统规模到达一定程度(如网页数达到亿级)时,必然要采用某种分布式方法,以提高
系统性能。搜索引擎的各个组成部分,除了用户接口之外,都可以进行分布:搜索器可以
在多台机器上相互合作、相互分工进行信息发现,以提高信息发现和更新速度;索引器可
以将索引分布在不同的机器上,以减小索引对机器的要求;检索器可以在不同的机器上.
索引擎(search engines)是对互联网上的信息资源进行搜集整理,然后供你查询的系统,它包括信息搜集、信息整理和用户查询三部分。 搜索引擎是一个为你提供信息“检索”服务的网站,它使用某些程序把因特网上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。 早期的搜索引擎是把因特网中的资源服务器的地址收集起来,由其提供的资源的类型不同而分成不同的目录,再一层层地进行分类。人们要找自己想要的信息可按他们的分类一层层进入,就能最后到达目的地,找到自己想要的信息。这其实是最原始的方式,只适用于因特网信息并不多的时候。随着因特网信息按几何式增长,出现了真正意义上的搜索引擎,这些搜索引擎知道网站上每一页的开始,随后搜索因特网上的所有超级链接,把代表超级链接的所有词汇放入一个数据库。这就是现在搜索引擎的原型。 随着yahoo!的出现,搜索引擎的发展也进入了黄金时代,相比以前其性能更加优越。现在的搜索引擎已经不只是单纯的搜索网页的信息了,它们已经变得更加综合化,完美化了。以搜索引擎权威yahoo!为例,从1995年3月由美籍华裔杨致远等人创办yahoo!开始,到现在,他们从一个单一的搜索引擎发展到现在有电子商务、新闻信息服务、个人免费电子信箱服务等多种网络服务,充分说明了搜索引擎的发展从单一到综合的过程。 然而由于搜索引擎的工作方式和因特网的快速发展,使其搜索的结果让人越来越不满意。例如,搜索“电脑”这个词汇,就可能有数百万页的结果。这是由于搜索引擎通过对网站的相关性来优化搜索结果,这种相关性又是由关键字在网站的位置、网站的名称、 标签等公式来决定的。这就是使搜索引擎搜索结果多而杂的原因。而搜索引擎中的数据库因为因特网的发展变化也必然包含了死链接。 这篇文章中,我们介绍了google,它是一个大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中应用广泛。Google的设计能够高效地抓网页并建立索引,它的查询结果比其它现有系统都高明。这个原型的全文和超连接的数据库至少包含24‘000‘000个网页。我们可以从 下载。 设计搜索引擎是一项富有挑战性的工作。搜索引擎为上亿个网页建立索引,其中包含大量迥然不同的词汇。而且每天要回答成千上万个查询。在网络中,尽管大型搜索引擎非常重要,但是学术界却很少研究它。此外由于技术的快速发展和网页的大量增加,现在建立一个搜索引擎和三年前完全不同。 本文详细介绍了我们的大型搜索引擎,据我们所知,在公开发表的论文中,这是第一篇描述地如此详细。除了把传统数据搜索技术应用到如此大量级网页中所遇到的问题,还有许多新的技术挑战,包括应用超文本中的附加信息改进搜索结果。 本文将解决这个问题,描述如何运用超文本中的附加信息,建立一个大型实用系统。任何人都可以在网上随意发布信息,如何有效地处理这些无组织的超文本集合,也是本文要关注的问题。 关键词 World Wide Web,搜索引擎,信息检索,PageRank, Google 1 绪论 Web 给信息检索带来了新的挑战。Web上的信息量快速增长,同时不断有毫无经验的新用户来体验Web这门艺术。人们喜欢用超级链接来网上冲浪,通常都以象Yahoo这样重要的网页或搜索引擎开始。大家认为List(目录)有效地包含了大家感兴趣的主题,但是它具有主观性,建立和维护的代价高,升级慢,不能包括所有深奥的主题。基于关键词的自动搜索引擎通常返回太多的低质量的匹配。使问题更遭的是,一些广告为了赢得人们的关注想方设法误导自动搜索引擎。 我们建立了一个大型搜索引擎解决了现有系统中的很多问题。应用超文本结构,大大提高了查询质量。我们的系统命名为google,取名自googol的通俗拼法,即10的100次方,这和我们的目标建立一个大型搜索引擎不谋而合。 1.1网络搜索引擎—升级换代(scaling up):1994-2000 搜索引擎技术不得不快速升级(scale dramatically)跟上成倍增长的web数量。1994年,第一个Web搜索引擎,World Wide Web Worm(WWWW)可以检索到110,000个网页和Web的文件。到1994年11月,顶级的搜索引擎声称可以检索到2‘000’000(WebCrawler)至100‘000’000个网络文件(来自 Search Engine Watch)。可以预见到2000年,可检索到的网页将超过1‘000’000‘000。同时,搜索引擎的访问量也会以惊人的速度增长。在1997年的三四月份,World Wide Web Worm 平均每天收到1500个查询。 在1997年11月,Altavista 声称它每天要处理大约20’000’000个查询。随着网络用户的增长,到2000年,自动搜索引擎每天将处理上亿个查询。我们系统的设计目标要解决许多问题,包括质量和可升级性,引入升级搜索引擎技术(scaling search engine technology),把它升级到如此大量的数据上。 1.2 Google:跟上Web的步伐(Scaling with the Web)建立一个能够和当今web规模相适应的搜索引擎会面临许多挑战。抓网页技术必须足够快,才能跟上网页变化的速度(keep them up to date)。存储索引和文档的空间必须足够大。索引系统必须能够有效地处理上千亿的数据。处理查询必须快,达到每秒能处理成百上千个查询(hundreds to thousands per second.)。随着Web的不断增长,这些任务变得越来越艰巨。然而硬件的执行效率和成本也在快速增长,可以部分抵消这些困难。 还有几个值得注意的因素,如磁盘的寻道时间(disk seek time),操作系统的效率(operating system robustness)。在设计Google的过程中,我们既考虑了Web的增长速度,又考虑了技术的更新。Google的设计能够很好的升级处理海量数据集。它能够有效地利用存储空间来存储索引。优化的数据结构能够快速有效地存取(参考4.2节)。进一步,我们希望,相对于所抓取的文本文件和HTML网页的数量而言,存储和建立索引的代价尽可能的小(参考附录B)。对于象Google这样的集中式系统,采取这些措施得到了令人满意的系统可升级性(scaling properties)。 1. 3设计目标 1.3.1提高搜索质量我们的主要目标是提高Web搜索引擎的质量。1994年,有人认为建立全搜索索引(a complete search index)可以使查找任何数据都变得容易。根据Best of the Web 1994 -- Navigators ,“最好的导航服务可以使在Web上搜索任何信息都很容易(当时所有的数据都可以被登录)”。然而1997年的Web就迥然不同。近来搜索引擎的用户已经证实索引的完整性不是评价搜索质量的唯一标准。用户感兴趣的搜索结果往往湮没在“垃圾结果Junk result”中。实际上,到1997年11月为止,四大商业搜索引擎中只 有一个能够找到它自己(搜索自己名字时返回的前十个结果中有它自己)。导致这一问题的主要原因是文档的索引数目增加了好几个数量级,但是用户能够看的文档数却没有增加。用户仍然只希望看前面几十个搜索结果。因此,当集合增大时,我们就需要工具使结果精确(在返回的前几十个结果中,有关文档的数量)。由于是从成千上万个有点相关的文档中选出几十个,实际上,相关的概念就是指最好的文档。高精确非常重要,甚至以响应(系统能够返回的有关文档的总数)为代价。令人高兴的是利用超文本链接提供的信息有助于改进搜索和其它应用 。尤其是链接结构和链接文本,为相关性的判断和高质量的过滤提供了大量的信息。Google既利用了链接结构又用到了anchor文本(见2.1和2.2节)。 1.3.2搜索引擎的学术研究随着时间的流逝,除了发展迅速,Web越来越商业化。1993年,只有1.5%的Web服务是来自.com域名。到1997年,超过了60%。同时,搜索引擎从学术领域走进商业。到现在大多数搜索引擎被公司所有,很少技公开术细节。这就导致搜索引擎技术很大程度上仍然是暗箱操作,并倾向做广告(见附录A)。Google的主要目标是推动学术领域在此方面的发展,和对它的了解。另一个设计目标是给大家一个实用的系统。应用对我们来说非常重要,因为现代网络系统中存在大量的有用数据(us because we think some of the most interesting research will involve leveraging the vast amount of usage data that is available from modern web systems)。例如,每天有几千万个研究。然而,得到这些数据却非常困难,主要因为它们没有商业价值。我们最后的设计目标是建立一个体系结构能够支持新的关于海量Web数据的研究。为了支持新研究,Google以压缩的形式保存了实际所抓到的文档。设计google的目标之一就是要建立一个环境使其他研究者能够很快进入这个领域,处理海量Web数据,得到满意的结果,而通过其它方法却很难得到结果。系统在短时间内被建立起来,已经有几篇论文用到了Google建的数据库,更多的在起步中。我们的另一个目标是建立一个宇宙空间实验室似的环境,在这里研究者甚至学生都可以对我们的海量Web数据设计或做一些实验。 2. 系统特点 Google搜索引擎有两个重要特点,有助于得到高精度的搜索结果。 第一点,应用Web的链接结构计算每个网页的Rank值,称为PageRank,将在98页详细描述它。 第二点,Google利用超链接改进搜索结果。 2.1 PageRank:给网页排序 Web的引用(链接)图是重要的资源,却被当今的搜索引擎很大程度上忽视了。我们建立了一个包含518‘000’000个超链接的图,它是一个具有重要意义的样本。这些图能够快速地计算网页的PageRank值,它是一个客观的标准,较好的符合人们心目中对一个网页重要程度的评价,建立的基础是通过引用判断重要性。因此在web中,PageRank能够优化关键词查询的结果。对于大多数的主题,在网页标题查询中用PageRank优化简单文本匹配,我们得到了令人惊叹的结果(从google.stanford.edu可以得到演示)。对于Google主系统中的全文搜索,PageRank也帮了不少忙。 2.1.1计算PageRank 文献检索中的引用理论用到Web中,引用网页的链接数,一定程度上反映了该网页的重要性和质量。PageRank发展了这种思想,网页间的链接是不平等的。 PageRank定义如下: 我们假设T1…Tn指向网页A(例如,被引用)。参数d是制动因子,使结果在0,1之间。通常d等于0.85。在下一节将详细介绍d。C(A)定义为网页A指向其它网页的链接数,网页A的PageRank值由下式给出: PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) 注意PageRank的形式,分布到各个网页中,因此所有网页的PageRank和是1。 PageRank或PR(A)可以用简单的迭代算法计算,相应规格化Web链接矩阵的主特征向量。中等规模的网站计算26‘000’000网页的PageRank值要花费几小时。还有一些技术细节超出了本文论述的范围。 2.1.2直觉判断 PageRank被看作用户行为的模型。我们假设网上冲浪是随机的,不断点击链接,从不返回,最终烦了,另外随机选一个网页重新开始冲浪。随机访问一个网页的可能性就是它的PageRank值。制动因子d是随机访问一个网页烦了的可能性,随机另选一个网页。对单个网页或一组网页,一个重要的变量加入到制动因子d中。这允许个人可以故意地误导系统,以得到较高的PageRank值。我们还有其它的PageRank算法,见98页。 另外的直觉判断是一个网页有很多网页指向它,或者一些PageRank值高的网页指向它,则这个网页很重要。直觉地,在Web中,一个网页被很多网页引用,那么这个网页值得一看。一个网页被象Yahoo这样重要的主页引用即使一次,也值得一看。如果一个网页的质量不高,或者是死链接,象Yahoo这样的主页不会链向它。PageRank处理了这两方面因素,并通过网络链接递归地传递。 nbsp; 2.2链接描述文字(Anchor Text)我们的搜索引擎对链接文本进行了特殊的处理。大多数搜索引擎把链接文字和它所链向的网页(the page that the link is on)联系起来。另外,把它和链接所指向的网页联系起来。这有几点好处。 第一,通常链接描述文字比网页本身更精确地描述该网页。 第二,链接描述文字可能链向的文档不能被文本搜索引擎检索到,例如图像,程序和数据库。有可能使返回的网页不能被抓到。注意哪些抓不到的网页将会带来一些问题。在返回给用户前检测不了它们的有效性。这种情况搜索引擎可能返回一个根本不存在的网页,但是有超级链接指向它。然而这种结果可以被挑出来的,所以此类的问题很少发生。链接描述文字是对被链向网页的宣传,这个思想被用在World Wide Web Worm 中,主要因为它有助于搜索非文本信息,能够用少量的已下载文档扩大搜索范围。我们大量应用链接描述文字,因为它有助于提高搜索结果的质量。有效地利用链接描述文字技术上存在一些困难,因为必须处理大量的数据。现在我们能抓到24‘000’000个网页,已经检索到259‘000’000多个链接描述文字。 2.3其它特点除了PageRank和应用链接描述文字外,Google还有一些其它特点。 第一,所有hit都有位置信息,所以它可以在搜索中广泛应用邻近性(proximity)。 第二,Google跟踪一些可视化外表细节,例如字号。黑体大号字比其它文字更重要。 第三,知识库存储了原始的全文html网页。 3有关工作 Web检索研究的历史简短。World Wide Web Worm()是最早的搜索引擎之一。后来出现了一些用于学术研究的搜索引擎,现在它们中的大多数被上市公司拥有。与Web的增长和搜索引擎的重要性相比,有关当今搜索引擎技术的优秀论文相当少。根据Michael Mauldin(Lycos Inc的首席科学家)) ,“各种各样的服务(包括Lycos)非常关注这些数据库的细节。”虽然在搜索引擎的某些特点上做了大量工作。具有代表性的工作有,对现有商业搜索引擎的结果进行传递,或建立小型的个性化的搜索引擎。最后有关信息检索系统的研究很多,尤其在有组织机构集合(well controlled collections)方面。在下面两节,我们将讨论在信息检索系统中的哪些领域需要改进以便更好的工作在Web上。 3.1信息检索信息检索系统诞生在几年前,并发展迅速。然而大多数信息检索系统研究的对象是小规模的单一的有组织结构的集合,例如科学论文集,或相关主题的新闻故事。实际上,信息检索的主要基准,the Text Retrieval Conference(),用小规模的、有组织结构的集合作为它们的基准。 大型文集基准只有20GB,相比之下,我们抓到的24000000个网页占147GB。在TREC上工作良好的系统,在Web上却不一定产生好的结果。例如,标准向量空间模型企图返回和查询请求最相近的文档,把查询请求和文档都看作由出现在它们中的词汇组成的向量。在Web环境下,这种策略常常返回非常短的文档,这些文档往往是查询词再加几个字。例如,查询“Bill Clinton”,返回的网页只包含“Bill Clinton Sucks”,这是我们从一个主要搜索引擎中看到的。网络上有些争议,用户应该更准确地表达他们想查询什么,在他们的查询请求中用更多的词。我们强烈反对这种观点。如果用户提出象“Bill Clinton”这样的查询请求,应该得到理想的查询结果,因为这个主题有许多高质量的信息。象所给的例子,我们认为信息检索标准需要发展,以便有效地处理Web数据。 3.2有组织结构的集合(Well Controlled Collections)与Web的不同点 Web是完全无组织的异构的大量文档的集合。Web中的文档无论内在信息还是隐含信息都存在大量的异构性。例如,文档内部就用了不同的语言(既有人类语言又有程序),词汇([email]地址,链接,邮政编码,电话号码,产品号),类型(文本,HTML,PDF,图像,声音),有些甚至是机器创建的文件(log文件,或数据库的输出)。可以从文档中推断出来,但并不包含在文档中的信息称为隐含信息。隐含信息包括来源的信誉,更新频率,质量,访问量和引用。不但隐含信息的可能来源各种各样,而且被检测的信息也大不相同,相差可达好几个数量级。例如,一个重要主页的使用量,象Yahoo 每天浏览数达到上百万次,于此相比无名的历史文章可能十年才被访问一次。很明显,搜索引擎对这两类信息的处理是不同的。 Web与有组织结构集合之间的另外一个明显区别是,事实上,向Web上传信息没有任何限制。灵活利用这点可以发布任何对搜索引擎影响重大的信息,使路由阻塞,加上为牟利故意操纵搜索引擎,这些已经成为一个严重的问题。这些问题还没有被传统的封闭的信息检索系统所提出来。它关心的是元数据的努力,这在Web搜索引擎中却不适用,因为网页中的任何文本都不会向用户声称企图操纵搜索引擎。甚至有些公司为牟利专门操纵搜索引擎。 4 系统分析(System Anatomy)首先,我们提供高水平的有关体系结构的讨论。然后 ,详细描述重要的数据结构。最后,主要应用:抓网页,索引,搜索将被严格地检查。 Figure 1. High Level Google Architecture 4.1Google体系结构概述这一节,我们将看看整个系统是如何工作的(give a high level),见图1。本节不讨论应用和数据结构,在后几节中讨论。为了效率大部分Google是用c或c++实现的,既可以在Solaris也可以在Linux上运行。 Google系统中,抓网页(下载网页)是由几个分布式crawlers完成的。一个URL服务器负责向crawlers提供URL列表。抓来的网页交给存储服务器storeserver。然后,由存储服务器压缩网页并把它们存到知识库repository中。每个网页都有一个ID,称作docID,当新URL从网页中分析出时,就被分配一个docID。由索引器和排序器负责建立索引index function。索引器从知识库中读取文档,对其解压缩和分析。每个文档被转换成一组词的出现情况,称作命中hits。Hits纪录了词,词在文档中的位置,最接近的字号,大小写。索引器把这些hits分配到一组桶barrel中,产生经过部分排序后的索引。索引器的另一个重要功能是分析网页中所有的链接,将有关的重要信息存在链接描述anchors文件中。该文件包含了足够的信息,可以用来判断每个链接链出链入节点的信息,和链接文本。 URL分解器resolver阅读链接描述anchors文件,并把相对URL转换成绝对URL,再转换成docID。为链接描述文本编制索引,并与它所指向的docID关联起来。同时建立由docID对组成的链接数据库。用于计算所有文档的PageRank值。用docID分类后的barrels,送给排序器sorter,再根据wordID进行分类,建立反向索引inverted index。这个操作要恰到好处,以便几乎不需要暂存空间。排序器还给出docID和偏移量列表,建立反向索引。一个叫DumpLexicon的程序把这个列表和由索引器产生的字典结合在一起,建立一个新的字典,供搜索器使用。这个搜索器就是利用一个Web服务器,使用由DumpLexicon所生成的字典,利用上述反向索引以及页面等级PageRank来回答用户的提问。 4.2主要数据结构经过优化的Google数据结构,能够用较小的代价抓取大量文档,建立索引和查询。虽然近几年CPU和输入输出速率迅速提高。磁盘寻道仍然需要10ms。任何时候Google系统的设计都尽可能地避免磁盘寻道。这对数据结构的设计影响很大。 4.2.1大文件大文件BigFiles是指虚拟文件生成的多文件系统,用长度是64位的整型数据寻址。多文件系统之间的空间分配是自动完成的。BigFiles包也处理已分配和未分配文件描述符。由于操纵系统不能满足我们的需要,BigFiles也支持基本的压缩选项。 4.2.2知识库 Figure 2. Repository Data Structure 知识库包含每个网页的全部HTML。每个网页用zlib(见RFC1950)压缩。压缩技术的选择既要考虑速度又要考虑压缩率。我们选择zlib的速度而不是压缩率很高的bzip。知识库用bzip的压缩率接近4:1。而用zlib的压缩率是3:1。文档一个挨着一个的存储在知识库中,前缀是docID,长度,URL,见图2。访问知识库不需要其它的数据结构。这有助于数据一致性和升级。用其它数据结构重构系统,我们只需要修改知识库和crawler错误列表文件。 4.2.3文件索引文件索引保存了有关文档的一些信息。索引以docID的顺序排列,定宽ISAM(Index sequential access mode)。每条记录包括当前文件状态,一个指向知识库的指针,文件校验和,各种统计表。如果一个文档已经被抓到,指针指向docinfo文件,该文件的宽度可变,包含了URL和标题。否则指针指向包含这个URL的URL列表。这种设计考虑到简洁的数据结构,以及在查询中只需要一个磁盘寻道时间就能够访问一条记录。还有一个文件用于把URL转换成docID。它是URL校验和与相应docID的列表,按校验和排序。要想知道某个URL的docID,需要计算URL的校验和,然后在校验和文件中执行二进制查找,找到它的docID。通过对这个文件进行合并,可以把一批URL转换成对应的docID。URL分析器用这项技术把URL转换成docID。这种成批更新的模式是至关重要的,否则每个链接都需要一次查询,假如用一块磁盘,322‘000’000个链接的数据集合将花费一个多月的时间。 4.2.4词典词典有几种不同的形式。和以前系统的重要不同是,词典对内存的要求可以在合理的价格内。现在实现的系统,一台256M内存的机器就可以把词典装入到内存中。现在的词典包含14000000词汇(虽然一些很少用的词汇没有加入到词典中)。它执行分两部分—词汇表(用null分隔的连续串)和指针的哈希表。不同的函数,词汇表有一些辅助信息,这超出了本文论述的范围。 4.2.5 hit list hit list是一篇文档中所出现的词的列表,包括位置,字号,大小写。Hit list占很大空间,用在正向和反向索引中。因此,它的表示形式越有效越好。我们考虑了几种方案来编码位置,字号,大小写—简单编码(3个整型数),紧凑编码(支持优化分配比特位),哈夫曼编码。Hit的详细信息见图3。我们的紧凑编码每个hit用2字节。有两种类型hit,特殊hit和普通hit。特殊hit包含URL,标题,链接描述文字,meta tag。普通hit包含其它每件事。它包括大小写特征位,字号,12比特用于描述词在文档中的位置(所有超过4095的位置标记为4096)。字号采用相对于文档的其它部分的相对大小表示,占3比特(实际只用7个值,因为111标志是特殊hit)。特殊hit由大小写特征位,字号位为7表示它是特殊hit,用4比特表示特殊hit的类型,8比特表示位置。对于anchor hit八比特位置位分出4比特用来表示在anchor中的位置,4比特用于表明anchor出现的哈希表hash of the docID。短语查询是有限的,对某些词没有足够多的anchor。我们希望更新anchor hit的存储方式,以便解决地址位和docIDhash域位数不足的问题。
所谓长尾关键词就是非目标关键词但也可以带来搜索流量的关键词。这类词最大的特征是词本身很长但流量不高却很精准,从一定程度上说是无穷多个的,而且随时会根据用户群体和时间的变化而变化,最简单的理解就是长尾关键词就是用户常常搜索的短语或句子,是网站优化关键词的扩展。
一、什么是长尾关键词
教科书般的解释:长尾关键词是目标关键词的延伸,随着seo行业的发展,网络优化变的越来越细分化,个人认为长尾关键词没有固定的定义,它是一个延伸物。在网络营销行业中,长尾关键词通常是指网站上非目标关键词但也可以带来搜索流量的关键词。
二、长尾关键词主要特点
1、比较长,往往是2-3个词组成,甚至是短语。
2、存在于内容页面,除了内容页的标题,还存在于内容中。
3、搜索量非常少,并且不稳定,可控性低,变数大。举个例子,就拿苹果手机来说,“苹果手机”是核心关键词,自然是流量大指数很大的,“苹果手机充电包炸”这是长尾关键词,我想如果不是新闻报出来苹果手机充电包炸,应该没几个人搜索这个词。在新闻刚爆出来的时候“苹果手机充电包炸”这个长尾关键词无疑会产生很大的流量,但是当整件事情的热度过去以后,新闻不在报道了,那搜索这个词的用户会减少,流量也会随之大幅度降低。从下图2013年苹果手机包炸长尾词指数图中指数的线性反应就能很好的证明这一点
4、长尾关键词带来的客户,转化为网站产品客户的概率比目标关键词高。关于这个我举个例子说明下,比如搜索北京SEO的用户当中,会有SEO同行,SEO爱好者,SEO工作者。但是搜索北京SEO优化价格,北京SEO优化公司哪个好的用户,就很明显是需要SEO服务的。虽然这些词平时搜索来那个比较少,但是一旦搜索,就很可能是你的客户。
5、存在大量长尾关键词的大中型网站,其带来的总流量非常大。这个很好理解的吧,把新浪的网址复制到站长工具,查询下关键词库的关键词就明白了。
从这几点来看,长尾关键词不是单纯为了排名而来的,是为了流量,更是为了潜在的目标用户。因为长尾关键词竞争力相对小上很多,从长尾关键词更容易优化,对于内容较多的网站来说优化长尾是引流量极佳的选择。
三、如何快速挖掘长尾关键词
1、按照用户的搜索习惯,将目标关键词进行扩展。
也就是说围绕某个目标关键词进行思路发散展开,增加一些修饰词短语。这个就要自己对这个行业比较熟,才能扩展出更多的词。比如阿峰是做北京seo的,那我就可以这样扩展我的长尾关键词:北京seo公司、北京最好的seo公司、北京seo博客等等,千万记住,一定要符合用户的搜索习惯,不可生搬硬套。我不能将关键词做成“北京seo第一名”吧,看起来很美,实际没一点价值。
2、挖掘地域性长尾关键词
地域性长尾关键词主要是地区+目标关键词组成,这些词一般来说竞价推广不是很多,竞争度也不是很大。这些词没有做竞价推广不是因为他没有利用价值,而是大家都觉得这些词 竞争度不大,靠人为优化的成本要比做竞价经济得多。但是阿峰上面已经说过了搜索这种词的人都是有比较大的购买意向。
举个例子来说下要怎么操作
快到中秋了就拿安琪月饼举例子吧,大家都知道安琪月饼是深圳生产的。如果您的客户只是深圳本地的,那么您的关键词就可以这样设置“深圳安琪月饼、深圳安琪月饼团购、深圳安琪月饼有限公司、深圳安琪月饼批发等等。为什么要设置这些长尾关键词了,因为这就是用户需求的体现,阿峰也是通过工具查询出来的,不是随意捏造,如下图分别是“深圳安琪月饼”和“安琪月饼”的用户需求体现。如图深圳安琪月饼长尾词挖掘
3、搜索引擎的相关搜索
不管你做百度还是谷歌,搜索引擎本身都是你最好的老师。百度或者谷歌相关搜索可以说是挖掘长尾关键词最好的工具。一般我们搜索某个目标关键词的时候,搜索引擎的搜索框会出现相关搜索词,还有搜索引擎底部相关搜索也会出现一些相关的关键词,这些就是我们要找的长尾关键词,我们可以顺着下面的词,不断点击进去,会收集越来越多的长尾词。这些就是和主关键词相关的长尾关键词了,不过你想到的别人也都想到了,这些词一般竞争也是很激烈的。有一点需要铭记,就是在搜索之前一定要清理浏览器换从,否则就不准确了。如图是搜索北京SEO的长尾词:
4、可以通过分析竞争对手网站等来获取
这一招可用可不用,因为这一招成功与失败完全取决于你的竞争对手的水平,如果你的竞争对手自己做的都不好,你再怎么研究分析分析,也研究不出个所以然来。就想射雕英雄传上面的江南七怪,自己武功就差的要死,还教郭靖,把郭靖教的和白痴一样,后来转头洪七公门下,那武功蹭蹭上升。
5、利用百度知道等一些问答平台。
各种各样的知道问答平台,也是长尾关键词挖掘的宝藏。为什么这样说了?你想下当你遇到问题了不知道怎么办想在网上求助的时候是不是会想到百度知道了?百度知道会将用户的提问进行分类识别,会刷选出用户最常提的问题推荐,这便是我们所需要的。
6、用户利用流量统计工具
一般网站运营一段时间后,我们就可以通过流量统计系统来挖掘长尾关键词了,分析统计对我们的SEO和网站运营非常有帮助,所以大家要养成看统计的习惯。我们可以知道用户是通过搜索什么关键词进来的,可以看到哪些页面用户停留时间最长。百度统计工具就能很好体现用户需求挖掘长尾关键词。
7、利用百度推广进行挖掘
百度将列出搜索数据库中与这个推广关键词相关关键词的搜索量,不过你需要有百度蜂巢系统账号。
8、使用专门的关键词挖掘工具
在第2条挖掘地域性长尾关键词之中,上传的图片讲就是通过关键词挖掘工具挖出来的。
总结:对于长尾关键词来说,不管是大站还是小站都可以着手优化,因为长尾为直接带来的就是流量,进而转化为成交单。虽然向我这样的站点并不存在什么转化率的问题 只为排名和交流。但是流量同样可以作为影响关键词排名的因素之一,也是很多站长想要提高的关键点。对于长尾关键词的挖掘,其实需要的不是那么多的方法,而 是站长们的眼光,只要将一种方式用到极致就可一为网站带来巨大的流量,可不能贪多嚼不烂
1、首先准备一张需要用来搜索的图片,例如章子怡的这张图片。
2、然后打开浏览器,在浏览器的搜索框里面点击摄像头图标。
3、点击了之后,会出现下图的窗口,点击本地上传图片。
4、在电脑上面找到需要用来搜索的图片,选择打开。
5、将它上传之后,就可等待系统自动识别,识别之后就可以搜索到相关的结果了。
简单点
输入关键字进行搜索就行了
详细点
学会应用这些符号
+
-
/
“”
百度搜索使用了高性能的“网络蜘蛛”程序(Spider)自动的在互联网中搜索信息,可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息。百度搜索在中国和美国均设有服务器,搜索范围涵盖了中国大陆、香港、台湾、澳门、新加坡等华语地区以及北美、欧洲的部分站点。百度搜索引擎目前已经拥有世界上最大的中文信息库,总量达到6000万页以上,并且还在以每天超过30万页的速度不断增长。
基本搜索
百度搜索引擎简单方便。
仅需输入查询内容并敲一下回车键(Enter),即可得到相关资料。
或者输入查询内容后,用鼠标点击“百度搜索”按钮,也可得到相关资料。
输入的查询内容可以是一个词语、多个词语、一句话。
例如:可以输入[李白]、[mp3 下载]、[蓦然回首,那人却在,灯火阑珊处。]
百度搜索引擎严谨认真,要求“一字不差”。
例如:分别搜索 [舒淇] 和 [舒琪] ,会得到不同的结果。
因此在搜索时,您可以试用不同的词语。
输入多个词语搜索
输入多个词语搜索(不同字词之间用一个空格隔开),可以获得更精确的搜索结果。
例如:想了解北京暂住证相关信息,在搜索框中输入
获得的搜索效果会比输入 [北京暂住证] 得到的结果更好。
在百度查询时不需要使用符号"AND"或"+",百度会在多个以空格隔开的词语之间自动添加"+"。
百度提供符合您全部查询条件的资料,并把最相关的网页排在前列。
减除无关资料
有时候,排除含有某些词语的资料有利于缩小查询范围。
百度支持“-”功能,用于有目的地删除某些无关网页,但减号之前必须留一空格。
例如,要搜寻关于“武侠小说”,但不含“古龙”的资料,可使用如下查询:
并行搜索
使用“A|B”来搜索“或者包含词语A,或者包含词语B”的网页。
例如:您要查询“图片”或“写真”相关资料,无须分两次查询,只要输入 [图片|写真] 搜索即可。 百度会提供跟“|”前后任何字词相关的资料,并把最相关的网页排在前列。
相关检索
如果您无法确定输入什么词语才能找到满意的资料,可以试用百度相关检索。
您可以先输入一个简单词语搜索,然后,百度搜索引擎会为您提供“其它用户搜索过的相关搜索词语”作参考。您点击其中一个相关搜索词,都能得到那个相关搜索词的搜索结果。
百度快照
百度搜索引擎已先预览各网站,拍下网页的快照,为用户贮存大量的应急网页。
点击每条搜索结果后的“百度快照”,可查看该网页的快照内容。
百度快照不仅下载速度极快,而且您搜索用的词语均已用不同颜色在网页中标明。
原网页随时可能更新,跟百度快照内容不同,请注意查看新版。
百度和网页作者无关,不对网页的内容负责。
搜索结果页指南A. 搜索框
在这里,您仅需输入查询内容并敲一下回车键(Enter),即可得到相关资料。
或者,您输入查询内容后,用鼠标点击“百度搜索”按钮,也可得到相关资料。
B. 百度搜索按钮
您只要点击此按钮,或敲“Enter”(回车键),百度搜索引擎便开始搜索。
C. 在结果中查询
选中该项后,重新输入查询内容,可在当前搜索结果中进行精确搜索。
D. 搜索结果统计
这是有关搜索结果数量、您输入的词语、以及搜索时间的统计。
E. 相关检索
百度搜索引擎会为您提供“其它用户搜索过的相关搜索词语”作参考。您点击其中一个相关搜索词,都能得到那个相关搜索词的搜索结果。
F. 竞价排名服务链接
这是介绍百度搜索引擎竞价排名服务的链接。
G. 网页标题
这是搜索结果中该网页的标题。点击该网页标题可直达该网页。
H. 网页网址(url)
这是搜索结果中该网页的网址(url)。
I. 网页大小
这个数字是这一网页文本部份的大小。
J. 网页时间
这是该网页生成的时间。
K. 网页语言
说明该网页主要文字是哪一种。
L. 网页简介
通常是网页开始部分的摘要。其中您输入搜索的词语,都已高亮显示,以便阅读。
M. 百度快照
点击每条搜索结果后的“百度快照”,可查看该网页的快照内容。
百度搜索引擎已先预览各网站,拍下网页的快照,为用户贮存大量的应急网页。
百度快照不仅下载速度极快,而且您搜索用的词语均已用不同颜色在网页中标明。
N. 网站类聚更多结果
为了便于您阅读更多网站的内容,百度搜索引擎已经自动为您作类聚,每个网站(或频道)只显示一个最相关网页的信息。
点击此链接,可查看该网站(或频道)内更多的相关网页。
常见问题解答如何缩小搜索范围?
有时会得到过多的搜索结果。要得到更精确的资料,您可以"在结果中搜索"。您只要在搜索框中输入多个词语,即可缩小搜索范围。
或者,在您想删除的词语前加上减号"-"(切记要在减号前留一个空格位)。
为什么我找不到资料?
百度的统计表明,用户找不到资料的两个最常见原因,一是输入的词语中含有错别字,二是未使用多个词语搜索。
搜索引擎并不理解网页上的内容,只会找出跟您输入的词语相关的网页。
所以,输入[斑竹]、[以德制国]搜索,是找不到跟“版主”、“以德治国”相关资料的;
输入[现代爱情故事歌词]、[铃羊车的各种图案]、[上海到成都列车时刻表],也是找不到相关资料的。使用多个词语搜索才能获得更多跟好的资料,所以您搜索时应该输入的是[现代爱情故事 歌词]、[铃羊车 图案]、[上海 成都 列车时刻表]。
简体和繁体有无影响?
只要是标准编码,就没有影响。
在百度搜索引擎,您输入标准编码的繁体中文或简体中文,都可以同时搜到繁体中文和简体中文网页。并且,搜索结果中的繁体网页摘要信息会自动转成简体中文,方便您阅读。
英文字母大小写有无影响?
百度搜索引擎不区分英文字母大小写。所有的字母均当做小写处理。
例如:输入"oicq",或"OICQ",或"oIcQ",结果都是一样的。
百度搜霸技巧
上网不会搜索,就无异于网盲。然而,搜索也需要一定的技巧的,掌握了这些技巧,会使您事半功倍。百度搜索引擎不但提供最基本的搜索功能,还提供了很多常用的非常有个性的搜索功能(请看这里)。今天就为大家再介绍几招有关百度搜霸的使用技巧,为你的家庭生活添加一位精明的管家。
使用百度搜霸之前,首先要进行安装,这样她才会在你的IE中安家(下载地址: )。安装好后的百度搜霸如下图浅蓝色方框所示。
1、查询股票信息
投身股海的朋友,股票的涨跌就是他的第一信息需求,随时随地得知自己股票的价格,这可是他梦寐以求的事啊。有了百度搜霸,保你梦想成真。
不需要安装专业的股票软件,更谈不上收取软件注册费,只要在搜霸的搜索栏里输入您的股票代码(什么?代码忘记了!,那你还炒什么股啊,回家卖红薯算了),轻点鼠标或按下回车键,股票信息已跃然屏上!只要有网络,您便可Any Time Any Where,方便吧。
以“青岛啤酒”为例,在搜霸搜索栏内输入股票代码600600,鼠标轻轻点击“搜索”,“青岛啤酒”便会出现在头版头条,就是这么简单(见下图)。
剩下的自己去看吧
写到这里,本文关于相关搜索和的介绍到此为止了,如果能碰巧解决你现在面临的问题,如果你还想更加了解这方面的信息,记得收藏关注本站。
评论