搜
索
引
擎
分
类
搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(
Full Text Search Engine
)、目录索引类搜索引擎(
Search Index/Directory
)和元搜索引擎(
Meta Search
Engine
)。
■
全文搜索引擎
全文搜索引擎是名副其实的搜索引擎,国外具代表性的有
Google
、
Fast/AllTheWeb
、
AltaVista
、
Inktomi
、
Teoma
、
WiseNut
等,国内著名的有百度(
Baidu
)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。
从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(
Indexer
),俗称“蜘蛛”(
Spider
)程序或“机器人”(
Robot
)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的
7
家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如
Lycos
引擎。
■
目录索引
目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(
Keywords
)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的
Yahoo
雅虎。其他著名的还有
Open Directory
Project
(
DMOZ
)、
LookSmart
、
About
等。国内的搜狐、新浪、网易搜索也都属于这一类。
■
元搜索引擎
(META Search Engine)
元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有
InfoSpace
、
Dogpile
、
Vivisimo
等(
元搜索引擎列表
),中文元搜索引擎中具代表性的有
搜星搜索引擎
。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如
Dogpile
,有的则按自定的规则将结果重新排列组合,如
Vivisimo
。
除上述三大类引擎外,还有以下几种非主流形式:
1
、集合式搜索引擎:如
HotBot
在
2002
年底推出的引擎。该引擎类似
META
搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的
4
个引擎当中选择,因此叫它“集合式”搜索引擎更确切些。
2
、门户搜索引擎:如
AOL Search
、
MSN Search
等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。
3
、免费链接列表(
Free For All
Links
,简称
FFA
):这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起
Yahoo
等目录索引来要小得多。
由于上述网站都为用户提供搜索查询服务,为方便起见,我们通常将其统称为搜索引擎。
搜索引擎基本工作原理
了解搜索引擎的工作原理对我们日常搜索应用和网站提交推广都会有很大帮助。
■
全文搜索引擎
在
搜索引擎分类
部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如
Google
一般是
28
天),搜索引擎主动派出“蜘蛛”程序,对一定
IP
地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。
另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(
2
天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。
当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置
/
频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。
........................................................................................
■
目录索引
与全文搜索引擎相比,目录索引有许多不同之处。
首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。
其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象
Yahoo!
这样的超级索引,登录更是困难。(由于登录
Yahoo!
的难度最大,而它又是商家网络营销必争之地,所以我们会在后面用专门的篇幅介绍
登录
Yahoo
雅虎的技巧
)
此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(
Directory
)。
最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。
目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。
目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如
Google
就借用
Open Directory
目录提供分类查询。而象
Yahoo!
这些老牌目录索引则通过与
Google
等搜索引擎合作扩大搜索范围
(注)
。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如
Yahoo
。
(注)
:
Yahoo
已于
2004
年
2
月正式推出自己的全文搜索引擎,并结束了与
Google
的合作。
著名搜索引擎简介
Yahoo!
——
搜索引擎之王,最早的目录索引之一,也是目前最重要的搜索服务网站,在全部互联网搜索应用中所占份额高达
36%
左右。除主站(
Mother Yahoo
)外,还设有美国都会城市分站(
Yahoo Cities
,如芝加哥分站)、国别分站(如雅虎中国)和国际地区分站(如
Yahoo Asia
)。其数据库中的注册网站无论是在形式上还是内容上质量都非常高。
Yahoo
属于目录索引类搜索引擎,可以通过两种方式在上面查找信息,一是通常的关键词搜索,一是按分类目录逐层查找。以关键词搜索时,网站排列基于分类目录及网站信息与关键字串的相关程度。包含关键词的目录及该目录下的匹配网站排在最前面。以目录检索时,网站排列则按字母顺序。
Yahoo
于
2004
年
2
月推出了自己的全文搜索引擎,并将默认搜索设置为网页搜索。
登录
Yahoo
非常困难,而且周期很难确定,最快的只需数天,一般历时
1
个月左右,最长的可达
2
个月!如果你的网站不符合要求,也有可能永远登录不上。目前
Yahoo
对商业网站登录目录均要收取一定的费用,免费登录只对非盈利网站开放。
由于
Yahoo
靠人工操作甄选网站,且评判标准十分严格,因此是公认最难登录的搜索引擎。但它对我们网络营销的作用举足轻重,尤其是对商业网站而言,因为
Yahoo
不仅是全球范围内最著名的互联网品牌,而且也是最具影响力的企业资料库,所以我们无论如何也要想方设法跻身其中(有关登录
Yahoo
的详细介绍请参阅
登录
Yahoo
雅虎技巧全解
一节)。
Open Directory
Project (ODP)
是仅次于
Yahoo
的人工操作目录索引类搜索引擎。与
Yahoo
不同的是,
Open Directory Project (ODP)
的编辑人员均为志愿者,而非其雇员。
目前其志愿编辑人数已达数万人。
ODP
在网站结构和内容上与
Yahoo
类似。除独立提供搜索服务外,还与包括
Google
、
Lycos
、
DirectHit
(注)
、
Ask Jeeves
、
AOL
、
Netscape Search
、
AltaVista
、
Fast/AllTheWeb
等在内的其他众多搜索引擎进行合作,这些引擎通常借用
ODP
向用户提供目录注册,有的更是把来自
ODP
的注册网站排在显要位置。
以前相对
Yahoo
来说,登录
ODP
的周期要短得多,一般为
2
周左右,这跟它编辑人数众多有关系。但据用户反映,现阶段登陆
ODP
已非常困难,有时甚至半年也登录不上。这当中的原因是多方面的。
据
ODP
编辑人员称用户不负责任地随意登陆是其中最主要问题。比如将网站提交到不合适的目录,网站标题和描述不符合规定,网站信息中充斥着过多的关键词等等,无形中增加了编辑人员的工作量,造成提交的网站无法及时得到处理。
鉴于上述原因,我们在将网站登陆到
ODP
时,要对提交的信息仔细地进行斟酌,尽量不给编辑人员造成额外的负担。
(注)
DirectHit
已于
2002
年
4
月被其母公司
Ask Jeeves
关闭
Google
成立于
1997
年,几年间迅速发展成为目前规模最大的搜索引擎,并向
AOL
、
Compuserve
、
Netscape
等其他门户和搜索引擎提供后台网页查询服务。
目前
Google
每天处理的搜索请求已达
2
亿次!而且这一数字还在不断增长。
Google
数据库存有
42.8
亿个
Web
文件。属于全文(
Full Text
)搜索引擎。
Google
提供常规及高级搜索功能。在高级搜索中,用户可限制某一搜索必须包含或排除特定的关键词或短语。该引擎允许用户定制搜索结果页面所含信息条目数量,可从
10
到
100
条任选。提供网站内部查询和横向相关查询。
Google
还提供特别主题搜索,如:
Apple Macintosh
,
BSD Unix
,
Linux
和大学院校搜索等。
Google
允许以多种语言进行搜索,在操作界面中提供多达
30
余种语言选择,包括英语、主要欧洲国家语言(含
13
种东欧语言)、日语、中文简繁体、朝语等。同时还可以在多达
40
多个国别专属引擎中进行选择。
搜索规则:以关键词搜索时,返回结果中包含全部及部分关键词;短语搜索时默认以精确匹配方式进行;不支持单词多形态(
Word Stemming
)和断词(
Word Truncation
)查询;字母无大小写之分,默认全部为小写。
搜索结果显示网页标题,链接(
URL
)及网页字节数,匹配的关键词以粗体显示。其他特色功能包括“网页快照”(
Snap Shot
),即直接从数据库缓存(
Cache
)中调出该页面的存档文件,而不实际连接到网页所在的网站(图象等多媒体元素仍需从目标网站下载),方便用户在预览网页内容后决定是否访问该网站,或者在网页被删除或暂时无法连接时,方便用户查看原网页的内容
(注:国内用户目前暂时无法使用
Google
的网页快照)
。
Google
借用
Dmoz
的目录索引提供分类目录查询,但默认网站排列顺序并非按照字母顺序,而是根据网站
PageRank
™的分值高低排列。
Google
的“蜘蛛”程序名为“
Googlebot
”,
Google
一般每隔
28
天派出“蜘蛛”程序检索现有网站一定
IP
地址范围内的新网站,而对现有网站的更新则根据该网站的等级不同有快慢之分。一般来说,网站网页等级越高,更新的频率就越快。
有关
Google
使用方法的详细介绍,请参阅搜索专题
Google
搜索从入门到精通
V4.0
。
Google
相关链接
:
·
Google
搜索全接触
·
Google
关键词广告(
Google Adwords
™)
网站排名基本原则
.....................................................................................
在搜索引擎的“远古”时代,搜索结果的排列只是以搜索引擎在数据库中找到匹配网页的先后次序排列,但人们很快意识到这种搜索根本是无效的。实际上用户在信息检索时,最关心的是如何在最短时间内找到想要的东西,因此对搜索引擎提出了更高的要求,即不仅限于简单返回数据库检索结果,还应该对这些结果进行再加工,判断哪些最符合用户搜索意图,然后优先排列最匹配的网页。这便是搜索引擎发挥作用的最基本原则——
相关性原则
,有人更是将之上升为搜索引擎的“第一定律”。
从搜索引擎登录角度上看,相关性原则对网站也意义非凡。我们总是想让自己的网站信息优先出现在搜索结果中,以便吸引更多的访问者,因此了解搜索引擎在网站排名方面的一些规则,对于我们登录搜索引擎并获得理想的搜索排名会有相当大的帮助。
由于网页“相关性”是我们进行网页优化的最终目的,因此需要对其做进一步的探讨。
所谓相关性,就是指网站信息符合搜索条件的程度。搜索引擎在判断关联性时,基本上是根据网页中关键词的“匹配
/
位置
/
频次”原则,就是说网站内容中的字词、词组或短语与用户输入的关键词越匹配,出现的次数越多,则该网站的关联程度越高,在搜索结果中排名也越靠前。
随着互联网规模的不断发展,搜索引擎技术也在不断完善。为了给用户提供更有价值的搜索服务,目前各引擎在原有相关性基础上,逐步在排名规则中引入了网站主题和受欢迎程度的概念,具体体现为:一个网站的内容主题越集中,相关的外部链接越多,网站获得的点击率越高,则排名会越靠前。
当然万变不离其宗,这一切还是要基于信息关联的基础上的。即使你的网站主题突出,很受访问者的欢迎,但如果内容与用户的搜索条件不符,你仍旧是无法获得好名次的。这一点不难理解。
posted on 2006-09-04 15:06
sea 阅读(322)
评论(0) 编辑 收藏 引用 所属分类:
SEO技术