link 在百度中link并不是一个指令,而是一个普通的关键词。当在百度的搜索栏中输入“link:(域名)”时,百度会把“link:(域名)”当做一个关键词来查询,查询的结果也就是包含这个关键词的所有的页面,和普通的关键词查询是一样的,这个并不是查询到的反向链接。 在Google中,查询的就是反向链接了,但需要注意的是这只包含网站部分的反向链接。如果想要查询全部的那就求助于Google网站管理员工具来查网站所有反向链接。 Yahoo中的查询方法又和Google有所区别,需要加上“http://”即link:http://(域名)。注意:域名前加或者不加www查询结果是不一样的。 domain 百度,搜索框中输入“domain:(域名)”,搜索结果是包含关键字词组((域名))的所有网页,就相当于直接搜索了“xxx”。此外,如果你想了解有多少个网页包含了你的网址,这个指令同样可以帮助你。 在Google中的意义就相当于Link在百度中的意义一样,只是一个关键词。 在Yahoo中,与 site使用是一样的,它可以查找域名下的所有收录网页。
反向链接其实就是在目标文档内部进行声明。换言之,常规链接在文档A中标明“指向文档B”,而反向链接则在文档B中要求“使文档A指向我”。 概述 假设把网页文档A中包含的指向B的链接命名为“A-B”,则对B来说这个“A-B”即为一个反向链接。 网页文档 对某个网页文档来说,所有来自其他文档指向自己的链接都叫“反向链接”。一个网页文档的反向链接越多,说明这个文档的“知名度”或“支持率”越高。
逻辑是思维的规律,其实在学生时代任课老师总是会为我们引导此思维模式。逻辑思维缜密的人往往总是有一番成就的,结合在网站优化中的同样可以带给网站不一样的优化成果。 逻辑优化时代已到,结合了高等微积分公式的优化方式是成功引领SEO走向最新时代的先驱者。整合前人之谈,今天笔者分享的经验之谈就是关于逻辑优化下的网站推广。 网站优化中一直存在着一个比较客观的优化公式:SEO=∫Clock=∫C1+L2+K3+O4。 1、∫是一个积分符号,C=content,L=link,K=keywords,O=others。SEO就是一个长期的对“时间”积分过程,内容是核心; 2、C1—丰富的内容是第一位的要素,按照原创、伪原创、转载依次排列内容的重要性满足用户体验; 3、L2—链接的合理与丰富是第二位的要素,合理有效的内部链接与丰富的外部链接同等重要,而外部链接中高度相关性高Pr值页面尤为重要; 4、K3—关键字因素是第三位的重要因素,包括:合理的Title、Description、Keywords、页面关键字及相关关键字的密度与合理布局; 5、O4—其它因素,比如:域名、站龄、服务器、网站架构、排版、布局、Url、地图等等。 这个优化公式出现的时期还是以SEOer崇尚外链的年代,但是我们不难看出此优化专家的先见之明。网站内容是其考虑的第一要素,这就跟当下以用户体验为主的搜索引擎主张不谋而合了。这也是笔者小丹将该公式再次挖掘出来与大家共享的原因。 逻辑网络优化时代,spider的体验很重要,同时用户体验更加重要,结合前人的优化公式,我们现在可以将网站优化总结为:SEO=用户体验(UE)+spider体验(SE)。在优化思路上我们也是不见仅局限于网站内容、网站架构和外链,而是深入其更细节的html代码标签的优化运用。 1、网页title的优化,根据首页、栏目页、内容页的不同而设置不同的title; 2、关键词的选取,根据网站所处的行业,结合竞争对手的关键词设定网站关键词; 3、关键词(keywords)优化,利用SEO优化技巧,针对不同行业关键词制定不同的优化方式; 4、元标签及网页描述的优化,不要忽视蜘蛛对于网页的描述,这部分是最能给网站优化加分的环节; 5、网站结构和URL优化,简化网站结构,给网络用户和搜索引擎机器人干净的代码程序; 6、SEO中的正则表达式,根据上面的优化公式合理的进行网站优化工作; 7、让搜索引擎按您的意图行进,抓住spider规律,合理安排你的优化工作,让你来“主宰”搜索引擎工作; 8、网页链接的优化,将网站的栏目页和内容页的相关内容进行链接,使得spider无论从哪个页面都有“路”可寻; 9、heading标签的优化,善于使用H标题,这样可以帮助搜索引擎鉴别不同内容的权重问题; 10、图片(alt)优化,图片描述在网站优化中部必不可少的,不仅能够增加页面的关键词密度,还可在网络不给力时给用户准确的信息说明; 11、网页减肥,网页的DIV+CSS重构,JavaScript脚本代码的减肥,网页其他部分的减肥; 12、建立一个利于SEO的网站,这个网站不是必须另辟空间,亦可以搭建在其他的新闻源信息平台厂,SEOer经常利用时间去养博客、论坛、百度空间等,就是这个原因了。
白帽SEO SEO白帽是一种公正的手法,是使用符 合主流搜索引擎发行方针规定的SEO优化方法。一直被业内认为是最佳的SEO手法,它是在避免一切风险也避免了与搜索引擎发行方针发生任何的冲突,它也是 SEOer从业者的最高职业道德标准。 因为搜索引擎是以文本为中心,许多有助于网页亲和力的同样手段同样便利于搜索引擎优化。这些方法包括优化图形内 容、包括ALT属性、和增加文本说明。甚至Flash动画可于设计该页时包括替代性内容,这本来用来给访客无法阅读Flash的环境用的,来帮助优化。 黑帽SEO 笼统的说,所有使用作弊手段或可疑手段的,都可以称为黑帽SEO。比如说垃圾链接,隐藏网页,刷IP流量,桥页,关键词堆砌等等。SEO黑帽是一种不为 搜索引擎所支持的违规行为,因为黑帽SEO挑战了行业道德底线,因此为被广大白帽SEO而所不齿。垃圾索引(Spamdexing)意指通过欺骗技术和滥 用搜索算法来推销毫不相关、主要以商业为着眼的网页。许多搜索引擎管理员认为任何搜索引擎优化的形式,其目的用来改进站点的页排名者,都是垃圾索引。然 而,随时间流逝,业界内公众舆论发展出哪些是哪些不是可接受的、促进某站的搜索引擎排名与流量结果的手段。 灰帽SEO SEO灰帽 是指介于白帽与黑帽之间的中间地带。对于白帽而言,会采取一些取巧的手法,这些行为因为不算违规,但同样也不遵守规则,是为灰色地带。它注重了优化的整体 与局部的方方面面。SEO灰帽追求的是某种程度的中庸。SEO灰帽是白帽和黑帽手法的结合体,既考虑长期利益,也要考虑短期收益问题。
1、分析工具 受欢迎的一款SEO工具,一个免费版,功能有关键词分析过滤,关键词排名跟踪,另外,最给力的作用的就是分析关键字的竞争程度,包括获得搜索引擎前20名得网站的竞争分析报告,也就是知彼,让你了解你的对手网站的状况,例如的PR值,外链数量,DMOZ和yahoo是否收录情况,页面标签使用状况,和一个简单的关键字优化难易程度,免费版的一些限制,比如:不能导出分析结果。 2、反链检测 一个强力检测网站的反向链接的网站工具,它可以精确的查找到链向你站的网址,也可以查你的对手网站,再建立相同的外链,缩短你的网站与对手的距离),和出站链接,并给出相应的PR、OBL、FLAG值,这一点对广大站长朋友是非常方便的,针对的优化。 3、全站死链检测 Xenu是一款功能能简单的全站死链检测工具。 4、火狐插件) 方说有50万站长使用件,通过这个工具可以快速查看网页排名,并且很快看到页面的反向链接来自什么地方。 5、火狐插件) 一款强大的工具,在分析竞争对手的信息时,以前需要在搜索引擎上查询很多次,而使用Quake可以方便的查看结果记录中的相关信息。 6、外链对比 比雅虎外链查询还强大的外链接查询对比工具,这两个都是,大名鼎鼎的moz开发的工具,被认为是用来代替基于自己的链接数据库。游客只能查询前200个链接,注册用户可查询1000个链接。在性能上没有第一个)优秀。 7、反链检测工具 是一个反向链接检测工具,和第二个)一样,可以作为补充。 8、关键词排名检测工具 专业人士经常使用的关键词排名检测工具,它可以“检查”和“追踪”在多个搜索引擎,包括,雅虎,Bing,Ask和AOL上的排名并且能跟踪排名在搜索引擎上的结果。 9、检测关键词排名工具 个很好用的检查搜索引擎排名工具,它为你省去了自己去检查搜索引擎结果页的麻烦。 10、自动增加外链 一个自动增加反向链接的网站,用户在页脚放入反向链接代码后,你的网址会自动链接到PR值比你高的相关内容网页上,但同时你也要链接其他相关网页,有点类似于国内的批量链接交换,这对于做英文站优化,却又苦于找不到链接的站长来说是个不错的增加外链的方式。
导航 请确保你的网站导航(网址导航)都是以html的形式链接。所有页面之间应该有广泛的互联,要满足站内任何页面可以通过回连到达主页,如果无法实现这一点,可以考虑建立一个网站地图。 首页 网站的首页(home或index页等)应该采用文本的形式,而不是flash等。这个文本里面要包含你的目标关键字或目标短语。 标签 这是关键词标签 这是描述标签 PR值算法 PR(A) =(PR(B) /L(B)+PR(C) /L(C)+PR(D)/L(D)+...+PR(N)/L(N))q+1-q 其中,PR(A):指网页A的佩奇等级(PR值) PR(B)、PR(C)...PR(N)表示链接网页A的网页N的佩奇等级(PR)。N是链接的总数,这个链接可以是来自任何网站的导入链接(反向链接)。 L(N):网页N往其他网站链接的数量(网页N的导出链接数量) q:阻尼系数,介于0-1之间,google设为0.85 链接场(Link Farm) 在 SEO 术语中,链接场是指一个充满链接的页面,这些链接其实没有实际作用,它们只作为链接存在,而没有任何实际的上下文。那些采用运用黑帽 SEO 方法的人利用链接场,在一个页面中增加大量链接,希望能通过这种方式使 Google 误认为这个页面很有链接的价值。 交互链接(Reciprocal Link) 也称作双向链接,是对一个网页不光有超文本链接,同时对应有和原始网页的链接。 有机列表(Organic Listing) 有机列表是 SERP 中的免费列表。有机列表的 SEO 通常涉及改进 Web 站点的实际内容,这往往是在页面或基础架构级别进行的。 PageRank PageRank是迷恋Google的人们用来测试其站点在 Google 中的排名的一种度量标准。SEO 和搜索引擎营销(SEM)专家也使用这个术语描述网页在 SERP 中的排名以及 Google 根据排名算法给予站点的分数。无论如何定义,PageRank 都是 SEO 的重要部分。 付费列表(Paid Listing) 顾名思义,付费列表就是只有在付费后才能列入搜索引擎的服务。根据搜索引擎的不同,付费列表可能意味着:为包含于索引之中、每次点击(PPC)、赞助商链接(Sponsored Link)或者在搜索目标关键词和短语时让站点出现在 SERP 中的其他方式而付费。 永久重定向(Permanent Redirect) 也被称为301 重定向,是一条对网站浏览器的指令来显示浏览器被要求显示的不同的URL,当一个网页经历过其URL 的最后一次变化以后时使用。一个永久定向是一种服务器端的重定向,能够被搜索引擎蜘蛛适当地处理。 排名(Ranking) 排名是页面在目标关键词的SERP中列出的位置。SEO 的目标是提高 Web 页面针对目标关键词的排名。 排名算法(Ranking Algorithm) 排名算法是搜索引擎用来对其索引中的列表进行评估和排名的规则。排名算法决定哪些结果是与特定查询相关的。 搜索引擎营销(Search Engine Marketing,SEM) SEM 这个术语可以与 SEO 互换使用,但 SEM 常常是指通过付费和广告向搜索引擎推销 Web 站点,同时应用 SEO 技术。 搜索引擎优化(Search Engine Optimization,SEO) SEO 就是根据对搜索引擎的吸引力和可见性来优化内容,从而使 Web 页面能够被搜索引擎选中。SEO 主要用来提高有机列表的排名。我使用SEO这个术语描述我推荐的技术,但是其中许多技术也可以归入 SEM 的范畴。 搜索引擎结果页面(Search Engine Results Page,SERP) SERP 是为特定搜索显示的列表或结果。SERP 有时候定义为搜索引擎结果的安排(placement)。根据本系列的目的,我将其称为页面而不是安排。在SEO领域中,在SERP中取得良好的表现就是一切。 垃圾技术(Spamming) 垃圾技术是一种欺诈性的SEO手段,它尝试欺骗爬行器(Spider),并利用排名算法中的漏洞来影响针对目标关键词的排名。垃圾技术可以表现为多种形式,但是 “垃圾技术” 最简单的定义是 Web 站点用来伪装自己并影响排名的任何技术。 关键字隐密字 (Hidden Text With Keyword Stuffing) 是另外一欺骗搜索引擎的做法。通常是指设置关键字的颜色和网页背景颜色一样,或通过 CSS Hidden Attribute (隐密特性) 来达到优化效果。这种做法一旦被Google发现,遭遇也会是该站点从Google的数据库中除名。 爬行器(Spider) 爬行器在 Web 上漫游,寻找要添加进搜索引擎索引中的列表。爬行器有时也称为 Web 爬行榜(Webcrawler)或机器人。针对有机列表优化页面也就是为了吸引爬行器的注意。 在SEO中过多使用flash和Ajax技术,会给搜索引擎带来很多麻烦,搜索引擎还不能很好地索引由flash、ajax表现的网页,原因就是搜索引擎只索引页面,而不会索引应用程序。 还有即使搜索引擎做到了完全解释Flash文件或者ajax应用程序,并能分析和索引它们的相关内容,也还是没有任何办法使用url导航应用程序,对排 名没有一点帮助。搜索引擎的主要目标的是将搜索结果提交给用户,但当处理这些媒体信息时,搜索引擎将无法排列这些信息的顺序。总之,Flash和Ajax 将会带来更多有创意的设计,也会带来更难侦测的垃圾网站形式。 谷歌索引的Flash,给的建议就是,网站设计者应该仅在需要使用Flash和 Ajax的地方使用它,应该主要还是多使用HTML语言设计网站,而将Flash和Ajax作为辅助技术,为用户提供切实的好处。通常,HTML和 JavaScript的混合也基本可以达到使用这些技术的效果。也就是说,在使用Flash和Ajax时应把它们当成页面上的单元,而不是页面本身。 Link Popularity 网站的链接广泛度。 在搜索引擎排名中的作用已得到广泛的认同和重视。实际上,即使你没有在GOOGLE上提交你的站点,但与其它网站作了链接,Google也可能收录你的网站。搜索引擎还可能完全依据你的链接广泛度决定你的网站排名。 Internal Links 内部链接:本网站内部网页之间的链接 External Links外部链接:本网站外部的链接,一般是指其他网站连到本网站的链接 Backward Links或Incoming/Inbound Links反向/导入链接:意义与“外部链接”接近,指其他网站连到本网站的链接 Outgoing/Outbound Links导出链接:指从本网站连到其他网站的链接 Search Engine Positioning 搜索引擎定位 Search Engine Ranking 搜索引擎排名 External Files外部文件存储 把JavaScript文件和CSS文件分别放在JS和CSS外部文件中。这样做的好处是把重要的页面内容放到页面顶部,同时能缩小文件大小。有利于搜索引擎快速准确地抓取页面重要内容。 Keyword Density 关键词密度 ROBOTS 搜索机器人 Affiliate Marketing 联属网络营销(会员制营销、网站联盟等) 联属网络营销 指的是一种网站A为网站B放置广告按钮,然后从为网站B带来的销售额中获得回佣的一种广告系统。某些广告主通过这种方式获得市场信息而不是现金销售。这种方式被营销费用比较紧张的新网站采用得比较普遍。 Cost-Per-Click (简称CPC)按点击数付费 联属网络营销管理系统记录每个客人在联属会员网站上点击到商家网站的文字的或者图片的链接(或者Email链接)次数,商家(Merchant)按每个点击多少钱的方式支付广告费。 Cost-Per-Lead (简称CPL)或Cost-Per-Acquisition (简称CPA) 按引导数付费或访问者通过联属会员的链接进入商家网站后,如果填写并提交了某个表单,管理系统就会产生一个对应给这个联属会员的引导(Lead)记录,商家按引导记录数给会员付费。 Cost-Per-Sale (简称CPS) 按销售额付费 商家只在联属会员的链接介绍的客人在商家网站上产生了实际的购买行为后(大多数是在线支付)才给联属会员付费,一般是设定一个佣金比例(销售额的10%到50%不等)。 Pay For Performance (按效果付费) 联属营销按效果付费的营销方式无论对于商家还是联属会员都是比较容易接受的。由于网站的自动化流程越来越完善,在线支付系统也越来越成熟,越来越多的联 属网络营销系统采用按销售额付费的方法。由于这种方法对商家来说是一种零风险的广告分销方式,商家也愿意设定比较高的佣金比例,这样就使得这种方式的营销 系统被越来越多地采用。 Open Directory Project (简称ODP) 目录索引 Full Text Search Engine 全文搜索引擎 Search Index/Directory 目录索引类搜索引擎 META Search Engine 元搜索引擎 Spider 俗称“蜘蛛” Indexer 检索程序 Free For All Links (简称FFA)免费链接列表 Stop Words/Filter Words 停用词/过滤词 这两者意义一样,都是指一些太常用以至没有任何检索价值的单词,搜索引擎碰到这些词时一般都会过滤掉。因此为节省空间,应尽量避免使用这一类的词,尤其是在对文字数量有严格限制的地方。 Spam:搜索引擎垃圾技术的统称 Frame Sets 框架结构 有些搜索引擎(如FAST)是不支持框架结构的,他们的“蜘蛛”程序无法阅读这样的网页。 Image Maps 图象区块 当“蜘蛛”程序遇到这种结构时,往往会感到茫然不知所措。因此尽量不要设置Image Map链接。 Dynamic Pages 动态网页 通过程序和数据库连接制作的网页,任何地址中带“?”号、“&”号(及其他类似符号)的网页都会把“蜘蛛”程序挡在门外。 Invisable/hidden text 隐藏文本内容 意欲在不影响网站美观的前提下通过包含大量关键词的网页提高关键词相关性得分,从而达到改善搜索引擎排名的目的。 Invisable/hidden links 隐藏链接 意欲在不影响网站美观的前提下通过在其它页面添加指向目标优化页的隐形链接,通过提升链接得分而改善搜索引擎排名。 Misleading Words 误导性关键词 在页面中使用与该网页毫不相干的误导性关键词来吸引查询该主题的访问者访问网站。这种做法严重影响了搜索引擎所提供结果的相关性和客观性,为搜索引擎所深恶痛绝。 Repeated Words 重复性关键词 这种作弊技术也被称为“关键词堆砌欺骗(Keyword Stuffing)”,它利用搜索引擎对网页正文和标题中出现的关键词的高度关注来对关键词进行不合理的(过度)重复。类似的其它做法还包括在HTML元 标识中大量堆砌关键字或使用多个关键字元标识来提高关键词的相关性。这种技术很容易被搜索引擎察觉并受到相应惩罚。 Keyword Stuffing 关键词堆砌 Cloaked Page 隐形页面 对实际访问者或搜索引擎任一方隐藏真实网站内容,以向搜索引擎提供非真实的搜索引擎友好的内容提升排名。 Deceptive redirects 欺骗性重定向 指把用户访问的第一个页面(着陆页)迅速重定向至一个内容完全不同的页面。 Shadow Domain 鬼域 这是最常见的欺骗性重定向技术,通过欺骗性重定向使用户访问另外一个网站或页面。 Meta Refresh刷新标识 Doorway Page 门页 也叫“Bridge/Portal/Jump/Entry Page”。是为某些关键字特别制作的页面,专为搜索引擎设计,目的是提高特定关键词在搜索引擎中的排名所设计的富含目标关键词的域名,且重定向至另一域 名的真实网站。搜索引擎的Spiders往往忽略对那些自动重定向到其它页的页面的检索。 Mirror Sites镜象站点 通过复制网站或网页的内容并分配以不同域名和服务器,以此欺骗搜索引擎对同一站点或同一页面进行多次索引。大多数搜索引擎都提供有能够检测镜象站点的适当的过滤系统,一旦发觉镜象站点,则源站点和镜象站点都会被从索引数据库中删除。 Link Spamming 作弊链接/恶意链接 link farms 链接工厂 Bulk Link Exchange Programs大宗链接交换程序 Cross Link交叉链接 Doorway Domain 门域 专为提高特定关键词在搜索引擎中的排名所设计的富含目标关键词的域名,然后重定向至其它域名的主页。由于搜索引擎一般忽略自动重定向至其它页的页面的检索,所以不提倡使用这种技术。
蜘蛛 搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也称为机器人(bot)。 蜘蛛代理名称: 百度蜘蛛:Baiduspider+(+http://www.baidu.com/search/spider.htm) · 雅虎中国蜘蛛:Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html) · 英文雅虎蜘蛛:Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp) Google 蜘蛛:Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) · 微软 Bing 蜘蛛:msnbot/1.1 (+http://search.msn.com/msnbot.htm)· 搜狗蜘蛛: Sogou+web+robot+(+http://www.sogou.com/docs/help/webmasters.htm#07) · 搜搜蜘蛛:Sosospider+(+http://help.soso.com/webspider.htm) · 有道蜘蛛:Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/; ) 跟踪链接 为了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到下一个页面,就好像蜘蛛在蜘蛛网上爬行那样,这也就是搜索引擎蜘蛛这个名称的由来。最简单的爬行遍历策略分为两种,一是深度优先,二是广度优先。 深度优先搜索 深度优先搜索就是在搜索树的每一层始终先只扩展一个子节点,不断地向纵深前进直到不能再前进(到达叶子节点或受到深度限制)时,才从当前节点返回到上一级节点,沿另一方向又继续前进。这种方法的搜索树是从树根开始一枝一枝逐渐形成的。 深度优先搜索亦称为纵向搜索。由于一个有解的问题树可能含有无穷分枝,深度优先搜索如果误入无穷分枝(即深度无限),则不可能找到目标节点。所以,深度优先搜索策略是不完备的。另外,应用此策略得到的解不一定是最佳解(最短路径)。 广度优先搜索 在深度优先搜索算法中,是深度越大的结点越先得到扩展。如果在搜索中把算法改为按结点的层次进行搜索, 本层的结点没有搜索处理完时,不能对下层结点进行处理,即深度越小的结点越先得到扩展,也就是说先产生 的结点先得以扩展处理,这种搜索算法称为广度优先搜索法。 在深度优先搜索算法中,是深度越大的结点越先得到扩展。如果在搜索中把算法改为按结点的层次进行搜索, 本层的结点没有搜索处理完时,不能对下层结点进行处理,即深度越小的结点越先得到扩展,也就是说先产生 的结点先得以扩展处理,这种搜索算法称为广度优先搜索法。 吸引蜘蛛 哪些页面被认为比较重要呢?有几方面影响因素: · 网站和页面权重。质量高、资格老的网站被认为权重比较高,这种网站上的页面被爬行的深度也会比较高,所以会有更多内页被收录。 · 页面更新度。蜘蛛每次爬行都会把页面数据存储起来。如果第二次爬行发现页面与第一次收录的完全一样,说明页面没有更新,蜘蛛也就没有必要经常抓取。如果页面内容经常更新,蜘蛛就会更加频繁地访问这种页面,页面上出现的新链接,也自然会被蜘蛛更快跟踪,抓取新页面。 · 导入链接。无论是外部链接还是同一个网站的内部链接,要被蜘蛛抓取就必须有导入链接进入页面,否则蜘蛛根本没有机会知道页面的存在。高质量的导入链接也经常使页面上的导出链接被爬行深度增加。一般来说网站上权重最高的是首页,大部分外部链接是指向首页,蜘蛛访问最频繁的也是首页。离首页点击距离越近,页面权重越高,被蜘蛛爬行的机会也越大。 地址库 为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现还没有抓取的页面,以及已经被抓取的页面。地址库中的uRL有几个来源: (1)人工录入的种子网站。 (2)蜘蛛抓取页面后,从HTML中解析出新的链接uRL,与地址库中的数据进行对比,如果是地址库中没有的网址,就存入待访问地址库。 (3)站长通过搜索引擎网页提交表格提交进来的网址。 蜘蛛按重要性从待访问地址库中提取uRL,访问并抓取页面,然后把这个uRL从待访问地址库中删除,放进已访问地址库中。 大部分主流搜索引擎都提供一个表格,让站长提交网址。不过这些提交来的网址都只是存入地址库而已,是否收录还要看页面重要性如何。搜索引擎所收录的绝大部分页面是蜘蛛自己跟踪链接得到的。可以说提交页面基本t是毫无用处的,搜索引擎更喜欢自己沿着链接发现新页面。 文件存储搜索引擎蜘蛛抓取的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。每个uRI,都有一个独特的文件编号。 爬行时的复制内容检测 检测并删除复制内容通常是在下面介绍的预处理过程中进行的,但现在的蜘蛛在爬行和抓取文件时也会进行定程度的复制内容检测。遇到权重很低的网站上大量转载或抄袭内容时,很可能不再继续爬行。这也就是有的站长在日志文件中发现了蜘蛛,但页面从来没有被真正收录过的原因。 预处理 在一些SEO材料中,“预处理”也被简称为“索引”,因为索引是预处理最主要的步骤。 搜索引擎蜘蛛抓取的原始页面,并不能直接用于查询排名处理。搜索引擎数据库中的页面数都在数万亿级别以上,用户输入搜索词后,靠排名程序实时对这么多页面分析相关性,计算量太大,不可能在一两秒内返回排名结果。因此抓取来的页面必须经过预处理,为最后的查询排名做好准备。 和爬行抓取一样,预处理也是在后台提前完成的,用户搜索时感觉不到这个过程。 1.提取文字 现在的搜索引擎还是以文字内容为基础。蜘蛛抓取到的页面中的HTML代码,除了用户在浏览器上可以看到的可见文字外,还包含了大量的HTML格式标签、 JavaScript程序等无法用于排名的内容。搜索引擎预处理首先要做的就是从HTML文件中去除标签、程序,提取出可以用于排名处理的网页面文字内 容。 今天愚人节哈 除去HTML代码后,剩下的用于排名的文字只是这一行: 今天愚人节哈 除了可见文字,搜索引擎也会提取出一些特殊的包含文字信息的代码,如Meta标签中的文字、图片替代文字、Flash文件的替代文字、链接锚文字等。 2.中文分词 分词是中文搜索引擎特有的步骤。搜索引擎存储和处理页面及用户搜索都是以词为基础的。英文等语言单词与单词之间有空格分隔,搜索引擎索引程序可以直接把句子 划分为单词的集合。而中文词与词之间没有任何分隔符,一个句子中的所有字和词都是连在一起的。搜索引擎必须首先分辨哪几个字组成一个词,哪些字本身就是一 个词。比如“减肥方法”将被分词为“减肥”和“方法”两个词。 中文分词方法基本上有两种,一种是基于词典匹配,另一种是基于统计。 基于词典匹配的方法是指,将待分析的一段汉字与一个事先造好的词典中的词条进行匹配,在待分析汉字串中扫描到词典中已有的词条则匹配成功,或者说切分出一个单词。 按照扫描方向,基于词典的匹配法可以分为正向匹配和逆向匹配。按照匹配长度优先级的不同,又可以分为最大匹配和最小匹配。将扫描方向和长度优先混合,又可以产生正向最大匹配、逆向最大匹配等不同方法。 词典匹配方法计算简单,其准确度在很大程度上取决于词典的完整性和更新情况。 基于统计的分词方法指的是分析大量文字样本,计算出字与字相邻出现的统计概率,几个字相邻出现越多,就越可能形成一个单词。基于统计的方法的优势是对新出现的词反应更快速,也有利于消除歧义。 基于词典匹配和基于统计的分词方法各有优劣,实际使用中的分词系统都是混合使用两种方法的,快速高效,又能识别生词、新词,消除歧义。 中文分词的准确性往往影响搜索引擎排名的相关性。比如在百度搜索“搜索引擎优化”,从快照中可以看到,百度把“搜索引擎优化”这六个字当成一个词。 而在Google搜索同样的词,快照显示Google将其分切为“搜索引擎”和“优化”两个词。显然百度切分得更为合理,搜索引擎优化是一个完整的概念。Google分词时倾向于更为细碎。 这种分词上的不同很可能是一些关键词排名在不同搜索引擎有不同表现的原因之一。比如百度更喜欢将搜索词完整匹配地出现在页面上,也就是说搜索“够戏博客” 时,这四个字连续完整出现更容易在百度获得好的排名。Google就与此不同,不太要求完整匹配。一些页面出现“够戏”和“博客”两个词,但不必完整匹配 地出现,“够戏”出现在前面,“博客”出现在页面的其他地方,这样的页面在Google搜索“够戏博客”时,也可以获得不错的排名。 搜索引擎对页面的分词取决于词库的规模、准确性和分词算法的好坏,而不是取决于页面本身如何,所以SEO人员对分词所能做的很少。唯一能做的是在页面上用某种形 式提示搜索引擎,某几个字应该被当做一个词处理,尤其是可能产生歧义的时候,比如在页面标题、h1标签及黑体中出现关键词。如果页面是关于“和服”的内 容,那么可以把“和服”这两个字特意标为黑体。如果页面是关于“化妆和服装”,可以把“服装”两个字标为黑体。这样,搜索引擎对页面进行分析时就知道标为 黑体的应该是一个词。 3.去停止词 无论是英文还是中文,页面内容中都会有一些出现频率很 高,却对内容没有任何影响的词,如“的”、“地”、“得”之类的助词,“啊”、“哈”、“呀”之类的感叹词,“从而”、“以”、“却”之类的副词或介词。 这些词被称为停止词,因为它们对页面的主要意思没什么影响。英文中的常见停止词有the,a,an,to,of等。 搜索引擎在索引页面之前会去掉这些停止词,使索引数据主题更为突出,减少无谓的计算量。 4.消除噪声 绝 大部分页面上还有一部分内容对页面主题也没有什么贡献,比如版权声明文字、导航条、广告等。以常见的博客导航为例,几乎每个博客页面上都会出现文章分类、 历史存档等导航内容,但是这些页面本身与“分类”、“历史”这些词都没有任何关系。用户搜索“历史”、“分类”这些关键词时仅仅因为页面上有这些词出现而 返回博客帖子是毫无意义的,完全不相关。所以这些区块都属于噪声,对页面主题只能起到分散作用。 搜索引擎需要识别并消除这些噪声,排名时不使用噪声内容。消噪的基本方法是根据HTML标签对页面分块,区分出页头、导航、正文、页脚、广告等区域,在网站上大量重复出现的区块往往属于噪声。对页面进行消噪后,剩下的才是页面主体内容。 5.去重 搜索引擎还需要对页面进行去重处理。 同 一篇文章经常会重复出现在不同网站及同一个网站的不同网址上,搜索引擎并不喜欢这种重复性的内容。用户搜索时,如果在前两页看到的都是来自不同网站的同一 篇文章,用户体验就太差了,虽然都是内容相关的。搜索引擎希望只返回相同文章中的一篇,所以在进行索引前还需要识别和删除重复内容,这个过程就称为“去 重”。 去重的基本方法是对页面特征关键词计算指纹,也就是说从页面主体内容中选取最有代表性的一部分关键词(经常是出现频率最高的关键 词),然后计算这些关键词的数字指纹。这里的关键词选取是在分词、去停止词、消噪之后。实验表明,通常选取10个特征关键词就可以达到比较高的计算准确 性,再选取更多词对去重准确性提高的贡献也就不大了。 典型的指纹计算方法如MD5算法(信息摘要算法第五版)。这类指纹算法的特点是,输入(特征关键词)有任何微小的变化,都会导致计算出的指纹有很大差距。 了 解了搜索引擎的去重算法,SEO人员就应该知道简单地增加“的”、“地”、“得”、调换段落顺序这种所谓伪原创,并不能逃过搜索引擎的去重算法,因为这样 的操作无法改变文章的特征关键词。而且搜索引擎的去重算法很可能不止于页面级别,而是进行到段落级别,混合不同文章、交叉调换段落顺序也不能使转载和抄袭 变成原创。 6.正向索引 正向索引也可以简称为索引。 经过文字提取、分词、 消噪、去重后,搜索引擎得到的就是独特的、能反映页面主体内容的、以词为单位的内容。接下来搜索引擎索引程序就可以提取关键词,按照分词程序划分好的词, 把页面转换为一个关键词组成的集合,同时记录每一个关键词在页面上的出现频率、出现次数、格式(如出现在标题标签、黑体、H标签、锚文字等)、位置(如页 面第一段文字等)。这样,每一个页面都可以记录为一串关键词集合,其中每个关键词的词频、格式、位置等权重信息也都记录在案。 搜索引擎索引程序将页面及关键词形成词表结构存储进索引库。简化的索引词表形式如表2-1所示。 每个文件都对应一个文件ID,文件内容被表示为一串关键词的集合。实际上在搜索引擎索引库中,关键词也已经转换为关键词ID.这样的数据结构就称为正向索引。 7.倒排索引 正向索引还不能直接用于排名。假设用户搜索关键词2,如果只存在正向索引,排名程序需要扫描所有索引库中的文件,找出包含关键词2的文件,再进行相关性计算。这样的计算量无法满足实时返回排名结果的要求。 所以搜索引擎会将正向索引数据库重新构造为倒排索引,把文件对应到关键词的映射转换为关键词到文件的映射,如表2-2所示。 在倒排索引中关键词是主键,每个关键词都对应着一系列文件,这些文件中都出现了这个关键词。这样当用户搜索某个关键词时,排序程序在倒排索引中定位到这个关键词,就可以马上找出所有包含这个关键词的文件。 8.链接关系计算 链接关系计算也是预处理中很重要的一部分。现在所有的主流搜索引擎排名因素中都包含网页之间的链接流动信息。搜索引擎在抓取页面内容后,必须事前计算出:页 面上有哪些链接指向哪些其他页面,每个页面有哪些导入链接,链接使用了什么锚文字,这些复杂的链接指向关系形成了网站和页面的链接权重。 Google PR值就是这种链接关系的最主要体现之一。其他搜索引擎也都进行类似计算,虽然它们并不称为PR. 由于页面和链接数量巨大,网上的链接关系又时时处在更新中,因此链接关系及PR的计算要耗费很长时间。关于PR和链接分析,后面还有专门的章节介绍。 9.特殊文件处理 除 了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDF、Word、WPS、XLS、PPT、TXT文件等。我们在搜索结果 中也经常会看到这些文件类型。但目前的搜索引擎还不能处理图片、视频、Flash这类非文字内容,也不能执行脚本和程序。 虽然搜索引擎在识别图片及从Flash中提取文字内容方面有些进步,不过距离直接靠读取图片、视频、Flash内容返回结果的目标还很远。对图片、视频内容的排名还往往是依据与之相关的文字内容,详细情况可以参考后面的整合搜索部分。
搜索引擎优化(Search Engine Optimization,简称SEO)是一种利用搜索引擎的搜索规则来提高目的网站在有关搜索引擎内的排名的方式。深刻理解是:通过SEO这样一套基于搜索引擎的营销思路,为网站提供生态式的自我营销解决方案,让网站在行业内占据领先地位,从而获得品牌收益。研究发现,搜索引擎的用户往往只会留意搜索结果最前面的几个条目,所以不少网站都希望通过各种形式来影响搜索引擎的排序。当中尤以各种依靠广告维生的网站为甚。所谓“针对搜索引擎作最佳化的处理”,是指为了要让网站更容易被搜索引擎接受。 SEO是指通过采用易于搜索引擎索引的合理手段,使网站各项基本要素适合搜索引擎检索原则并且对用户更友好(Search Engine Friendly),从而更容易被搜索引擎收录及优先排序从属于SEM(搜索引擎营销)。SEO的中文意思是搜索引擎优化。通俗理解是:通过总结搜索引擎的排名规律,对网站进行合理优化,使你的网站在百度和Google的排名提高,让搜索引擎给你带来客户。深刻理解是:通过SEO这样一套基于搜索引擎的营销思路,为网站提供生态式的自我营销解决方案,让网站在行业内占据领先地位,从而获得品牌收益。 搜索引擎根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。学习搜索引擎优化SEO,必须先了解什么是搜索引擎以及搜索引擎原理。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。 在国外,SEO开展较早,那些专门从事SEO的技术人员被Google称之为“Search Engine Optimizers”,简称SEOers。由于Google是世界最大搜索引擎提供商,所以Google也成为了全世界SEOers的主要研究对像,为此Google官方网站专门有一页介绍SEO,并表明Google对SEO的态度
微信扫描关注我们
手机:15987653936 电话:0876-2154600
邮件:2422327850@qq.com
地址:云南省文山市景怡花园1-15号商铺