经典图书畅销8年,全新升级,网站运营人员必读
《网站运营直通车——7天精通SEO(白金版))》包含了系统学习SEO的完整过程,全书共分为八章,分别是基础篇、站内篇、站外篇、高级篇、策略篇、专题篇、百度篇和案例篇,各知识点的内容由浅至深,既包括理论的讲解,又包括网站运营案例的剖析;既包括正常的运营手段,也包括如何逃避网络营销的陷阱域误区。
《网站运营直通车——7天精通SEO(白金版))》既适合初学者阅读,帮助其顺利迈进SEO的从业大门,也可以帮助SEO从业人员系统、专业地学习SEO领域的新知识。
2. 百度蜘蛛主要抓取策略
图 7-1 看似简单,但其实百度蜘蛛在抓取过程中面对的是一个超级复杂的网络环境,为了使系统可以抓取到尽可能多的有价值资源并保持系统及实际环境中页面的一致性,同时不给网站体验造成压力,会设计多种复杂的抓取策略。
1)抓取的友好性
互联网资源庞大的数量,要求抓取系统尽可能地高效利用带宽,在有限的硬件和带宽资源下尽可能多地抓取到有价值资源。这就产生了另一个问题——耗费被抓网站的带宽造成访问压力,如果程度过大将直接影响被抓网站的正常用户访问。因此,在抓取过程中就要进行一定的抓取压力控制,达到既不影响网站的正常用户访问又能尽量多地抓取到有价值资源的目的。
通常情况下,最基本的是基于 IP 地址的压力控制。这是因为如果基于域名,可能存在一个域名对多个 IP 地址(很多大网站)或多个域名对应同一个 IP 地址(小网站共享 IP 地址)的问题。实际工作中,往往是根据 IP 地址及域名多种条件进行压力调配控制。同时,站长平台也推出了压力反馈工具,站长可以人工调配对自己网站的抓取压力,这时百度蜘蛛将优先按照站长的要求进行抓取压力控制。
对同一个站点的抓取速度控制一般分为两类:其一,一段时间内的抓取频率;其二,一段时间内的抓取流量。同一站点不同的时间抓取速度也会不同,例如夜间抓取可能就会快一些,视具体站点类型而定,主要思想是错开正常用户访问高峰,不断调整。对于不同站点,也需要采用不同的抓取速度。
2)常用抓取返回码
下面简单介绍几种百度支持的返回码。
(1)404 代表 Not Found,认为网页已经失效,通常将在库中删除,同时短期内如果百度蜘蛛再次发现这条 URL 也不会抓取。
(2)503 代表 Service Unavailable,认为网页临时不可访问,通常在网站临时关闭,带宽有限时会产生这种情况。对于网页返回 503 状态码,百度蜘蛛不会把这条 URL 直接删除,同时短期内将会反复访问几次,如果网页已恢复,则正常抓取;如果继续返回 503,那么这条 URL 仍会被认为是失效链接,将之从库中删除。
(3)403 代表 Forbidden,认为网页目前禁止访问。如果是新 URL,百度蜘蛛暂时不抓取,短期内同样会反复访问几次;如果是已收录URL,不会直接删除,短期内同样反复访问几次。如果网页正常访问,则正常抓取;如果仍然禁止访问,那么这条 URL 也会被认为是失效链接,将之从库中删除。
(4)301 代表 Moved Permanently,认为网页重定向至新 URL。当遇到站点迁移、域名更换、站点改版的情况时,我们推荐使用 301 返回码,同时使用站长平台网站改版工具,以减少改版对网站流量造成的损失。
3)多种 URL 重定向的识别
互联网中有一部分网页因各种各样的原因存在 URL 重定向情况,为了对这部分资源正常抓取,就要求百度蜘蛛对 URL 重定向进行识别判断,同时防止作弊行为。重定向可分为三类:HTTP30X重定向、Meta Refresh重定向和JS重定向。另外,百度也支持 canonical 标签,在效果上可以认为也是一种间接的重定向。
4)抓取优先级调配
由于互联网资源规模巨大且变化迅速,对于搜索引擎来说全部抓取并合理更新保持一致性几乎是不可能的事情,因此就要求抓取系统有一套合理的抓取优先级调配策略。该策略主要包括:深度优先遍历策略、宽度优先遍历策略、PR 优先策略、反链策略、社会化分享指导策略等。每个策略各有优劣,在实际情况中往往是多种策略结合使用以达到最优的抓取效果。
5)重复 URL 的过滤
百度蜘蛛在抓取过程中需要判断一个页面是否已经抓取过,如果还没有抓取则进行抓取网页的行为并记录在已抓取网址集合中。判断网页是否已经抓取其中涉及到最核心的功能是快速查找并对比,同时涉及到 URL 归一化识别,例如一个 URL 中包含大量无效参数而实际是同一个页面,这将视为同一个 URL来对待。
6)暗网数据的获取
互联网中存在着大量的搜索引擎暂时无法抓取到的数据,被称为暗网数据。一方面,很多网站的大量数据存在于网络数据库中,搜索引擎难以采用抓取网页的方式获得完整内容;另一方面,由于网络环境、网站本身不符合规范以及孤岛等问题,也会造成搜索引擎无法抓取。目前来说,对于暗网数据的获取主要思路仍然是通过开放平台提交数据的方式来解决,例如“百度站长平台”“百度开放平台”等。
……
第1章 基础篇
1.1 什么是SEO
1.2 SEO的作用
1.3 常用搜索引擎简介
1.4 站长平台
1.5 搜索引擎工作原理
1.6 SEO与网络营销
1.7 常见SEO术语
1.8 常用搜索引擎指令
第2章 站内篇
2.1 域名与服务器
2.2 机器可读
2.3 网站结构
2.4 网站速度优化
2.5 元标签的设计
2.6 长尾关键词优化
2.7 URL优化
2.8 robots优化
2.9 nofollow优化
2.10 h标签的优化
2.11 图片的优化
2.12 Flash的优化
2.13 网站地图
2.14 链接优化
2.15 JavaScript 链接
2.16 网页内容
2.17 站内锚文本
2.18 导航结构优化
2.19 四处一词
2.20 移动搜索优化
第3 章 站外篇
3.1 外部链接
3.2 外链锚文本
3.3 拓展友链的思路
3.4 网站品牌提升方法
3.5 网站目录提交
3.6 链接诱饵
3.7 搜索霸屏
3.8 用户行为对排名的影响
3.9 熊掌号
第4 章 高级篇
4.1 SEO 目标制定
4.2 SEO 效果检测
4.3 流量检测与分析
4.4 被惩罚之后的处理
4.5 常见作弊方法
4.6 白帽与黑帽
4.7 用户体验优化
第5 章 策略篇
5.1 关键词策略
5.2 外链策略
5.3 网络营销策略
5.4 网站品牌策略
5.5 网站盈利策略
第6 章 专题篇
6.1 个性化搜索服务
6.2 整合搜索
6.3 SEO 工具
6.4 全站链接与首页链接
6.5 整站设计和优化
6.6 区域性搜索结果
6.7 百度框计算
第7 章 百度篇
7.1 百度搜索引擎的工作原理
7.2 移动搜索指南
7.3 百度沟通反馈投诉秘籍
7.4 百度标准死链官方文档
7.5 内容建设
第8 章 案例篇
8.1 电影网被K 恢复案例
8.2 去哪儿网攻略SEO 项目
8.3 环球网校移动适配项目
温馨提示:请使用泸西县图书馆的读者帐号和密码进行登录