SEO实战密码学习笔记

SEO简介

SEO是由英文Search Engine Optimization缩写而来, 中文意译为“搜索引擎优化”。
SEO是指通过站内优化比如网站结构调整、网站内容建设、网站代码优化等以及站外优化,比如网站站外推广、网站品牌建设等,使网站满足搜索引擎收录排名需求,在搜索引擎中提高关键词排名,从而吸引精准用户进入网站,获得免费流量,产生直接销售或品牌推广。

SEO优化的对象是网页!而不是网站!

超链分析

“超链分析”,就是,通过分析链接网站的数量来评价其被链接的网站的质量如何。
简单来讲,确定某个页面是否优秀或者权威,其它的页面的“意见”是非常重要的!
即便一个网页并不那么优秀,但是只要其他网页对它的“信任投票”(反向链接)超过了其它页面,那么它的排名也会靠前,甚至排名第一。

内容或主题相关的页面之间的互相推荐很重要,搜索引擎会更加信任被推荐的网页。因此,网页互相推荐的时候,应该注意以下四个方面:质量数量权重相关性

SEO需要解决的主要问题

在做SEO的时候,需要明确几个主要问题:
* 精准的定位,提供怎样的服务
* 清晰的网站结构
* 简洁的代码
* 高质量的内容

减少网页内容的重复

好的SEO,需要减少重复内容,比如,如果首页都是其他页面内容的总和,那么重复性就比较高

搜索引擎常用的查询语句

nofollow

rel=’external nofollow’可以告诉搜索引擎,该链接,并非本站链接,并且不传递权重。

我们也可以为站点的内部链接添加 nofollow,比如:联系我们、关于我们、隐私保护、公司简介、网站后台等不重要的链接。

搜索引擎权重

搜索引擎权重,体现的是网页的综合因素在搜索中的重要性。
PageRank(PR),是谷歌对一个网页的衡量指标。它的值在1-10之间,可以通过谷歌工具栏里查询。

搜索词热度

百度的搜索词热度可以参考百度指数,网址是<index.baidu.com>
而谷歌则可以查看谷歌趋势,http://www.google.com/trends

各大搜索引擎的提交入口

搜索引擎蜘蛛爬行的特点

蜘蛛最先访问的是 robots.txt,根据这个文件里定义的规则来决定抓取哪些网页。
它的爬行策略,主要有两种,1、广度优先,2、深度优先,而实际情况中,蜘蛛往往会结合两种方式来进行网页的抓取。

由于搜索引擎蜘蛛不可能去爬行、收录所有网页。因此,我们要想尽办法,把重要的页面呈现给蜘蛛。

地址库

蜘蛛发现链接后,未必是马上抓取的。会存入地址库,安排统一抓取。
抓取的时候,可能会做复制内容的检测,低权重、高雷同,可能被直接剔除。

1、网站、网页权重。
2、更新速度
3、导入链接
4、与首页的点击距离。通常首页权重会很高。(外部链接、友情链接通常都指向首页)
5、URL结构。蜘蛛对页面权重是有预判的,短的、层次浅的URL可能权重更高。

网站的网状结构

指的是网站的内部链接,比如你的每个页面都有一个随机调用文章的版块。
从而,减少孤立页面的数量,有利于内页的收录。

搜索引擎预处理

  • 从html中提取文字信息和其他关键信息,剔除html标签等内容
  • 中文分词。(基于词典、基于统计)帮助分词。比如:化妆和服装,对服装加粗,能帮助搜索引擎知道,关键词不是“和服”
  • 去停止词。如:的,了,阿,哈,英文中的 a, the, an, 等。减少无谓的计算
  • 消除噪声。版权、导航条、广告等。比如,博客中常见“分类”、“历史”等词,然后,这些词与内容无关。
  • 根据html区块划分,区别头部、导航、正文等,通常整站重复出现的,往往属于噪声。
  • 去重。提取页面的特征关键词进行指纹计算。因此,简单增加的,了,地等词,不能改变特征值。去重算法可能是进行到段落级别,而不是页面级别,因此,不同文章段落组合,依然无效。
  • 正向索引。经过前面几个步骤,最后形成索引词表的结构,记录词的出现次数、格式、位置等信息。文件对应文件id,内容被表示成关键词的集合。关键词对应关键词id。这种数据结构成为正向索引。
  • 倒排索引。正向索引,文件是主键,文件映射关键词。倒排索引,则是关键词为主键,映射文件。
  • 链接关系。Google PR,就是一种体现。
  • 特殊文件处理。除了html,还能处理pdf、word、was、xls、txt等。图片、视频、flash的处理还很弱。
  • 文章质量判断。

排名

1、搜索词处理。包括:中文分词、去停止词、指令处理(分词之后的与逻辑,加号,减号等指令)、拼写错误矫正、整合搜索触发、搜索框下拉提示等。
2、文件匹配,利用之前生成的倒排索引
3、初始子集的选择。页面数量庞大,不可能进行全部的相关性计算,因此,会依据其他的特征,比如页面权重等。先选出一个较小的子集,再从中进行相关性计算。
4、相关性计算。最为重要的一步。
* 关键词常用程度,分词后的多个关键词里,越常用的,对搜索意义越小。比如,我们冥王星,“我们”的搜索意义最小
* 因此,不常用的词,应该进行强化,比如,放到标题,或者加粗等。
* 词频和密度。
* 关键词位置和形式。
* 关键词距离。比如,连续的“减肥方法”最相关,“减肥”和“方法”两个词的距离越大,相关性越小。
* 链接分析和页面权重。链接源页面本身的主题、锚文本周围的文字等,都有影响。

5、排名过滤和调整。主要有作弊嫌疑的页面被惩罚。
6、排名显示。页面的摘要有时候是动态生成的,不一定都是调用页面本身的描述。
7、搜索缓存。不是每次搜索都会重新排序的。
8、查询及点击日志。用户的种种信息和搜索行为

链接原理,超链分析。

传统的基于关键词的排名,很容易被操控。

  • HITS算法(Hyperlink-Induced Topic Search)
  • TrustRank算法
  • Google PR,PageRank PR(A) = (1-d) + d(PR(a)/C(a) + PR(b)/C(b) + … + PR(z)/C(z)
    d阻尼系数,通常认为是0.85
    平常看到的是工具条PR(工具条PR很可能不再更新了)。真实PR,是精确的无上限的数字,但无法得知。
    PR仅仅与外链有关。而且PR未必能反应在排名上。真实PR时刻都在更新计算,而工具条PR却不然。
    PR其实只是google排名算法中的一个算法而已,重要性也未必那么明显。
    PR的意义,收录深度和总页面数、访问更新频率、重复内容判定PR高可能判为原创、排名初始子集的选择
  • Hilltop算法。

竞争研究

  • 确保目标关键词有人搜索(公司产品词,没有知名度的时候,未必有人搜;通用产品词,竞争大。)
  • 降低优化难度
  • 寻找有效流量。排名和流量不是目的,转化才是目的。寻找精准的、转化率高的词才是最终目标。
  • 搜索的多样性。(搜索词长度有变长的趋势)

关键词的选择

  • 内容相关
  • 搜索量大,竞争小
  • 主关键词不能太特殊
  • 关键词的商业价值

确定核心关键词

  • 难度最大、搜索最多的两三个词,作为核心关键词,在首页;
  • 其次的关键词,放在栏目或分类首页;
  • 再次的关键词,放在具体的产品页,或者文章页面。

竞争程度的判断

  • 搜索结果数(百度搜索结果数显示有上限,加上双引号能缩小范围,然后比较)
  • intitle结果数
  • 竞价结果数量(要观察白天和晚上,投放广告的数量,数量多,说明竞争也相对大)
  • 竞价的点击单价(https://adwords.google.com/ko/KeywordPlanner)
  • 竞争对手的内页排名数量(排名靠前的,如果大多数是内页,说明竞争小)

关键词密度

关键词密度=关键词字符总长度/页面文本内容字符总长度X100%
关键词字符总长度=次数X长度=2×3=6
页面文本内容总长度:38 (这里不是字节,字符串长度)