群里看到一篇不错的关于谷歌排名算法的文章(
searchengineland.com),人工翻译了下,下面是重要结论(配合原文阅读更佳):
1. 谷歌排名算法很复杂,甚至参与算法的员工也无法解释每个因素的权重和如何共同作用
2. 有时候优化良好的页面无法排名,简短且未优化的结果则会出现在排名顶部
3. 新发布的网站或页面不会立刻被谷歌索引,而是在已经被索引的URL发现,尤其是经常被访问的页面(想要尽快索引一个页面就把链接放首页)
4. 谷歌排名系统由众多更小的系统组成,例如抓取系统Trawler , 索引系统Alexandria, 排名系统Mustang, 查询处理系统SuperRoot(是不是很像MoE)
5. Trawler:负责检索新内容,确定访问旧内容时间来检查更新,决定是否将URL放入沙盒(Sandbox,放置垃圾和低价值网站)
6. Alexadria(好名字,希望不是个flag):为每条内容分配唯一DocID,重复内容会链接到已有的DocID;一个DocID下包含内容相同且来自多个域名的URL,不同语言版本都会出现在这里,重复内容会保存为原版本(带canonical tag的那个)
7. 内容频繁出现的某个词会被对应单词的词条索引,并附上DocID;每个DocID会被分配一个IR(information retrieval)分数;这个词加粗标记,加入元描述,加入H标签后会加权并增加IR值
8. 最重要的Doc会被放到主要内存HiveMind中,长期存储不需要快速访问的信息会放到快速 SSD 和常规 HDD-TeraGoogle中;HiveMind中的内外链有更高权重,TeraGoogle中的链接权重小甚至不会被考虑(很像新PR算法里”seed”pages的概念)
9. BylineDate(源代码中的日期)、SyntaticDate(URL和标题中提取的日期)和SemanticDate(从可读内容中获取的日期)都会被使用,通过更改日期来伪造时效性会被降低位置,lastSignificantUpdate attribute记录了Doc最后一次重大更改的时间,修复细节或更正拼写错误不会影响;谷歌会将Doc的最后20个版本记录在PerDocData中,所以更改Doc需要20次重大更新,重启已有域名不会有排名优势
10. QBST(Query Based Salient Terms):有人使用谷歌搜索某个词时会被QBST发到词汇索引中进行检索,然后计算权重
11. Ascorer:然后Ascorer会检索前1000个DocID,然后按照IR分数排名;Ascorer是Mustang的一部分,还会使用去重的SimHash和识别有用内容的其它系统
12. Superroot会使用Twiddlers 和 NavBoost从1000个DocID中挑出10个并重新排序,Twiddlers是独立运行的数百个过滤器,负责调整IR分数或直接更改排名;有各种各样的Twiddlers,比如降低内容相似文档价值的,识别搜索意图的,惩罚疑似垃圾信息的,评估内容和网站相关性的
13. 全球有数千名质量评估员为谷歌工作,评级不会直接影响排名,但是谷歌会通过深度学习来增加新的排名指标;谷歌自己的专家会在RankLab中开发新的 Twiddlers,并将其中有效的加入Mustang
14. NavBoost系统使用点击数据用于排名目的,谷歌通过Google Analytics和Chrome收集了大量网络活动数据,例如,自然搜索结果中位置1平均获得 26.2%的点击,位置2则获得 15.5%的点击,如果Doc实际点击率显著低于预期率,那么排名会被下调
15. 根据泄露的信息,似乎谷歌会从页面的“环境”中使用数据来估算新页面的权重,新页面会暂时继承主页HomePageRank_NS,直到出现自己的PageRank,一组相关页面也会共享PageRank值,用来帮助新页面在缺乏流量或反向链接的情况下提升排名(大概意思应该是新页面由于缺少信息,开始会继承主页/域名/内链跳转页面的部分权重,直到有了足够信息得到一个稳定页面权重)
16. Google Web Server (GWS) 负责组装SERP:这十个自然搜素结果,广告,图片,精选摘要等SERP features;Tangram系统负责规划空间,Glue系统将所有元素塞进空间;CookBook系统(包含FreshnessNode,InstantGlue和InstantNavBoost)可能在最后把一些topicality相关的内容额外提高排名;所以排名下降并不意味着你做错了什么,可能由于用户行为变化或其他因素
17. Key SEO takeaways:
-经常重复的要点:建立品牌和域名权威度;优化标题和描述以提高点击率;评估隐藏内容;增强页面结构;扩展现有内容而非不断创建新的内容(ContentEffortScore);注意链接周围的上下文
-新信息
1️⃣流量来源多样化:即使谷歌爬虫无法访问某些页面(由于robots.txt),谷歌也可以通过Chrome追踪页面的访客数量,进而影响排名
2️⃣理解搜索意图:使用第三方工具查看访客来自哪里以及在访问你的网站后去了哪里,分析页面是否提供了你所缺失的information gain,添加这些缺失的内容,成为访客搜索的“最终目的地”(lastLongestClick)
3️⃣移除表现不佳的页面:如果有必要,无人访问的页面(网络分析)或长期排名不佳的页面应被移除,不良信号也会传递给相邻页面
4️⃣标题与对应的内容对齐:使用如embedding比纯粹的词汇方法更有效
5️⃣目标更不竞争的关键词:首先专注排名竞争低的关键词来建立积极的用户信号
6️⃣考虑作者的专业性:如果加入了作者信息,确保作者在其他网站上也被认可,并且能够展示相关专业性;根据一项专利,谷歌可以根据作者的专业性评估内容,区分专家和普通人士
❗️创建独特、有用、全面且结构良好的内容-“内容为王”
❗️最重要的结论:整个谷歌排名系统由多个包括crawlering,indexing,retrievaling,ranking在内的单独子系统构成
❗️关键术语:Trawler,Sandbox,Alexandria,QBST,Ascorer,Twiddler,Mustang,Superroot,NavBoost,GWS