链接
1)爬虫入口
1.1)sitemap入口 主动推送:https://ziyuan.baidu.com/college/courseinfo?id=267&page=2#h2_article_title14 sitemap 手动提交 ping baidu:http://ping.baidu.com/ping.html 快照更新:http://help.baidu.com/newadd?prod_id=1&category=1 自动推送代码:https://ziyuan.baidu.com/college/courseinfo?id=267&page=2#h2_article_title19 1.2)搜索引擎周边产品 周边产品 搜狗:https://www.sogou.com/docs/more.htm 百度:https://www.baidu.com/more/ 360:https://www.360.cn/ 等等等… 测试找个新域名,建一个单页,提交某一个产品,开始服务器日志,看有没有爬虫抓取
个人建议Sitemap入口全做 + 各个搜索引擎的浏览器刷访问量
2)大站的链接结构
2.1)HITS算法 authority页面:权威页面、高质量的页面 hub页面:桥页,指向有好内容网页的网页如hao123就是hub页面,指向众多高质量的authority页面
基于这个假设:
一个高质量的authority页面会被很多高质量的hub页面所指向 一个高质量的hub页面会指向很多高质量的authority页面有如下计算方法:
页面hub值,等于所有它指向的页面的authority值之和 页面authority值,等于所有指向它的页面的hub值之和所以:
HITS算法,存在可作弊漏洞我们弄一个页面指向很多高质量的authority页面,那么这个页面就成为了一个高质量的hub页面。然后再弄个链接指向自己的垃圾网页,按照HITS算法,将大大提升自己的搓网页的authority值
因此,搜索引擎必然会对这个作弊行为有相应措施,比如类似BM25为authority设一个极限值什么的
优质页面A,指向垃圾页面B,会降低优质页面A的authority值SEO应用:
网站内链设计中,避免优质链接给垃圾页面提供链接入口。通常随机调用最容易出现这种情况,因此,大站的链接模块,需要可配置一些筛选条件优质页面,可以指:
复制有流量的页面有排名的页面有收录的页面
避免有流量的页面,给许久不收录的页面导链接,可能不但没促进收录,反而拉低流量页面的基础排名
可以适当给一些权威页面提供单向链接,或交换链接。权威页面,比如关键词top10的网页 2.2)链接重要性分级按链接重要性分级,为不同权重的链接,分配不同数量及质量的内链
复制举例:
S级页面:质量最高,分配整站80%的单向链接
A级页面:质量较好,分配整站40%的单向链接
B级页面:质量较差,分配整站10%的单向链接
重要性分级
潜在流量大的网页
如专题搜索页,用流量词为title生成的网页
明确对应用户高频搜索行为的网页:https://www.kanzhun.com/gsx2097092.html
搜索结果排名2-5页的网页
排名时效性强的网页,如 https://www.moretickets.com/topic/wanglihong/
详情页面分级
比如全中国有1000万个公司,经常被用户搜索的只有5万个,那么这5万个公司的详情页,与另外995万个页面,要设置不同权重
优质资源有限分配给这5万个页面
低质量页面提取网页生成时间 > 30天(根据自己情况定义),仍未收录的,算低质量页面
2.3)内链模块设计 [重要]满足相关性(BM25)内链调用规则上,优先调用能提高IDF值的链接
满足重要性分配全站划分(2.2的分配方式):重要页面、一般页面、垃圾页面
[垃圾页面] 给一般页面和重要页面单向链接 [一般页面] 给重要页面单向链接,与一般页面双向连接 重要页面与重要页面双向链接 禁止重要页面,给非重要页面,提供单向链接;除非网页正文需要