操控页面的抓取、索引是SEO优化网站结构时经常需要用到的技能。
常见的东西包括:robots文件、页面的noindex标签、链接的nofollow属性、页面的转向、页面的canonical标签等。
这几个东西各有各的特定应用场景,但都是用于操控网站内部结构,之间简单混杂,还经常需要合作运用,SEO们有必要精确理解这几个东西的机制和原理,不然很简单出错。
这篇帖子评论robots文件。
Robots文件的效果robots文件是一个放置在域名(或子域名)根目录下的、文件名固定为robots.txt的(悉数小写)、UTF8编码的、纯ASCII文本文件,用来通知搜索引擎,网站的哪些部分能够抓取,哪些制止抓取。robots.txt只对地点的域名(或子域名)、协议和端口号起效果。
搜索引擎蜘蛛在抓取网站页面前,会先看一下robots.txt的内容,哪些页面能够抓取,哪些页面被站长制止抓取。上海牛巨微网络科技,当然,是否遵守robots文件的规矩就靠自觉了,某些坏蜘蛛就不遵守,站长是没办法的,比如采集内容的、克隆网站的。
所以,robots.txt文件是站长制止搜索引擎抓取某些页面的指令。但是要留意,页面没有被抓取,不意味着页面就不会被索引和录入,这是两个概念。概况参阅爬行、抓取、索引的概念介绍贴子。
怎样写Robots文件
Robots文件的每行记载均由一个字段、一个冒号和一个值组成。
一般robots文件中的记载一般以User-agent开始,后面加上若干Disallow和Allow行。User-agent指定本记载用于哪个搜索引擎蜘蛛,Disallow是指定制止抓取的文件或目录,Allow是指定允许抓取的文件或记载。
Disallow–告诉蜘蛛不要抓取某些文件或目录。Allow–告诉蜘蛛应该抓取某些文件。Allow和Disallow合作运用,能够告诉蜘蛛某个目录下,大部分都不抓取,只抓取一部分。
别的提示大家留意的是,robots.txt文件能够不存在,回来过错,意味着允许蜘蛛抓取一切内容。但抓取robots.txt文件时却发生超时之类的过错,可能导致搜索引擎不录入网站,由于蜘蛛不知道robots.txt文件是否存在或者里边有什么内容,这与承认文件不存在是不一样的。
别的,假如robots.txt文件不存在,而页面上包含一些URL,可能会形成搜索引擎误将页面的内容当作robots文件的内容,导致无法预测的后果。所以,即使想敞开一切搜索引擎蜘蛛抓取一切内容,也最好放一个robots文件,哪怕是空的文件。
写好robots文件后假如不确定是否写得正确,能够用搜索引擎官方东西检测验证。掌握robots文件用法和写法是SEO的基本功。遇到页面不被录入或录入骤降,robots文件也是第一个要检查的。
------每日感悟:
给人金钱是下策,给人能力是中策,给人观念是上策。财富买不来好观念,好观念能换来亿万财富。世界上最大的市场,是在人的脑海里!
上海牛巨微网络科技有限公司经营范围包括一般项目:网络技术服务;软件开发;信息咨询服务(不含许可类信息咨询服务);企业管理咨询;信息系统运行维护服务;信息技术咨询服务;大数据服务;物联网技术研发;人工智能公共服务平台技术咨询服务;数据处理服务;计算机系统服务;动漫游戏开发;数字文化创意内容应用服务;咨询策划服务;物联网技术服务;社会经济咨询服务;市场营销策划;组织文化艺术交流活动;品牌管理;专业设计服务;供应链管理服务;人工智能硬件销售;工业机器人安装、维修;智能机器人销售;智能机器人的研发;工程和技术研究和试验发展;国内贸易代理;医护人员防护用品零售;互联网销售(除销售需要许可的商品)(除依法须经批准的项目外,凭营业执照依法自主开展经营活动)。