当前位置: 首页 > news >正文

珠海网站建设培训学校北京seo代理计费

珠海网站建设培训学校,北京seo代理计费,利用百度图片做网站外链,whois 查询系统定义 Robots协议也称作爬虫协议、机器人协议,全名为网络爬虫排除标准,用来告诉爬虫和搜索引擎哪些页面可以爬取、哪些不可以。它通常是一个叫做robots.txt的文本文件,一般放在网站的根目录下。 robots.txt文件的样例 对有所爬虫均生效&#…

定义

Robots协议也称作爬虫协议、机器人协议,全名为网络爬虫排除标准,用来告诉爬虫和搜索引擎哪些页面可以爬取、哪些不可以。它通常是一个叫做robots.txt的文本文件,一般放在网站的根目录下。

robots.txt文件的样例

  • 对有所爬虫均生效,只能爬取public目录
User-agent:*
Disallow:/
Allow:/public/
  • 禁止所有爬虫访问所有目录
User-agent:*
Disallow:/
  • 允许所有爬虫访问所有目录
User-agent:*
Disallow:
  • 禁止所有爬虫访问网站某些目录也可以写做
User-agent:*
Disallow:/private/
Disallow:/tmp/
  • 只允许某一个爬虫访问所有目录
User-agent:WebCrawler
Disallow:
User-agent:*
Disallow:/

一些常见的爬虫名称

在这里插入图片描述

robotparser使用

该模块提供了一个类:RobotFileParser,它可以根据某网站的robots.txt文件判断一个爬虫是否有权限爬取这个网页。

RobotFileParser类的常用方法

  • set_url:用来设置robots.txt文件的链接。
  • read:读取robots.txt文件进行分析。
  • parse:用来解析robots.txt文件
  • can_fetch:该方法有两个参数,第一个是User-Agent,第二个是要抓取的URL。返回结果是True或者False,表示User-Agent指示的搜索引擎是否可以抓取这个URL。
  • mtime:返回上次抓取和分析robots.txt文件的时间。
  • modified:它对长时间分析和抓取的搜索爬虫很有帮助,可以将当前时间设置为上次抓取和分析robots.txt文件的时间

代码示例

from urllib.robotparser import RobotFileParserrp = RobotFileParser()
rp.set_url("http://www.baidu.com/robots.txt")
rp.read()print(rp.can_fetch("Baiduspider", "http://www.baidu.com"))
print(rp.can_fetch("Baiduspider", "http://www.baidu.com/homepage/"))
print(rp.can_fetch("Googlebot", "http://www.baidu.com/homepage/"))

在这里插入图片描述

  • 这里能看到,Googlebot是被严格禁止了的,所以为false
    在这里插入图片描述

以上,便是robots协议的学习笔记整理,来源于当前正在看的一本书–《Python3网络爬虫开发实战》。后面会持续学习并整理的。
感谢阅读~

http://www.zhongyajixie.com/news/13022.html

相关文章:

  • 吉林省可信网站认证牌匾今日军事新闻最新消息中国
  • 怎么做自己的音乐网站今日实时热搜
  • wordpress下载类插件优化百度涨
  • 网站自动答题脚本怎么做seo教程 百度网盘
  • 黄埔网站建设设计怎么建一个自己的网站
  • 睿艺美开封做网站苏州seo排名公司
  • 怎么给网站做域名重定向百度最怕哪个部门去投诉
  • 网站门户建设当阳seo外包
  • 网站设计中的div是什么百度电话号码
  • 手机网站 微信链接怎么做内部搜索引擎优化
  • wordpress经典博客主题宁波seo关键词
  • vip解析网站如何做seo文章外包
  • 用wix做网站需要备案吗推广神器app
  • 企业网站现状免费广告投放平台
  • 做网站怎么注册营业执照seo服务是什么意思
  • 宜昌seo优化服务深圳seo优化seo优化
  • 搜索引擎技巧优化大师官方免费下载
  • 怎样提高网站访问速度高端网站建设的公司
  • 蒙城做网站的公司seo优化包括哪些内容
  • 如何做自己的播报网站搜索引擎排名营销
  • 网站建设咋打开自己网站主页网址码迷seo
  • 网站开发技术发展史徐州百度推广公司
  • 网上接效果图平台什么是网站seo
  • 网站建设公司哪个好呀金融网站建设爱站工具包官网
  • 网站使用协议书学技术包分配的培训机构
  • 品牌网站建设的意义西安网红
  • 网站设计策划案app营销策略有哪些
  • 做网站找个人还是公司发外链的网址
  • 品牌网站建设c股j东大蝌蚪企业如何网络推广
  • 小程序排行榜南昌seo排名优化