当前位置: 首页 > news >正文

微信转账做网站收款营销型企业网站有哪些平台

微信转账做网站收款,营销型企业网站有哪些平台,在线客服渠道,企业简介 网站建设本期学习: 利用网页指纹去重 众所周知,代理是要花钱的,那么在爬取(测试)巨量网页的时候,就不可能对已经爬取过的网站去重复的爬,这样会消耗大量的时间,更重要的是会消耗大量的IP (金…

本期学习: 利用网页指纹去重

众所周知,代理是要花钱的,那么在爬取(测试)巨量网页的时候,就不可能对已经爬取过的网站去重复的爬,这样会消耗大量的时间,更重要的是会消耗大量的IP (=金钱 💵)

1 指纹机制

所谓指纹,就是把网页的数据生成一个唯一性的数据,相当于程序给每个网页留了个痕迹,爬取过的网页,留下指纹,那下次只要比对一下我们指纹库:有的,就直接跳过,那就不存在重复爬取的问题了;没有的,爬取数据,留下指纹。这个机制非常适合我们这个使用了selenium来进行翻页的scrapy工程。

2 指纹实现

首先在爬虫初始化__init__的时候增加一个指纹文件:

        self.fp_file = 'fingerprints.json'

然后在 start_requests 判断这个文件是否存在,不存在的话需要创建,注意到以列表形式存储:

      	#创建指纹存储文件if not os.path.exists(self.fp_file):with open(self.fp_file, 'w') as f:json.dump([], f)

然后实现指纹的3个方法

    # 生成指纹def get_fingerprint(self, page_content):return md5(page_content.encode('utf-8')).hexdigest()# 判断指纹是否存在def fingerprint_exists(self, fingerprint):with open(self.fp_file, 'r') as f:fingerprints = json.load(f)return fingerprint in fingerprints# 保存指纹def save_fingerprint(self, fingerprint):with open(self.fp_file, 'r+') as f:fingerprints = json.load(f)fingerprints.append(fingerprint)f.seek(0)json.dump(fingerprints, f)f.truncate()

最后一步,添加到爬取的逻辑中,这边尝试添加在parse_page (不清楚的话需要回看前几期的博客文章)

        # 生成指纹fingerprint = self.get_fingerprint(page_source)# 判断指纹是否存在if self.fingerprint_exists(fingerprint):self.logger.info('指纹已存在,跳过 %s', fingerprint)return# 保存指纹self.save_fingerprint(fingerprint)

3 测试

测试的时候先爬去一下,检查下fingerprints.json是否生成了,然后等待爬虫爬取一段时间,看json文件中指纹数据是否有增加,然后停止爬虫,重新开始,测试指纹能否帮助跳过已经爬取过的页面。

测试截图如下,发现可以生效的。如果不跳过,则item代码会去比较数据库中是否存在这个评论,这里却没有这个过程,说明通过指纹对比,把已经爬取过的页面跳过了

在这里插入图片描述

http://www.zhongyajixie.com/news/2916.html

相关文章:

  • 做网站哪家南京做网站发广告去哪个平台
  • 柳城企业网站建设公司最全bt搜索引擎入口
  • 如何制作网站链接手机搭建网站
  • 网站排名应该怎么做网站如何推广
  • 长春本地网站制作网络营销的特点有哪些?
  • 网站解析后 问题怎么创建一个属于自己的网站
  • 中国网站建设代理项目快速提高排名
  • 资源网站怎么做免费推客推广平台
  • 北京协会网站建设cilimao磁力猫
  • 网站的背景图怎么做的深圳网络营销信息推荐
  • 校园网站系统建设需求谷歌seo工具
  • 赣州网站开发百度网址大全免费下载
  • Seo建设网站的步骤中国国家人事人才培训网
  • 广州做网站厉害的公司刷外链网站
  • 零基础1小时快速建站百度一下官方网
  • 网站论坛怎么建设搜索引擎推广的常见形式有
  • 河南信合建设投资集团有限公司网站谷歌搜索引擎下载
  • wordpress导航样式seo权重查询
  • 网站建设报价模块上海营销seo
  • 十堰h5网站建设温州网站建设开发
  • 大连手机自适应网站建设维护广告联盟广告点击一次多少钱
  • 重庆网站空间上海网络营销
  • b2c 网站开发白帽seo公司
  • 张家港做网站优化排名百度西安
  • 网站开发教育培训天津seo标准
  • 你做的网站可视区域多少钱贵阳百度快照优化排名
  • wordpress网站建小程序seo网络推广专员
  • 做箱包批发哪个网站好网络营销的优势有哪些
  • z blog与wordpress百度搜索引擎优化指南最新版
  • 做两个一摸一样的网站深圳网络运营推广公司