当前位置: 首页 > news >正文

南昌seo排名技术合肥seo推广培训班

南昌seo排名技术,合肥seo推广培训班,wordpress做网站教程,做旅游计划的网站在使用爬虫获取维基百科数据时看到了一个很好的项目: 博客:https://blog.51cto.com/u_15919249/5962100 项目地址:https://github.com/wjn1996/scrapy_for_zh_wiki 但在使用过程中遇到若干问题,记录一下: The more_it…

在使用爬虫获取维基百科数据时看到了一个很好的项目:
博客:https://blog.51cto.com/u_15919249/5962100
项目地址:https://github.com/wjn1996/scrapy_for_zh_wiki

但在使用过程中遇到若干问题,记录一下:
The 'more_itertools' package is required; normally this is bundled with this package so if you get this warning, consult the packager of your distribution.:

1.解决方案:

或许并不是环境本身的问题。
1. pip show more_itertools没有则安装,有则下一步
2. 把queue.py 文件及该文件中的Queue类均重命名分别为myqueue.py 与 MyQueue。
3. 将重命名后的myqueue.py放到spiders文件夹下,
4. 将spider下单wiki.py 中的from queue import  Queue修改为from .myqueue import MyQueue
原因可能是Python中自带queue库,而博主这里是想调用自己的queue。

2.后面同样要把filter_words.py文件拿到spider下,并修改wiki中的from filter_words import filter_url 为from .filter_words import filter_url

3.在wiki.py繁简转换中加判断,避免输入为空

def Traditional2Simplified(sentence):'''将sentence中的繁体字转为简体字:param sentence: 待转换的句子:return: 将句子中繁体字转换为简体字之后的句子'''# sentence = Converter('zh-hans').convert(sentence)# return sentenceif sentence:sentence = Converter('zh-hans').convert(sentence)return sentenceelse:return sentence

4. 在wiki.py中修改

'''
content_entity = search.xpath("//h1[@id='firstHeading']/text()").extract_first()
为
content_entity = search.xpath("//h1[@id='firstHeading']/span/text()").extract_first()
'''



 

http://www.zhongyajixie.com/news/48554.html

相关文章:

  • 最新wordpress漏洞北京seo相关
  • 国际新闻网站中文版林哥seo
  • 如何影响网站排名网站排名优化教程
  • 网站建设 拖欠尾款西安今天出大事
  • 邢台最新通告今天项链seo关键词
  • 中小网站推广 一级域名还是二级域名创建站点的步骤
  • 创网网络网站推广优化服务
  • 网站建设移交确认书0元做游戏代理
  • 电脑上怎么做网站教师遭网课入侵直播录屏曝光广场舞
  • 广州哪家做网站最好最新消息
  • 房地产网站开发西安网络优化大的公司
  • 网站制作明细清单怎样建立一个网络销售平台
  • 网站动画广告条怎么做的怎么成为百度推广代理商
  • 大连哪有做网站的网络广告投放渠道有哪些
  • 怎样做58网站关键词热度分析
  • 诸暨网站制作哪些公司制作网站推广的作用在哪里
  • 办公门户网站模板下载今日头条新闻最全新消息
  • 河南网站备案国外广告联盟平台
  • 农业网站建设方案 ppt模板下载注册一个网站
  • 深圳专业建网站公司nba录像回放
  • 网站title优化重庆百度推广排名优化
  • 给我一个网站图片网络服务器
  • 开封专业做网站公司南宁网站建设优化服务
  • dede的网站地图要怎么做技能培训班
  • 南京已经开始二次感染了百度seo2022新算法更新
  • 淘客自己做网站合肥seo服务商
  • 做网站策划书百度关键词排名快速排名
  • 做网站要什么资料企业营销策划书范文
  • 哪个网站是vue做的抖音矩阵排名软件seo
  • 在网站上做支付功能 需要什么餐饮管理和营销方案