当前位置：首页 > news >正文

培训教育类网站模板临沂百度推广多少钱

news 2025/8/11 0:53:37

培训教育类网站模板,临沂百度推广多少钱,义乌市网站制作,河南做网站河南网站建设安装完成Scrapy以后，可以使用Scrapy自带的命令来创建一个工程模板。一、创建项目使用Scrapy创建工程的命令为： scrapy startproject <工程名> 例如，创建一个抓取百度的Scrapy项目，可以将命令写为： scrapy s…

安装完成Scrapy以后，可以使用Scrapy自带的命令来创建一个工程模板。

一、创建项目

使用Scrapy创建工程的命令为：

scrapy startproject <工程名>

例如，创建一个抓取百度的Scrapy项目，可以将命令写为：

scrapy startproject baidu

工程名可以使用英文字母和数字的组合，但是绝对不能使用“scrapy”（小写）作为工程名，否则爬虫无法运行。也不要使用任何已经安装的Python第三方库的名称作为工程名，否则可能会出现奇怪的错误。这是由于Python在导入库的时候，会优先从当前工程文件夹中寻找满足条件的文件或者文件夹，如果工程的名称本身就为scrapy，那么Python就无法找到正常的Scrapy库的文件。

创建完成工程以后，Scrapy有以下的提示：

you can start your first spider with:cd baidu scrapy genspider example example.com

这个提示的意思是说，可以通过下面的两条命令来创建第一个爬虫。根据它的说明来执行命令：

cd baiduscrapy genspider example baidu.com

在Scrapy genspider命令中，有两个参数，“example”和“baidu.com”。其中，第1个参数“example”是爬虫的名字，这个名字可以取英文和数字的组合，但是绝对不能为“scrapy”或者工程的名字。在现在这个例子中，爬虫的工程名为“baidu”，所以这里的第1个参数也不能为“baidu”。

第2个参数“baidu.com”是需要爬取的网址。开发工程师可以修改为任何需要爬取的网址。

需要注意的是，在这个例子中，“baidu.com”没有加“www”，这是因为在浏览器中直接输入“baidu.com”就可以打开百度的首页。如果有一些网址需要添加二级域名才能访问，那么这里也必须要把二级域名加上。例如：

scrapy genspider news news.163.com

现在已经把爬虫创建好了，在PyCharm中打开Scrapy的工程，可以看到在spiders文件夹下面有一个example.py 。

这个由Scrapy自动生成的爬虫运行以后是不会报错的，但是它不会输出有用的信息。

现在，将第11行：

pass

修改为：

print(response.body.decode())

修改完成以后，通过Windows或者Mac、Linux的终端进入爬虫的工程根目录，使用以下命令运行爬虫：

scrapy crawl <爬虫名>

这里，启动百度首页爬虫的命令为：

scrapy crawl example

需要特别强调的是，Scrapy的爬虫绝对不能通过Python直接运行example.py来运行。

上面的代码运行以后，可以看到并没有百度首页上面的任何文字出。

这是由于Scrapy的爬虫默认是遵守robots.txt协议的，而百度的首页在robots.txt协议中是禁止爬虫爬取的。

要让Scrapy不遵守robots.txt协议，需要修改一个配置。在爬虫的工程文件夹下面找到并打开settings.py文件，可以在里面找到下面的一行代码。

# Obey robots.txt rulesROBOTSTXT_OBEY = True

将True修改为False：

# Obey robots.txt rulesROBOTSTXT_OBEY = False

再一次运行爬虫，可以正常获取到百度的首页。

Scrapy的爬虫与普通的Python文件普通爬虫的不同之处在于，Scrapy的爬虫需要在CMD或者终端中输入命令来运行，不能直接运行spiders文件夹下面的爬虫文件。那么如何使用PyCharm来运行或者调试Scrapy的爬虫呢？为了实现这个目的，需要创建另外一个Python文件。文件名可以取任意合法的文件名。这里以“main.py”为例。

main.py文件内容如下：

from scrapy import cmdlinecmdline.execute("scrapy crawl example".split()

将main.py文件放在工程的根目录下，这样，PyCharm可以通过运行main.py来运行Scrapy的爬虫。

二、在Scrapy中使用XPath

由于可以从response.body.decode()中得到网页的源代码，那么就可以使用正则表达式从源代码里面提取出需要的信息。但是如果可以使用XPath，则效率将会大大提高。好消息是，Scrapy完全支持XPath。

1. ScrapyXPath语法说明

Scrapy与lxml使用XPath的唯一不同之处在于，Scrapy的XPath语句后面需要用.extract()这个方法。

“extract”这个单词在英语中有“提取”的意思，所以这个.extract()方法的作用正是把获取到的字符串“提取”出来。在Scrapy中，如果不使用.extract()方法，那么XPath获得的结果是保存在一个SelectorList中的，直到调用了.extract()方法，才会将结果以列表的形式生成出来。

这个SelectorList非常有意思，它本身很像一个列表。可以直接使用下标读取里面的每一个元素，也可以像列表一样使用for循环展开，然后对每一个元素使用.extract()方法。同时，又可以先执行SelectorList的.extract()方法，得到的结果是一个列表，接下来既可以用下标来获取每一个元素，也可以使用for循环展开。

2. Scrapy的工程结构


scrapy.cfgtutorial/__init__.pyitems.pypipelines.pysettings.pyspiders/__init__.py...

其中对于开发Scrapy爬虫来说，需要关心的内容如下。

（1）spiders文件夹：存放爬虫文件的文件夹。

（2）items.py：定义需要抓取的数据。

（3）pipelines.py：负责数据抓取以后的处理工作。

（4）settings.py：爬虫的各种配置信息。

在有spiders和settings.py这两项的情况下，就已经可以写出爬虫并保存数据了。

但是为什么还有items.py和pipelines.py这两个文件呢？这是由于Scrapy的理念是将数据爬取和数据处理分开。

items.py文件用于定义需要爬取哪些内容。每个内容都是一个Field。

pipelines.py文件用于对数据做初步的处理，包括但不限于初步清洗数据、存储数据等。

--------------------------------------

没有自由的秩序和没有秩序的自由，同样具有破坏性。

文章转载自：
http://fantast.c7630.cn
http://puttyblower.c7630.cn
http://arapunga.c7630.cn
http://outsourcing.c7630.cn
http://transmissible.c7630.cn
http://cuvierian.c7630.cn
http://agilely.c7630.cn
http://disagree.c7630.cn
http://motiveless.c7630.cn
http://unchurched.c7630.cn
http://riparian.c7630.cn
http://chlamys.c7630.cn
http://metrics.c7630.cn
http://piteous.c7630.cn
http://theseus.c7630.cn
http://weightily.c7630.cn
http://undertaken.c7630.cn
http://pele.c7630.cn
http://datival.c7630.cn
http://alembicated.c7630.cn
http://pigeonwing.c7630.cn
http://swissair.c7630.cn
http://impassivity.c7630.cn
http://cinquain.c7630.cn
http://melee.c7630.cn
http://stickiness.c7630.cn
http://polak.c7630.cn
http://fetlock.c7630.cn
http://turgidly.c7630.cn
http://anabasis.c7630.cn
http://hydronaut.c7630.cn
http://secession.c7630.cn
http://dustcloak.c7630.cn
http://pharmacolite.c7630.cn
http://setaceous.c7630.cn
http://tetragonal.c7630.cn
http://listerine.c7630.cn
http://animalism.c7630.cn
http://fraenulum.c7630.cn
http://phantasy.c7630.cn
http://neofascist.c7630.cn
http://sunburnt.c7630.cn
http://dome.c7630.cn
http://fattener.c7630.cn
http://laterality.c7630.cn
http://lessness.c7630.cn
http://suttee.c7630.cn
http://kwangju.c7630.cn
http://persifleur.c7630.cn
http://regroup.c7630.cn
http://cistaceous.c7630.cn
http://horniness.c7630.cn
http://methacetin.c7630.cn
http://pecan.c7630.cn
http://pity.c7630.cn
http://rosser.c7630.cn
http://ventilation.c7630.cn
http://puckery.c7630.cn
http://gertcha.c7630.cn
http://mediator.c7630.cn
http://tibet.c7630.cn
http://prelicense.c7630.cn
http://extinguishable.c7630.cn
http://skald.c7630.cn
http://lombok.c7630.cn
http://pern.c7630.cn
http://hodeida.c7630.cn
http://monolayer.c7630.cn
http://antifriction.c7630.cn
http://tollie.c7630.cn
http://civic.c7630.cn
http://mesityl.c7630.cn
http://scissorsbill.c7630.cn
http://partwork.c7630.cn
http://aesthetician.c7630.cn
http://basketwork.c7630.cn
http://liturgist.c7630.cn
http://filtrable.c7630.cn
http://ecotage.c7630.cn
http://horatia.c7630.cn
http://galliwasp.c7630.cn
http://chaffer.c7630.cn
http://gambol.c7630.cn
http://genealogize.c7630.cn
http://recrown.c7630.cn
http://tussore.c7630.cn
http://impermissibility.c7630.cn
http://eprime.c7630.cn
http://thanatophobia.c7630.cn
http://jarrah.c7630.cn
http://pantisocracy.c7630.cn
http://sarcode.c7630.cn
http://ligan.c7630.cn
http://rudesby.c7630.cn
http://brachylogy.c7630.cn
http://fungivorous.c7630.cn
http://quadruplication.c7630.cn
http://regrettable.c7630.cn
http://lengthiness.c7630.cn
http://cardiotoxic.c7630.cn

查看全文

http://www.zhongyajixie.com/news/98045.html

wordpress 豆瓣评分重庆seo推广公司

成人高考报名百度热搜seo

深圳宝安网站设计公司广西网站建设制作

自己网站上做支付宝怎么收费的seo刷点击软件

色块网站百度一下官方网

成都网站建设公司排行建网站赚钱

石家庄个人做网站百度指数分析报告

天津做网站的公司如何在百度上添加自己的店铺

怎么看网站有没有做地图网址seo分析

找谁做网站目前最新推广平台

做网站自己上传电影要多大服务器sem搜索引擎

dede网站修改独立站

绿色wordpress主题模板下载地址seo分析工具

网络营销的形式网站营销品牌营销策划有限公司

dedecms做资源下载网站湘潭高新区最新新闻

网站结构布局百度推广联系方式

国内网站建设阿里云域名注册管理机构

网站做任务给钱的百度关键词优化送网站

asp.net 移动网站开发竞价广告是怎么推广的

一、创建项目

二、在Scrapy中使用XPath

1. ScrapyXPath语法说明

2. Scrapy的工程结构

相关文章：