当前位置: 首页 > news >正文

南漳网站开发牡丹江seo

南漳网站开发,牡丹江seo,工业设计代做网站,可以显示一张图片的网站怎么搭建python爬取网页图片并下载之GET类型 准备工作 【1】首先需要准备好pycharm,并且保证环境能够正常运行 【2】安装request模块 pip install requestsimport request导入request内置模块 【3】安装lxml模块 pip install lxmlfrom lxml import etree导入lxml.etre…

python爬取网页图片并下载之GET类型

准备工作

【1】首先需要准备好pycharm,并且保证环境能够正常运行

【2】安装request模块

pip install requests

import request导入request内置模块

【3】安装lxml模块

pip install lxml

from lxml import etree导入lxml.etree内置模块

如果导入etree失败的话可以尝试

from lxml import html
etree = html.etree

目标网站

今日的目标是爬取图片信息

网址:[loryx.wiki]([home LoR丨中文百科] (loryx.wiki))

分析网站

image-20231221185852385

该部分是这次要爬取的所有图片内容,首先F12打开网络并且选中ALL,然后Ctrl+R刷新页面

image-20231221191550975

打开最上方加载的文件的Response,发现和页面的源码非常相似,并且编码类型为utf-8

image-20231221192304122

接着点开Headers

可以看到该网页是GET类型,并且状态码是200,URL也和该页面相同

image-20231221191934151

那么接下来就可以用python来模拟request请求了

爬虫代码

其实GET方法在这里data不带进去也行,写在这里是为了更方便理解

import requests
from lxml import etreeurl = 'https://loryx.wiki/%E6%B5%8F%E8%A7%88/%E7%89%8C%E5%BA%93'
data = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/231.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/231.36 Edg/120.1.1.0'
}res = requests.get(url=url, data=data)
res.encoding = 'utf-8'

接下来拿到了request对象后就可以来对元素进行筛选了

首先获取完整的网页源码print(res.text)

打印结果为image-20231221193053517

可以看见没有问题,那么继续用etree进行解析

et = etree.HTML(res.text)

继续分析网页内容

在图片链接处右键进入检查

image-20231221194218391

然后我们就得到了标签页信息,我们将要获取的就是td标签中的col15 leftalign元素中的a标签的href链接信息,于此同时我们还需要对应的内容来作为图片的名称,否则你将会看到一堆乱码的哈希值

这里就用卡牌名称作为图片名,取元素的方法也和图片同理

# 图片链接
src = et.xpath("//td[@class='col15 leftalign']/a/@href")# 图片名称
name = et.xpath("//td[@class='col0 leftalign']/text()")

当前所有采集到的内容都存储在srcname这两个列表中

我们打印src就可以看到这样的图片链接image-20231221194906708

打开后就可以在浏览器中看到图片

image-20231221195013088

该效果说明我们下载图片的原理还是向这个网页发送请求然后再获取返回的结果

图片下载

演示只取9张图片,不然的话可以直接range(len(src))

for i in range(9):with open(f"img/{name[i]}.png", 'wb') as f:f.write(requests.get(src[i]).content)

这里需要注意要用wb,因为写入的是二进制数据

运行程序

image-20231221200120481

OK完工

总结

以上就是python中最基础的爬虫案例,当然实际项目中基本不会有用with open(f"img/{name[i]}.png", 'wb') as f:这种写法,因为效率太低了,本篇文章只是为了以最直观的方式呈现爬虫下载图片的原理

完整代码:

import requests
from lxml import etreeurl = 'https://loryx.wiki/%E6%B5%8F%E8%A7%88/%E7%89%8C%E5%BA%93'
data = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 Edg/120.0.0.0'
}res = requests.get(url=url, data=data)
res.encoding = 'utf-8'
et = etree.HTML(res.text)
# print(res.text)
src = et.xpath("//td[@class='col15 leftalign']/a/@href")
name = et.xpath("//td[@class='col0 leftalign']/text()")
for i, index in enumerate(name):name[i] = index.strip()for i in range(9):with open(f"img/{name[i]}.png", 'wb') as f:f.write(requests.get(src[i]).content)
http://www.zhongyajixie.com/news/51847.html

相关文章:

  • 曲阳做网站百度高级检索入口
  • 徐州网站建设培训关键词排名优化
  • 如何创建个人网站模板怎么推广比较好
  • 西安学校网站建设优化大师有必要花钱吗
  • 网站开网站开发设计公司营销软件
  • 滨州五学一做考试网站百度站内搜索代码
  • 男女做暧暧视频免费网站网页搜索引擎大全
  • 做视频网站需要什么空间哪里有免费的网站推广
  • 做网站价格多少钱网站seo搜索
  • java做的k线图网站源码下载2019网站seo
  • 无极网站建设质量企业优化推广
  • 网站自然排名怎么做合肥seo
  • 青海网站建设公司百度域名注册官网
  • 数据库网站开发教程软文的概念
  • 上传完wordpress程序不知道后台郑州客串seo
  • 坂田做网站福州百度推广排名优化
  • 网站管理助手4.0破解青岛seo服务公司
  • 怎么检查网站有没有被挂马爱站网关键词搜索工具
  • 旅游预定型网站建设选择一个产品做营销方案
  • 公司主页网站制作微营销推广平台有哪些
  • 哪个网站做h5好用网页设计用什么软件
  • 在什么网站做兼职大数据分析网站
  • 网站制作 用户登录系统永久观看不收费的直播
  • wordpress 设成中文seo关键词排名优化的方法
  • 网站自动登录怎么做怎样进行seo
  • 网站建设的基本流程seo推广视频隐迅推专业
  • 网站图片调用哈尔滨网络推广
  • 网站网页怎么做武安百度seo
  • pdf 网站建设百度代理授权查询
  • 做网站哪个公司好电商怎么推广自己的产品