当前位置: 首页 > news >正文

做旅游网站需要的背景百度账号设置

做旅游网站需要的背景,百度账号设置,w网站链接如何做脚注,wordpress视频代码html5目录 Xpath 安装xpath 安装lxml库 导入lxml库 解析本地文件 etree.parse() 解析服务器响应文件 etree.HTML() xpath基本语法 小案例:获取百度首页的百度一下 大案例:爬取站长素材图片 总结 Xpath 安装xpath 首先要学会安…

目录

Xpath

安装xpath

安装lxml库

导入lxml库

解析本地文件 etree.parse()

解析服务器响应文件 etree.HTML()

xpath基本语法

小案例:获取百度首页的百度一下

大案例:爬取站长素材图片

总结


Xpath

安装xpath

        首先要学会安装Xpath,我这里很简单,没有到网络上搜索,直接使用魔法在谷歌商店直接搜索xpath就可以了,下载完成之后使用 ctrl + shift + x 就可以打开了。打开效果图如下:

安装lxml库

可以使用pip安装,命令如下

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ lxml

导入lxml库

from lxml import etree

解析本地文件 etree.parse()

html_tree = etree.parse('xx.html')

解析服务器响应文件 etree.HTML()

html_tree = etree.HTML(response.read().decode('utf-8'))

那么如果使用如下代码

html_cm_tree = etree.parse('17_解析_xpath.html')
print(html_cm_tree)

我的HTML代码如下

<!DOCTYPE html>
<html lang="en">
<head><meta charset="UTF-8"/><title>Title</title>
</head>
<body><ul><li id="l1" class="c1">北京</li><li id="l2">成都</li><li class="c2">深圳</li><li id="xl2">哈尔滨</li></ul><ul><li id="l3">大连</li><li id="xl1">长春</li><li class="c3">兰州</li><li>上海</li></ul>
</body>
</html>

这样就会报错

因为xpath严格遵守HTML规范,

这里要修改为

这样,单标签就要这样写

xpath基本语法

text() 获取标签中的内容

li_id_list = html_cm_tree.xpath('//ul/li[@id]/text()')

1.路径查询:

        //:查找所有子孙节点,不考虑层级关系

        / :找直接子节点

# (1)查找ul 下面的li
# li_list = html_cm_tree.xpath('//body/ul/li')
# 下面这个写法也行
li_list = html_cm_tree.xpath('//body//li')
# 判断列表长度
print(li_list)
print(len(li_list))

2.谓词查询:

        // div[@id]

        // div[@id="maincontent"] 

# (2)查找所有id的属性的li标签
li_id_list = html_cm_tree.xpath('//ul/li[@id]/text()')
print(li_id_list)
print(len(li_id_list))# (3)查找id = l1的属性的li标签,id后面的必须要加 单引号
li_id1_list = html_cm_tree.xpath('//ul/li[@id="l1"]/text()')
print(li_id1_list)
print(len(li_id1_list))

3.属性查询:

        //@class

# (4)查找id = l1的属性的li标签的class属性值
li_id1c_list = html_cm_tree.xpath('//ul/li[@id="l1"]/@class')
print(li_id1c_list)
print(len(li_id1c_list))

4.模糊查询:

        //div[contains(@id, "he")]

        // div[starts-with(@id,"he")]

# (5)查询 id 中包含l的li标签
li_idlll_list = html_cm_tree.xpath('//ul/li[contains(@id,"l")]/text()')
print(li_idlll_list)
print(len(li_idlll_list))

5.内容查询

        //div/h1/text ()

如上使用了text()的都是

6.逻辑运算:

        //div[@id="head"and@class="s_down"]

        //title|//price

# (7)查询 id=l1 和class为c1的标签
li_idl1c1_list = html_cm_tree.xpath('//ul/li[@id="l1"and@class="c1"]/text()')
print(li_idl1c1_list)
print(len(li_idl1c1_list))# (8)查询id=l1或者=l2的
li_titpri_list = html_cm_tree.xpath('//ul/li[@id="l1"]/text() | //ul/li[@id="l2"]/text()')
print(li_titpri_list)
print(len(li_titpri_list))

小案例:获取百度首页的百度一下

from lxml import etree
import urllib.request# (1)获取网页源码
# (2)解析  解析的服务器响应的文件  etree.HTML
# (3)打印
url = 'https://www.baidu.com/'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'
}
# 请求对象的定制
request = urllib.request.Request(url=url, headers=headers)# 模拟浏览器访问服务器
response = urllib.request.urlopen(request)# 获取网页源码
content = response.read().decode('utf-8')
# print(content)# 解析网页源码,获取我们需要的数据
# 解析服务器响应的文件
tree = etree.HTML(content)# 获取想要的数据,xpath的返回值是一个列表
result = tree.xpath('//input[@id="su"]/@value')
print(result)

大案例:爬取站长素材图片

import urllib.request
from lxml import etree# (1)请求对象的定制
# (2)获取网页源码
# (3)下载# 需求:下载前十页的图片# 第一页地址
# https://sc.chinaz.com/tupian/taikongkexuetupian.html
# 第二页地址
# https://sc.chinaz.com/tupian/taikongkexuetupian_2.html
# 第三页地址
# https://sc.chinaz.com/tupian/taikongkexuetupian_3.html"""请求对象的定制
"""def create_request(page):if page == 1:url = 'https://sc.chinaz.com/tupian/taikongkexuetupian.html'else:url = ('https://sc.chinaz.com/tupian/taikongkexuetupian_'+ str(page) + '.html')headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'}request = urllib.request.Request(url=url, headers=headers)return request"""获取网页源码
"""def get_content(request):response = urllib.request.urlopen(request)content = response.read().decode('utf-8')return content"""下载
"""def down_load(content):# 下载图片# urllib.request.urlretrieve('图片地址', '文件名')tree = etree.HTML(content)img_list = tree.xpath('//div[@class="container"]//img[@src="../static/common/com_images/img-loding.png"]/@data-original')# 如果所爬取的网站是采用懒加载的方式,请使用懒加载前的地址访问name_list = tree.xpath('//div[@class="container"]//img[@src="../static/common/com_images/img-loding.png"]/@alt')for i in range(len(name_list)):name = name_list[i]img = img_list[i]# 添加上协议地址,使得地址完整url = 'https:' + img# 下载urllib.request.urlretrieve(url=url, filename='./站长素材爬取图片/' + name + '.jpg')if __name__ == '__main__':start_page = int(input("请输入起始页码"))end_page = int(input("请输入结束页码"))for page in range(start_page, end_page + 1):# 1.请求对象的定制request = create_request(page)# 2.获取网页源码content = get_content(request)# 3.下载down_load(content)

总结

ヾ( ̄▽ ̄)Bye~Bye~

http://www.zhongyajixie.com/news/21207.html

相关文章:

  • 产品介绍网站如何做seo跨境电商关键词工具
  • 电商网站购买的流程图中国十大seo
  • 做网站在哪找靠谱上海空气中检测出病毒
  • 淮北市建设委员会网站搜索引擎优化网站
  • 涿鹿镇做网站网站收录查询
  • 建设的网站服务器seo网络推广优势
  • 长沙营销型网站建设公司百度升级最新版本
  • 成都市四方建设工程监理有限公司网站企业高管培训课程有哪些
  • 佐力药业股票千股千评防城港网站seo
  • 广州网站设计建站重庆森林为什么叫这个名字
  • 山东做网站靠谱的公司培训课程开发
  • 个人性质网站名称创建网站步骤
  • 公司邮箱一般是什么格式太原seo关键词优化
  • 基于c 的网站开发做销售找客户渠道
  • 长安网站建设多少钱怎样做一个网页
  • 专业做网站app真假百度网盘在线观看资源
  • 查询注册过的网站凡科建站客服电话
  • 政府网站数据开放 建设方案公司推广渠道有哪些
  • tinkphp5网站开发网站制作公司排名
  • 南充网站建设费用电脑办公软件培训班
  • 效果图公司上海seo优化bwyseo
  • 网站没有问题但是一直做不上首页百度分析
  • 郑州二七区做网站北京seo营销公司
  • 网站不用模板如何更新文章网站推广常用方法
  • 做网站开发的青岛网站建设运营推广
  • 腾讯云注册域名后怎么做网站五合一网站建设
  • 在线做网站怎么做2022年明星百度指数排行
  • 哪些网站做微课赚钱游戏推广员怎么做
  • 做网站卖什么东西好有什么公司要做推广的
  • 通过模板做网站b2b模式的电商平台有哪些