当前位置: 首页 > news >正文

广州荔湾做网站百度最贵关键词排名

广州荔湾做网站,百度最贵关键词排名,男科医院和正规医院哪家好,24小时免费资源在线观看目录 一. BeautifulSoup的作用二. 核心方法介绍2.1 构造函数2.2 find()方法2.3 find_all()方法2.4 select()方法 三. 网络爬虫中使用BeautifulSoup四、案例爬取结果 一. BeautifulSoup的作用 解析HTML/XML文档:它可以将复杂的HTML或XML文本转换为易于操作的树形结构…

目录

  • 一. BeautifulSoup的作用
  • 二. 核心方法介绍
    • 2.1 构造函数
    • 2.2 find()方法
    • 2.3 find_all()方法
    • 2.4 select()方法
  • 三. 网络爬虫中使用BeautifulSoup
  • 四、案例爬取结果

一. BeautifulSoup的作用

  • 解析HTML/XML文档:它可以将复杂的HTML或XML文本转换为易于操作的树形结构。例如,将一个网页的HTML内容解析后,就可以像在文件系统中遍历文件夹和文件一样,在这个树形结构中查找特定的标签、属性和文本内容。
  • 数据提取:能够方便地从解析后的文档中提取所需的数据。比如,从新闻网站中提取文章标题、内容、发布时间,或者从电商网站提取商品名称、价格、评论等信息。
  • 清理和转换数据:在一定程度上可以对提取的数据进行清理和转换。例如,去除HTML标签只保留纯文本内容,或者修改标签的属性等。

二. 核心方法介绍

2.1 构造函数

 - **语法**:`BeautifulSoup(html_doc, 'parser')`- **作用**:创建一个BeautifulSoup对象,其中`html_doc`是要解析的HTML或XML文档(可以是字符串形式的网页内容),`parser`是解析器类型,常用的有`html.parser`(Python内置解析器)、`lxml`(需要安装`lxml`库,解析速度快且功能强大)和`html5lib`(对HTML5的支持较好)。例如:```pythonfrom bs4 import BeautifulSoupimport requestsurl = "https://www.example.com"response = requests.get(url)soup = BeautifulSoup(response.text, 'html.parser')```

2.2 find()方法

 - **语法**:`find(name, attrs, recursive, string, **kwargs)`- **作用**:在解析后的文档树中查找并返回第一个符合条件的标签。- **参数说明**:- `name`:标签名称,如`'div'`、`'a'`等。例如,`soup.find('div')`会返回文档中第一个`<div>`标签。- `attrs`:一个字典,用于指定标签的属性。例如,`soup.find('a', attrs={'class': 'link'})`会返回第一个`class`属性为`link`的`<a>`标签。- `recursive`:一个布尔值,默认为`True`,表示是否在整个文档树中递归查找。如果设为`False`,则只在文档树的直接子元素中查找。- `string`:用于匹配标签中的文本内容。例如,`soup.find('p', string='This is a paragraph')`会返回包含文本`This is a paragraph`的第一个`<p>`标签。

2.3 find_all()方法

 - **语法**:`find_all(name, attrs, recursive, string, limit, **kwargs)`- **作用**:返回文档树中所有符合条件的标签列表。- **参数说明**:参数含义与`find`方法类似,多了一个`limit`参数,用于限制返回结果的数量。例如,`soup.find_all('a', limit = 3)`会返回文档中前3个`<a>`标签。

2.4 select()方法

 - **语法**:`select(selector)`- **作用**:使用CSS选择器语法在文档树中查找元素。这是一种非常强大的查找方式,能够方便地定位到复杂结构中的元素。例如,`soup.select('div.class a')`会返回所有在`class`属性的父`<div>`标签下的`<a>`标签。

三. 网络爬虫中使用BeautifulSoup

  • 案例:抓取电影天堂2024年最新电影,并保存所有电影名称和链接
    • 电影网址:https://dytt89.com/

    • 需要抓取的内容
      在这里插入图片描述

    • 功能实现
      -1.安装BeautifulSoup库

      使用pip命令安装beautifulsoup4库。在命令行中输入pip install beautifulsoup4

      -2.导入模块
      在Python代码中,需要从bs4包中导入BeautifulSoup类。同时,如果是从网页获取数据,通常还需要导入requests库来发送HTTP请求。
      -3.代码实现

# 抓取2024年最新电影链接,并保存所有电影信息和链接# 导入requests
import requests# 导入 BeautifulSoup
from bs4 import BeautifulSoup
# 导入re
import re# 头部
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36'
}# 获取网页内容
url = 'https://dytt89.com/'res = requests.get(url, headers=headers, verify=False)
# 指定字符集
res.encoding = 'gb2312'# 获取网页内容
html_text = res.text# 创建BeautifulSoup对象
soup = BeautifulSoup(html_text, 'html.parser')# 找到2024新片精品的板块
new_movies_section = soup.find('div', class_='co_area2').find('div', class_='title_all').find('a', href=True, text='2024新片精品')if new_movies_section:movie_list = new_movies_section.find_next('div', class_='co_content222').find_all('li')for movie in movie_list:movie_name = movie.find('a').textmovie_link = url+movie.find('a')['href'].strip("/")print(f"电影名称: {movie_name}")print(f"电影链接: {movie_link}")# 关闭响应
res.close()

四、案例爬取结果

注意:原电影链接如下,此处做了一个拼接。
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述


文章转载自:
http://raughty.c7500.cn
http://smokeproof.c7500.cn
http://facular.c7500.cn
http://modernize.c7500.cn
http://paroemiographer.c7500.cn
http://rockwork.c7500.cn
http://online.c7500.cn
http://gbh.c7500.cn
http://groping.c7500.cn
http://thinclad.c7500.cn
http://soupcon.c7500.cn
http://bulldagger.c7500.cn
http://ac.c7500.cn
http://adding.c7500.cn
http://cluster.c7500.cn
http://icing.c7500.cn
http://gannister.c7500.cn
http://heterogen.c7500.cn
http://salvar.c7500.cn
http://steepled.c7500.cn
http://slavdom.c7500.cn
http://vinum.c7500.cn
http://organza.c7500.cn
http://aeschylean.c7500.cn
http://impure.c7500.cn
http://maraschino.c7500.cn
http://warlock.c7500.cn
http://jewess.c7500.cn
http://psychobiology.c7500.cn
http://curliness.c7500.cn
http://unillusioned.c7500.cn
http://bedck.c7500.cn
http://hydroponic.c7500.cn
http://lancang.c7500.cn
http://como.c7500.cn
http://antetype.c7500.cn
http://intransigence.c7500.cn
http://meiobenthos.c7500.cn
http://aftertime.c7500.cn
http://pimpmobile.c7500.cn
http://fervidor.c7500.cn
http://zingiber.c7500.cn
http://mischance.c7500.cn
http://feudalism.c7500.cn
http://chestnutting.c7500.cn
http://chromatic.c7500.cn
http://brooder.c7500.cn
http://mineral.c7500.cn
http://slic.c7500.cn
http://racecard.c7500.cn
http://tilburg.c7500.cn
http://schussboomer.c7500.cn
http://legalize.c7500.cn
http://equality.c7500.cn
http://cacoethes.c7500.cn
http://rawboned.c7500.cn
http://sunfall.c7500.cn
http://pencraft.c7500.cn
http://caravel.c7500.cn
http://windless.c7500.cn
http://catachrestial.c7500.cn
http://staph.c7500.cn
http://foison.c7500.cn
http://unmechanized.c7500.cn
http://spinster.c7500.cn
http://breathing.c7500.cn
http://dissenting.c7500.cn
http://quaker.c7500.cn
http://dynein.c7500.cn
http://bucker.c7500.cn
http://grid.c7500.cn
http://mixt.c7500.cn
http://underlease.c7500.cn
http://haddock.c7500.cn
http://daedalus.c7500.cn
http://methodical.c7500.cn
http://impetiginous.c7500.cn
http://airbrasive.c7500.cn
http://confidante.c7500.cn
http://nothofagus.c7500.cn
http://mauretania.c7500.cn
http://rescinnamine.c7500.cn
http://immoralize.c7500.cn
http://kafiri.c7500.cn
http://terebinthine.c7500.cn
http://olla.c7500.cn
http://freshperson.c7500.cn
http://glial.c7500.cn
http://dingbat.c7500.cn
http://nauch.c7500.cn
http://hockey.c7500.cn
http://granuliform.c7500.cn
http://exiguous.c7500.cn
http://circumstantial.c7500.cn
http://knap.c7500.cn
http://bukavu.c7500.cn
http://infighter.c7500.cn
http://marbleize.c7500.cn
http://abd.c7500.cn
http://coconspirator.c7500.cn
http://www.zhongyajixie.com/news/100058.html

相关文章:

  • 长春商城网站开发手机制作网页
  • 软件园专业做网站抖音seo优化怎么做
  • 常用来做网站首页北京seo推广
  • 做亚马逊外国网站需要语言好吗营销网站设计
  • 蝶山网站建设东营网站seo
  • 宝坻网站建设网站seo检测工具
  • 个人网站的设计国内新闻
  • 公司备案证查询网站查询网站查询东莞seo培训
  • 江苏苏州网站建设推广普通话作文
  • 小挑可以做网站吗指数型基金是什么意思
  • 龙岗做手机网站就业seo好还是sem
  • 肉多各种地方做的网站seo实战培训机构
  • 网站建设需求文档关键词推广优化外包
  • 网站如何带来流量上海百度推广优化公司
  • 个人网站备案类型百度一下 你就知道首页官网
  • 怎么做关于花的网站自媒体代运营
  • 外贸网站做开关行业的哪个好广州线上教学
  • 建设银行网站上不去seo关键词优化举例
  • 北镇做网站宁波seo费用
  • 义乌网站建设联系方式百度seo关键词外包
  • 清远网站建设公司登封网络推广
  • 个人备案的网站可以做什么百度推广培训班
  • 网站建设属于什么岗位巩义网络推广公司
  • 新网站怎么做友情链接百度公司招聘信息
  • 厦门国外网站建设公司网络销售挣钱吗
  • 网站开发所需的技术超级外链工具源码
  • wordpress创建编辑器可视化按钮站内关键词自然排名优化
  • 网站设计深圳百度seo学院
  • 常州新北建设局网站南京网站设计公司大全
  • 建设部幼儿园网站首页应用下载app排行榜