当前位置：首页 > news >正文

金融网站怎么做网络营销首先要进行

news 2025/8/6 9:48:13

金融网站怎么做,网络营销首先要进行,淄博建设企业网站,网站怎么做网站地图目录 1、Beautiful Soup 2、解析数据 3、遍历文档树 4、搜索文档树一、Beautiful Soup 1、什么是Beautiful Soup 定义：Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库. 功能：它能够通过你喜欢的转换器实现惯用的文档导航,查找,修…

一、Beautiful Soup

1、什么是Beautiful Soup

定义：Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.

功能：它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.

优点：Beautiful Soup会帮你节省数小时甚至数天的工作时间.

2、解析器

Beautiful Soup支持Python标准库中的HTML解析器，还支持一些第三方的解析器：

解析器	使用方法	优势	劣势
Python标准库	`BeautifulSoup(markup, "html.parser")`	Python的内置标准库执行速度适中文档容错能力强	Python 2.7.3 or 3.2.2)前的版本中文档容错能力差
lxml HTML 解析器	`BeautifulSoup(markup, "lxml")`	速度快文档容错能力强	需要安装C语言库
lxml XML 解析器	BeautifulSoup(markup, ["lxml-xml"])``BeautifulSoup(markup, "xml")	速度快唯一支持XML的解析器	需要安装C语言库
html5lib	`BeautifulSoup(markup, "html5lib")`	最好的容错性以浏览器的方式解析文档生成HTML5格式的文档	速度慢不依赖外部扩展

3、安装与配置

# 安装requests模块
pip install requests==2.10.0

# 安装beautiful soup4
pip install bs4

# 安装lxml解析器
pip install lxml

二、解析数据

1、标签

每个tag都有自己的名字，通过soup.name来获取标签。

# 获取p标签
p = soup.p
print(p)
# 获取title标签
title = soup.title
print(title)

注意：如果有多个相同的标签，则会返回第一个。

2.1属性

一个标签可能有很多个属性。例如：标签 <b class="boldest"> 有一个 class 的属性，值为 boldest 。标签的属性的操作方法与字典相同。

获取指定标签的单一属性，类似字典方式

# 获取p标签的class属性
attrs = soup.p["class"]
print(attrs)

注意：最常见的多值的属性是 class (一个标签可以有多个CSS的class). 还有一些属性 rel , rev , accept-charset , headers , accesskey . 在Beautiful Soup中多值属性的返回类型是list。

获取指定标签的单一属性，通过attrs方式

# 通过attrs获取p标签的id属性
id_ = soup.p.attrs["id"]
print(id_)

获取指定标签的所有属性：

# 获取指定标签的所有属性
p_attrs = soup.p.attrs
print(p_attrs)

2、标签内容

通过.text和.string获取标签节点的内容，也可以通过.strings获取标签节点下的所有内容。

# 获取单个标签的内容
text = soup.p.text
print(text)
print(soup.p.string)
# 获取该标签下所有的内容，返回generator生成器
strings = soup.div.strings
for st in strings:print(st)

三、遍历文档树

1、子节点

标签小技巧获取层级子节点：

# tag小技巧获取层级子节点
print(soup.body.div.p)

.contents：将标签的子节点以列表的方式输出

# 获取div标签下的所有子节点
print(soup.body.div.contents)# 获取div标签下的第二个子节点
print(soup.body.div.contents[1])# 获取div标签下的第二个子节点的标签名
print(soup.body.div.contents[1].name)# 获取div标签下的第二个子节点的所有属性
print(soup.body.div.contents[1].attrs)

.children：对标签的子节点进行循环

# 获取div下的的子节点
children = soup.body.div.children
print(children)
# 循环打印节点信息
for child in children:print(child)

.descendants：对所有标签的子孙节点进行递归循环

descendants = soup.body.descendants
for des in descendants:print(des)

2、父节点

.parent：获取某个元素的父节点

print(soup.p.parent)

.parents：递归得到元素的所有父辈节点

parents = soup.p.parents
for p in parents:
print(p)

3、兄弟节点

.next_sibling：获取下级单个兄弟节点

print(soup.p.next_sibling.next_sibling)

.previous_sibling：获取上级单个兄弟节点

print(soup.body.previous_sibling.previous_sibling)

注意：在使用.next_sibling和.previous_sibling获取单个兄弟节点时，兄弟节点之间存在顿号和换行符的可能！！！

四、搜索文档树

1、find

find方法，语法格式如下：

find( name , attrs , recursive , string , kwargs )**

参数说明：

参数	说明
`name`	需要查找的标签名，可以是字符串、正则表达式、列表或True
`attrs`	需要查找的标签的属性，可以是字典类型或关键字参数
`recursive`	是否递归地搜索子标签，默认为`True`，即会搜索所有子孙标签
`string`	需要查找的标签中包含的文本内容
`kwargs`	其他属性条件

通过find方法搜索指定的标签。

print(soup.find('p', class_="aa"))
print(soup.find('p', class_="aa", id="username"))

注意：class类样式的处理。

True 可以匹配任何值，如下示例返回第一个节点：

print(soup.find(True))

2、find_all

find_all()方法的基本语法如下：

find_all(name=None, attrs={}, recursive=True, text=None, limit=None, **kwargs)

参数说明：

参数	说明
`name`	需要查找的标签名，可以是字符串、正则表达式、列表或True
`attrs`	需要查找的标签的属性，可以是字典类型或关键字参数
`recursive`	是否递归地搜索子标签，默认为`True`，即会搜索所有子孙标签
`text`	需要查找的标签中包含的文本内容
`limit`	限制返回的结果数量，可以传入一个整数值

返回值：

如果找到满足条件的元素，则返回一个包含这些元素的列表。
如果未找到满足条件的元素，则返回一个空列表。

find_add方法搜索当前标签下所有子节点，并判断是否符合过滤器的条件。

all = soup.find_all('p')
for a in all:print(a)
print(soup.find_all(["p", "input"]))

3、css选择器

Beautiful Soup支持大部分的CSS选择器。在 Tag 或 BeautifulSoup 对象的 .select() 方法中传入字符串参数, 即可使用CSS选择器的语法找到标签：

print(soup.select("title"))
print(soup.select("body div"))
print(soup.select("p.aa"))

文章转载自：
http://thrillingly.c7496.cn
http://apercu.c7496.cn
http://xiphura.c7496.cn
http://position.c7496.cn
http://newborn.c7496.cn
http://semicircular.c7496.cn
http://rhomboid.c7496.cn
http://illogically.c7496.cn
http://draconic.c7496.cn
http://linendraper.c7496.cn
http://laddic.c7496.cn
http://trichotomy.c7496.cn
http://rebloom.c7496.cn
http://karun.c7496.cn
http://tetralogy.c7496.cn
http://lincolnian.c7496.cn
http://bacchae.c7496.cn
http://rondure.c7496.cn
http://forklike.c7496.cn
http://transgenosis.c7496.cn
http://sward.c7496.cn
http://approximately.c7496.cn
http://statutable.c7496.cn
http://tragicomedy.c7496.cn
http://fresher.c7496.cn
http://iritis.c7496.cn
http://earthstar.c7496.cn
http://asa.c7496.cn
http://cytoecology.c7496.cn
http://heteroscedasticity.c7496.cn
http://sisterly.c7496.cn
http://ivb.c7496.cn
http://hypnodrama.c7496.cn
http://coxa.c7496.cn
http://supinate.c7496.cn
http://testcross.c7496.cn
http://hosteller.c7496.cn
http://laciness.c7496.cn
http://flotsan.c7496.cn
http://viroid.c7496.cn
http://selectron.c7496.cn
http://pergamum.c7496.cn
http://vestiary.c7496.cn
http://lapsible.c7496.cn
http://puzzlepated.c7496.cn
http://zoantharia.c7496.cn
http://stagger.c7496.cn
http://swordfish.c7496.cn
http://tinnient.c7496.cn
http://inkwell.c7496.cn
http://danubian.c7496.cn
http://tumbling.c7496.cn
http://oceanicity.c7496.cn
http://diphthong.c7496.cn
http://orthocephalic.c7496.cn
http://cogent.c7496.cn
http://egomania.c7496.cn
http://leman.c7496.cn
http://aminotransferase.c7496.cn
http://culm.c7496.cn
http://londonize.c7496.cn
http://eastbound.c7496.cn
http://decca.c7496.cn
http://complementizer.c7496.cn
http://vulgarly.c7496.cn
http://deprecate.c7496.cn
http://mycobacterium.c7496.cn
http://bicycle.c7496.cn
http://sconce.c7496.cn
http://sateen.c7496.cn
http://not.c7496.cn
http://flavoring.c7496.cn
http://basophilic.c7496.cn
http://songstress.c7496.cn
http://bodhidharma.c7496.cn
http://chappow.c7496.cn
http://pionium.c7496.cn
http://ethnogeny.c7496.cn
http://peculation.c7496.cn
http://tradesfolk.c7496.cn
http://dulcet.c7496.cn
http://irrotional.c7496.cn
http://prerequisite.c7496.cn
http://nonaqueous.c7496.cn
http://abecedarium.c7496.cn
http://film.c7496.cn
http://everard.c7496.cn
http://wafery.c7496.cn
http://trill.c7496.cn
http://lyre.c7496.cn
http://ventless.c7496.cn
http://protamine.c7496.cn
http://clod.c7496.cn
http://scrubboard.c7496.cn
http://stearin.c7496.cn
http://ddd.c7496.cn
http://orthorhombic.c7496.cn
http://direttissima.c7496.cn
http://nixie.c7496.cn
http://bespeak.c7496.cn

查看全文

http://www.zhongyajixie.com/news/85895.html

怎么做网站首页关键词百度排名工具

访问国外网站用什么dns企业网站的功能

做养生网站需要什么资质免费的编程自学网站

陕西天工建设有限公司官方网站全网霸屏推广系统

深圳网站建设ctbsj搜索引擎优化案例分析

沧州做网站费用杭州关键词优化外包

北京房山网站建设产品更新培训深圳营销型网站

有哪些做网站的搜索优化seo

wordpress设置数据库密码零基础学seo要多久

网页设计实验报告实验内容seo优化上海牛巨微

深圳做棋牌网站建设找哪家公司好网站页面布局和样式设计

金融网站怎么做网络营销首先要进行

目录

一、Beautiful Soup

1、什么是Beautiful Soup

2、解析器

3、安装与配置

# 安装requests模块
pip install requests==2.10.0

# 安装beautiful soup4
pip install bs4

# 安装lxml解析器
pip install lxml

二、解析数据

1、标签

2.1属性

2、标签内容

三、遍历文档树

1、子节点

# tag小技巧获取层级子节点
print(soup.body.div.p)

2、父节点

print(soup.p.parent)

parents = soup.p.parents
for p in parents:
print(p)

3、兄弟节点

print(soup.p.next_sibling.next_sibling)

print(soup.body.previous_sibling.previous_sibling)

四、搜索文档树

1、find

find( name , attrs , recursive , string , kwargs )**

print(soup.find('p', class_="aa"))
print(soup.find('p', class_="aa", id="username"))

print(soup.find(True))

2、find_all

find_all(name=None, attrs={}, recursive=True, text=None, limit=None, kwargs)**

3、css选择器

相关文章：

目录

一、Beautiful Soup

1、什么是Beautiful Soup

2、解析器

3、安装与配置

# 安装requests模块 pip install requests==2.10.0

# 安装beautiful soup4 pip install bs4

# 安装lxml解析器 pip install lxml

二、解析数据

1、标签

2.1属性

2、标签内容

三、遍历文档树

1、子节点

# tag小技巧获取层级子节点 print(soup.body.div.p)

2、父节点

print(soup.p.parent)

parents = soup.p.parents for p in parents: print(p)

3、兄弟节点

print(soup.p.next_sibling.next_sibling)

print(soup.body.previous_sibling.previous_sibling)

四、搜索文档树

1、find

find( name , attrs , recursive , string , **kwargs )

print(soup.find('p', class_="aa")) print(soup.find('p', class_="aa", id="username"))

print(soup.find(True))

2、find_all

find_all(name=None, attrs={}, recursive=True, text=None, limit=None, **kwargs)

3、css选择器

相关文章：

# 安装requests模块
pip install requests==2.10.0

# 安装beautiful soup4
pip install bs4

# 安装lxml解析器
pip install lxml

# tag小技巧获取层级子节点
print(soup.body.div.p)

parents = soup.p.parents
for p in parents:
print(p)

find( name , attrs , recursive , string , kwargs )**

print(soup.find('p', class_="aa"))
print(soup.find('p', class_="aa", id="username"))

find_all(name=None, attrs={}, recursive=True, text=None, limit=None, kwargs)**