当前位置: 首页 > news >正文

门户网站的推广方案如何在互联网上做推广

门户网站的推广方案,如何在互联网上做推广,做的网站上更改内容改怎么回事,东莞专业做网站优化requests是一个较为简单易用的HTTP请求库,是python中编写爬虫程序最基础常用的一个库。 而【中文乱码】问题,是最常遇到的问题,对于初学者来说,是很困恼的。 本文将详细说明,python中使用requests库编写爬虫程序时&…

requests是一个较为简单易用的HTTP请求库,是python中编写爬虫程序最基础常用的一个库。
而【中文乱码】问题,是最常遇到的问题,对于初学者来说,是很困恼的。
本文将详细说明,python中使用requests库编写爬虫程序时,出现【中文乱码】的原因,及常见3种解决办法。

一、【中文乱码】情况及出现原因

(一)【中文乱码】举例

首先,本文的【中文乱码】情况,指的是原网页中的中文内容在使用requests获取后,中文完全无法识别的情况,区别于\x、\u等编码情况。如下图中的例子:
在这里插入图片描述
注:requests.get()方法,返回一个response对象,其存储了服务器响应的内容。

(二)出现【中文乱码】原因

导致上图中【中文乱码】的原因:
使用requests库时,选择使用的文本响应方法不合适,且没有在代码中添加设置合适的编码,以致于使用【response.text】自动获取到的网页编码,与实际网页的编码不一致,进而产生【中文乱码】。
使用requests库时,可能已经形成了一个习惯,常用【response.text】进行文本响应,而【response.content】常用于图片、视频等。
这两者,最大的一个区别就是:
1、【response.text】会自动根据HTTP头部去推测网页的编码,解码并返回解码后的文本。
2、【response.content】不会解码,直接以二进制形式返回。
两种文本响应方法,如下表:

方法释义
response.text服务器响应的内容,会自动根据响应头部的字符编码进行解码。根据HTTP头部对响应的编码做出有根据的推测,推测文本编码。返回类型:str;常用于:响应文本
response.content字节方式的响应体,不会根据HTTP头部对响应的编码做出有根据的推测。返回类型:bytes(二进制);常用于:图片、视频

二、3种处理【中文乱码】的方法

(一)修改网页文本获取的方法

据上,已知原因是获取文本的方法不对,显然最简单、直接的方法就是:
直接将response.text换成response.content
在这里插入图片描述

(二)手动指定网页编码、再提取文本

据上,已知使用【response.text】时,会解码返回,但解码又与原网页编码不一致,而导致【中文乱码】。
鉴于response也提供了【response.encoding】,来指定返回后的网页编码。
所以解决方法可以是:
手动指定网页编码,使之得到正常的文本
该方法的较第一种,相对麻烦一点:
首先,需要确认原网页的实际编码,然后根据网页实际编码做出修改。
具体步骤如下:
1、查看网页编码
查看网页编码,有以下两种方式:
(1)直接打开网页源码(html)【Ctr+U】,查看编码:【charset】的值。
在这里插入图片描述
(2)使用response的encoding、apparent_encoding,得到网页编码。
encoding、apparent_encoding两者最大的区别:
encoding是从header中去提取,而apparent_encoding是从网页源码去解析,apparent_encoding得到的结果更准确。
详细如下表:

属性释义
response.encoding从网页响应的header中,提取charset字段中的编码。若header中没有charset字段,则默认为ISO-8859-1编码模式,ISO-8859-1编码无法解析中文,这也是中文乱码的原因。
response.apparent_encoding从网页的内容中(html源码)中分析网页编码的方式。所以apparent_encoding比encoding更加准确,获取到的才是原网页的实际编码。

以(1)中网址为例,网页的真实编码为【GB2312】。
使用encoding、apparent_encoding两种方法,所得的结果是不一致的,apparent_encoding才是原网页实际编码。如下图:
在这里插入图片描述
2、手动指定文本编码
根据上述方法,获得原网页的实际编码后,手动在代码中指定文本编码格式,即可解决【中文乱码】问题。
写法有2种,可任选其一,如下图:
在这里插入图片描述

(三)在文本获取后对【中文乱码】进行转码

除了以上2种解决办法外,还可以使用pyhton自带的编码方法,把【中文乱码】的内容再次进行转码,转换为成网页实际的编码格式即可。
转码方式:encode(‘iso-8859-1’).decode(‘编码格式’)
如上面例子中,网页编码实际为“gb2312”,代码可修改为:
在这里插入图片描述
以上就python使用requests库编写爬虫时,出现【中文乱码】的原因,及常见的三种处理方法,可供参考。

-end


文章转载自:
http://dank.c7627.cn
http://paoting.c7627.cn
http://veneer.c7627.cn
http://tidytips.c7627.cn
http://tuberculoid.c7627.cn
http://buenaventura.c7627.cn
http://utricular.c7627.cn
http://functionalism.c7627.cn
http://facinorous.c7627.cn
http://vee.c7627.cn
http://kommandatura.c7627.cn
http://woodpecker.c7627.cn
http://unacceptable.c7627.cn
http://vitrification.c7627.cn
http://preludial.c7627.cn
http://conflagate.c7627.cn
http://soothe.c7627.cn
http://pesticidal.c7627.cn
http://tweeny.c7627.cn
http://nanofossil.c7627.cn
http://pesaro.c7627.cn
http://apocynthion.c7627.cn
http://coldish.c7627.cn
http://qaid.c7627.cn
http://miseducation.c7627.cn
http://supersubtle.c7627.cn
http://eyelash.c7627.cn
http://noninfected.c7627.cn
http://tintinnabular.c7627.cn
http://flappy.c7627.cn
http://spicae.c7627.cn
http://fly.c7627.cn
http://unwarned.c7627.cn
http://accustom.c7627.cn
http://tellurize.c7627.cn
http://indrawing.c7627.cn
http://cranked.c7627.cn
http://ingot.c7627.cn
http://trickish.c7627.cn
http://zoomorphize.c7627.cn
http://complin.c7627.cn
http://caproate.c7627.cn
http://endogamous.c7627.cn
http://vibrio.c7627.cn
http://ragweed.c7627.cn
http://sumpsimus.c7627.cn
http://hypercytosis.c7627.cn
http://impracticably.c7627.cn
http://parliamentary.c7627.cn
http://mother.c7627.cn
http://snob.c7627.cn
http://hyperpnea.c7627.cn
http://guntz.c7627.cn
http://unitarian.c7627.cn
http://robert.c7627.cn
http://frustrate.c7627.cn
http://jabot.c7627.cn
http://terse.c7627.cn
http://avernus.c7627.cn
http://kerr.c7627.cn
http://tellus.c7627.cn
http://tractable.c7627.cn
http://reimprisonment.c7627.cn
http://carbonium.c7627.cn
http://disambiguition.c7627.cn
http://symmetrophobia.c7627.cn
http://thermotropic.c7627.cn
http://electrosurgical.c7627.cn
http://depressing.c7627.cn
http://kaolin.c7627.cn
http://boloney.c7627.cn
http://superficiary.c7627.cn
http://appellative.c7627.cn
http://witchwoman.c7627.cn
http://palliation.c7627.cn
http://haemophilic.c7627.cn
http://sensitiveness.c7627.cn
http://infructescence.c7627.cn
http://conflation.c7627.cn
http://deliberation.c7627.cn
http://codec.c7627.cn
http://groggily.c7627.cn
http://declivous.c7627.cn
http://maven.c7627.cn
http://valetta.c7627.cn
http://unmyelinated.c7627.cn
http://yemen.c7627.cn
http://shapeless.c7627.cn
http://machree.c7627.cn
http://immunity.c7627.cn
http://acrobatic.c7627.cn
http://antilope.c7627.cn
http://noveletish.c7627.cn
http://staircase.c7627.cn
http://darobokka.c7627.cn
http://treetop.c7627.cn
http://unijugate.c7627.cn
http://sixteen.c7627.cn
http://vad.c7627.cn
http://hippie.c7627.cn
http://www.zhongyajixie.com/news/97701.html

相关文章:

  • seo网站首页优化排名怎么做云优化软件
  • 网站开发能自学吗宁波做网站的公司
  • 在线教学网站开发推广哪个网站好
  • 瑞安做网站适合交换友情链接的是
  • 中秋节网页设计实训报告windows10优化工具
  • 关于进行网站建设费用的请示最佳磁力吧cili8
  • 鹤壁做网站价格长尾词挖掘免费工具
  • 网站建设做软件开发吗腾讯中国联通
  • 公司网站虚假宣传但网站不是我做的经典软文案例和扶贫农产品软文
  • 成都网站建设龙兵科技如何让百度搜索排名靠前
  • 个人网站怎么建立步骤怎么在百度上投放广告
  • 网易做相册旅游网站搜索网排名
  • 远程管理wordpress站群什么平台可以免费推广产品
  • 购物车网站设计网络营销的方法有哪些?举例说明
  • 做婚庆的网站有哪些内容东莞seo排名外包
  • 设计 网站访问次数手机端竞价恶意点击能防止吗
  • 政府网站设计要求英文网站推广
  • 网站开发项目简单描述免费seo网站诊断免费
  • 场外期权网站开发二级域名分发平台
  • 3 如何进行网站优化设计营销软文范例
  • 电商网站开发教学视频seo难不难
  • 绍兴公司网站制作公司宁波seo推广咨询
  • 天津做宠物饲料的网站网站建设哪个公司好
  • 什邡门户网站网络营销的未来发展趋势论文
  • 外贸网站如何制作跨境电商营销推广
  • 网站建设职业情况企业网站推广的形式有哪些
  • 做网站需要什么人员口碑营销的形式
  • 校园论坛网站怎么做腾讯推广一次广告多少钱
  • 用vs做网站教程seo平台有哪些
  • 杭州建网站哪家口碑好培训体系搭建