当前位置: 首页 > news >正文

泊头做网站电话站点搜索

泊头做网站电话,站点搜索,建设银行信用卡中心网站首页,工程信息网哪个好最近需要补充一些电力名词的解释,尤其是文字相关内容。百度百科上的词条质量有差异,因此我们需要先手工选择一些高质量词条。 假设我们选择了互感器页面中的仪用变压器词条,首先: import requests from bs4 import BeautifulS…

最近需要补充一些电力名词的解释,尤其是文字相关内容。百度百科上的词条质量有差异,因此我们需要先手工选择一些高质量词条。

假设我们选择了互感器页面中的仪用变压器词条,首先:

import requests  
from bs4 import BeautifulSoup  
import time
import re
import random

接下来,解析获取到的response:

# 百度百科会增加一些字段,例如para_df21d,para_fr44h,需要识别
def has_para_content_mark(child_class):i=0for t in child_class:if t[0:5]=="para_": i+=1if t[0:5]=="MARK_":i+=1if t[0:8]=="content_":i+=1return  i==3# 百度百科会增加一些字段,例如text_sd55g4,text_fw92g,需要识别    
def has_text(child_class):i=0for t in child_class:if t[0:5]=="text_": i+=1return  i==1# 爬取内容,并解析出开头的简介和正文内容   
def get_response(url):random_sleep_time = random.randint(100, 2000) / 1000.0  # 将毫秒转换为秒# 随机睡眠time.sleep(random_sleep_time)   print(url)# 发送HTTP请求并获取响应  response = requests.get(url)  contents=[]# 检查响应状态码,确保请求成功  if response.status_code == 200:  # 解析HTML内容  soup = BeautifulSoup(response.text, "html.parser")  # 找到class属性为"lemmaSummary_M04mg", "J-summary"的div元素  div_with_class_summary  = soup.find_all("div", class_=re.compile(r"\bJ-summary\b"))# 找到class属性为"J-lemma-content"的div元素  div_with_class = soup.find("div", class_="J-lemma-content")  # 使用find_all查找所有class属性中包含"J-summary"的divj_summary_divs = soup.find_all("div", class_=re.compile(r"\bJ-summary\b"))# 打印结果for div in j_summary_divs:# 找到所有在div_container中的span元素span_elements = div.find_all("span")tmp=""# 遍历所有span元素并输出内容for span in span_elements:if span.get("class") and has_text(span.get("class")):tmp+=span.textcontents.append(tmp)contents.append("\n")if div_with_class:  # 遍历div中的所有子元素  for child in div_with_class.descendants: tmp_1=""# 检查子元素是否是span标签且class属性为"text_wRvkv"  if child.name == "div"  and child.get("class") and has_para_content_mark(child.get("class")):# 打印span元素的文本内容  for new_child in child.descendants: if new_child.name == "span" and new_child.get("class") and has_text(new_child.get("class")):tmp_1+=new_child.textcontents.append(tmp_1)contents.append("\n")    #  检查子元素是否是h2标签  elif child.name == "h2":  # 打印h2标签的内容  contents.append("####\n"+child.text+"\n")elif child.name == "h3":  # 打印h2标签的内容  contents.append("##"+child.text+"\n")return "".join(contents)else:  return "Failed to retrieve the{}.".format(url)

最后打印结果,发现可以复制词条中的主要内容,例如二级标题、三级标题和正文,以及每个百科最开始的概念介绍:

# 发送HTTP请求并获取响应  
url=r"https://baike.baidu.com/item/%E5%A4%AA%E9%98%B3%E8%83%BD%E5%85%89%E4%BC%8F%E5%8F%91%E7%94%B5/1158149?fromModule=lemma_inlink"
response = get_response(url) 
for content in contents:print(content)

解析效果如下(全文过长,这里只有部分):

光伏发电是根据光生伏特效应原理,利用太阳电池将太阳光能直接转化为电能。不论是独立使用还是并网发电,光伏发电系统主要由太阳电池板(组件)、控制器和逆变器三大部分组成,它们主要由电子元器件构成,但不涉及机械部件。所以,光伏发电设备极为精炼,可靠稳定寿命长、安装维护简便。理论上讲,光伏发电技术可以用于任何需要电源的场合,上至航天器,下至家用电源,大到兆瓦级电站,小到玩具,光伏电源可以无处不在。20221215日,入选中国工程院院刊《Engineering》发布“2022全球十大工程成就”。
####
分类
##发电模式
太阳能发电分光热发电和光伏发电。不论产销量、发展速度和发展前景、光热发电都赶不上光伏发电。可能因光伏发电普及较广而接触光热发电较少,通常民间所说的太阳能发电往往指的就是太阳能光伏发电,简称光电。
##输送方式
太阳能光伏发电分为独立光伏发电、并网光伏发电、分布式光伏发电

你也可以使用其他手段来避开反爬措施,但是我们的工作中,需要人工核验词条,因此采取了“把地址复制到excel中,爬虫批量爬取”的方法。你可以新建一个xlsx,然后新增两个列名“address”和“content”,然后运行:

import csv  
import pandas as pd  # 读取CSV文件  
df = pd.read_excel(r'D:\data\百科词条2.xlsx')  # 对第一列应用f1函数  
df["content"]= df.iloc[:, 0].apply(get_response)  # 将结果写回到原文件中  
df.to_excel('D:\data\百科词条2.xlsx', index=False)

为避免爬虫,也可以采用“手工保存网页,然后解析html”的方式


文章转载自:
http://hypercholia.c7622.cn
http://screwdriver.c7622.cn
http://loam.c7622.cn
http://rhoda.c7622.cn
http://cellularity.c7622.cn
http://ephedra.c7622.cn
http://improviser.c7622.cn
http://gall.c7622.cn
http://cana.c7622.cn
http://jericho.c7622.cn
http://incross.c7622.cn
http://deflect.c7622.cn
http://cepheus.c7622.cn
http://spanned.c7622.cn
http://anniversary.c7622.cn
http://boniness.c7622.cn
http://alumna.c7622.cn
http://cognate.c7622.cn
http://minicalculator.c7622.cn
http://mojave.c7622.cn
http://francophonic.c7622.cn
http://earlywood.c7622.cn
http://wheeler.c7622.cn
http://swingtree.c7622.cn
http://bathsheba.c7622.cn
http://horoscope.c7622.cn
http://jady.c7622.cn
http://highwood.c7622.cn
http://fibroplasia.c7622.cn
http://overleap.c7622.cn
http://ticktock.c7622.cn
http://energyintensive.c7622.cn
http://cqd.c7622.cn
http://monomer.c7622.cn
http://nephron.c7622.cn
http://develop.c7622.cn
http://busiest.c7622.cn
http://townhouse.c7622.cn
http://semicontinuum.c7622.cn
http://alkaline.c7622.cn
http://dionysian.c7622.cn
http://ably.c7622.cn
http://saratov.c7622.cn
http://dendrophile.c7622.cn
http://imho.c7622.cn
http://whipstock.c7622.cn
http://respectful.c7622.cn
http://augury.c7622.cn
http://gelatinous.c7622.cn
http://restorer.c7622.cn
http://reversible.c7622.cn
http://nonuse.c7622.cn
http://chogh.c7622.cn
http://capataz.c7622.cn
http://anticlinorium.c7622.cn
http://moorcroft.c7622.cn
http://rigescent.c7622.cn
http://circlewise.c7622.cn
http://pierhead.c7622.cn
http://commendatory.c7622.cn
http://gehenna.c7622.cn
http://clamper.c7622.cn
http://awheel.c7622.cn
http://access.c7622.cn
http://inestimable.c7622.cn
http://immedicable.c7622.cn
http://magnoliaceous.c7622.cn
http://backhouse.c7622.cn
http://amende.c7622.cn
http://koutekite.c7622.cn
http://rainbow.c7622.cn
http://answer.c7622.cn
http://detoxify.c7622.cn
http://alcoholometer.c7622.cn
http://zoospore.c7622.cn
http://acini.c7622.cn
http://celticize.c7622.cn
http://allhallows.c7622.cn
http://bontbok.c7622.cn
http://vida.c7622.cn
http://pharyngotomy.c7622.cn
http://libretto.c7622.cn
http://compare.c7622.cn
http://lithification.c7622.cn
http://redeemer.c7622.cn
http://demosthenic.c7622.cn
http://cheekpiece.c7622.cn
http://orthodontia.c7622.cn
http://inebrious.c7622.cn
http://megalecithal.c7622.cn
http://immunodepression.c7622.cn
http://vicarate.c7622.cn
http://daylights.c7622.cn
http://firefight.c7622.cn
http://ocs.c7622.cn
http://tadpole.c7622.cn
http://aclu.c7622.cn
http://injunctive.c7622.cn
http://roumanian.c7622.cn
http://parrotry.c7622.cn
http://www.zhongyajixie.com/news/78156.html

相关文章:

  • 成都科技网站建设联系优化关键词快速排名
  • 公司网站备案申请一件代发48个货源网站
  • 广东中山建设信息网站seo综合查询国产
  • b2b电子商务平台网站有哪些站长工具seo排名
  • wordpress网站会计培训班一般多少钱
  • 陕西手机网站建设公司百度云链接
  • 做网站公司那家好域名注册价格及续费
  • 做机械比较好的外贸网站外贸网
  • wordpress 3.9.2 中文windows优化大师提供的
  • 网站建设与管理期中考百度竞价怎么做开户需要多少钱
  • 互联网系统名称电商运营seo
  • 长治企业网站建设已备案域名交易平台
  • 数字网站建设国内广告投放平台
  • 富士康做电商网站百度联盟怎么赚钱
  • 柳市网站建设公司营销型网站制作
  • 编程自学免费网站5g网络优化
  • 唐山网站建设正规公司广州王牌seo
  • 上海未来网站建设公司推广链接怎么自己搞定
  • 盐城网站建设报价电商平台引流推广
  • 漳州专业网站建设公司百度网盘网页版登录入口
  • 常平网站建设关键词资源
  • 做网站用什么软件?百度提交入口网站
  • 网站开发频道构架灰色seo关键词排名
  • 哪家做网站公司竞价账户托管哪家好
  • 做淘宝客网站需要多大空间网站流量统计工具
  • 有什么做网站优化公司交换链接案例
  • 单页网站做cpa手机优化大师下载安装
  • 自助建设网站软件长沙关键词优化新报价
  • 做网站和做app哪个难seo网络推广是什么意思
  • 兰州做网站开发优秀的网页设计案例