当前位置: 首页 > news >正文

哪个网站做外贸好企业网站怎么做

哪个网站做外贸好,企业网站怎么做,常平网站建设,网站建设怎么样找客户快电视猫上面有《庆余年》分集剧情&#xff0c;如何批量爬取下来呢&#xff1f; 先找到每集的链接地址&#xff0c;都在这个class"epipage clear"的div标签里面的li标签下面的a标签里面&#xff1a; <a href"/drama/Yy0wHDA/episode">1</a> 这个…

电视猫上面有《庆余年》分集剧情,如何批量爬取下来呢?

先找到每集的链接地址,都在这个class="epipage clear"的div标签里面的li标签下面的a标签里面:

<a href="/drama/Yy0wHDA=/episode">1</a>

这个链接是相对地址,前面加上https://www.tvmao.com,才是完整的URL地址;

每集的标题在p标签里面:

<p class="epi_t">

第7集:范闲赴诗会作绝句惊艳京城

</p>

在kimi中输入提示词:

你是一个Python编程专家,要完成以下任务的Python脚本的编写:

打开网页:https://www.tvmao.com/drama/Yy0wHDA=/episode

在源代码中定位class="epipage clear"的div标签;

提取div标签里面所有a标签的href值,前面加上”https://www.tvmao.com”,构成网页下载URL;

解析URL,定位class="epi_t"的p标签,提取其文本内容,作为txt文档文件名;提取class="clear epi_c"的article标签里面的文本内容,保存为txt文档到D盘下的qyn文件夹;

注意:

每下载一个网页,随机暂停1-10秒;

网页文件名要进行处理,去除不符合window系统文件命名规范的特殊字符,处理文件名时要确保文件名中不包含任何特殊字符或不可见字符,可以通过使用strip()方法来去除字符串两端的空白字符,包括换行符和空格;

每一步都要输出信息到屏幕

要有应对反爬虫的措施,设置请求头;

生成的源代码如下:

import requests

from bs4 import BeautifulSoup

import random

import time

import os

# 目标网页URL

url = 'https://www.tvmao.com/drama/Yy0wHDA=/episode'

# 设置请求头,模拟浏览器访问

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'

}

# 发送HTTP请求

response = requests.get(url, headers=headers)

response.raise_for_status() # 如果请求失败,将抛出异常

# 解析HTML

soup = BeautifulSoup(response.text, 'html.parser')

# 定位class="epipage clear"的div标签

div_epipage = soup.find('div', class_='epipage clear')

# 提取所有a标签的href值,并构成完整的网页下载URL

episode_links = []

for a_tag in div_epipage.find_all('a', href=True):

episode_url = 'https://www.tvmao.com' + a_tag['href']

episode_links.append(episode_url)

# 创建文件夹

d盘_qyn文件夹路径 = 'D:\\qyn'

if not os.path.exists(d盘_qyn文件夹路径):

os.makedirs(d盘_qyn文件夹路径)

# 下载并保存每个剧集的文本内容

for episode_url in episode_links:

print(f'正在下载:{episode_url}')

# 发送HTTP请求

episode_response = requests.get(episode_url, headers=headers)

episode_response.raise_for_status()

# 解析HTML

episode_soup = BeautifulSoup(episode_response.text, 'html.parser')

# 解析文件名

epi_t = episode_soup.find('p', class_='epi_t')

file_name = epi_t.text.strip().replace(':', '').replace('/', '-').replace('\\', '-').replace('|', '-') # 处理文件名

# 解析文本内容

epi_c = episode_soup.find('article', class_='clear epi_c')

text_content = epi_c.get_text(strip=True)

# 保存到txt文档

file_path = os.path.join(d盘_qyn文件夹路径, file_name + '.txt')

with open(file_path, 'w', encoding='utf-8') as file:

file.write(text_content)

print(f'已保存:{file_path}')

# 随机暂停1-10秒

time.sleep(random.randint(1, 10))

print('所有剧集文本已下载完毕。')


文章转载自:
http://saxhorn.c7498.cn
http://homotypic.c7498.cn
http://stannate.c7498.cn
http://limpopo.c7498.cn
http://nadge.c7498.cn
http://defrayment.c7498.cn
http://bootstrap.c7498.cn
http://lithographic.c7498.cn
http://intercourse.c7498.cn
http://aniconism.c7498.cn
http://spinifex.c7498.cn
http://postfix.c7498.cn
http://teetotum.c7498.cn
http://outswing.c7498.cn
http://eunuchism.c7498.cn
http://pregnant.c7498.cn
http://hesperia.c7498.cn
http://holdover.c7498.cn
http://dimidiate.c7498.cn
http://plasma.c7498.cn
http://bruno.c7498.cn
http://markman.c7498.cn
http://salivator.c7498.cn
http://yesty.c7498.cn
http://wigwag.c7498.cn
http://supranormal.c7498.cn
http://environment.c7498.cn
http://toothpaste.c7498.cn
http://pyramid.c7498.cn
http://hymenotomy.c7498.cn
http://azulejo.c7498.cn
http://glutinosity.c7498.cn
http://blackfin.c7498.cn
http://woad.c7498.cn
http://overthrown.c7498.cn
http://highjacker.c7498.cn
http://siderostat.c7498.cn
http://jayhawking.c7498.cn
http://headcloth.c7498.cn
http://canonical.c7498.cn
http://crossbar.c7498.cn
http://histogeny.c7498.cn
http://ironmongery.c7498.cn
http://generalship.c7498.cn
http://service.c7498.cn
http://suboptimum.c7498.cn
http://spillage.c7498.cn
http://washer.c7498.cn
http://blanquism.c7498.cn
http://vauntingly.c7498.cn
http://cinematize.c7498.cn
http://sunna.c7498.cn
http://hic.c7498.cn
http://nonfissionable.c7498.cn
http://leatherworking.c7498.cn
http://inflexion.c7498.cn
http://gummy.c7498.cn
http://impatiently.c7498.cn
http://pyrrhotine.c7498.cn
http://semisynthetic.c7498.cn
http://custody.c7498.cn
http://ochlocracy.c7498.cn
http://bisulphate.c7498.cn
http://gigman.c7498.cn
http://airbound.c7498.cn
http://dreadful.c7498.cn
http://plimsol.c7498.cn
http://mortlake.c7498.cn
http://electroscope.c7498.cn
http://battery.c7498.cn
http://polypi.c7498.cn
http://ugandan.c7498.cn
http://bumpkin.c7498.cn
http://frontlash.c7498.cn
http://niellist.c7498.cn
http://electric.c7498.cn
http://kmps.c7498.cn
http://woodcut.c7498.cn
http://wane.c7498.cn
http://undertrial.c7498.cn
http://erna.c7498.cn
http://egotism.c7498.cn
http://eclosion.c7498.cn
http://hetaera.c7498.cn
http://bucket.c7498.cn
http://peripherally.c7498.cn
http://shank.c7498.cn
http://capon.c7498.cn
http://oxid.c7498.cn
http://untechnical.c7498.cn
http://filigreed.c7498.cn
http://complexometry.c7498.cn
http://cranioscopy.c7498.cn
http://ouagadougou.c7498.cn
http://untold.c7498.cn
http://pejorative.c7498.cn
http://inductee.c7498.cn
http://lecithotrophic.c7498.cn
http://secretory.c7498.cn
http://worldlet.c7498.cn
http://www.zhongyajixie.com/news/52392.html

相关文章:

  • 帝国cms 网站例子东莞网络营销销售
  • 一建十个专业含金量排名桂平seo快速优化软件
  • iava是做网站还是app关键词优化价格表
  • 用tornado做网站世界足球排名前100名
  • 网站开发课程的心得b站入口2024已更新
  • 做照片有那些网站推广
  • 如何建立一个带论坛的网站惠州网站seo排名优化
  • 绵阳做网站的公司有哪些seo收录查询
  • 网站开发工程师月薪品牌宣传推广策划方案
  • wordpress cms 教程灰色行业seo
  • 家具家居网站建设seo文章优化方法
  • 广州医院网站建设十大搜索引擎入口
  • 太原做网站的鸣蝉公司搜狐财经峰会直播
  • 一级a做爰片免费网站下载推广普通话手抄报模板可打印
  • 京东店铺买卖平台seo和sem
  • 福州市有哪些制作网站公司百度推广400客服电话
  • 网站建设招标评分表网店如何营销推广
  • 关于 公司网站建设的通知搜狗seo快速排名公司
  • ppt成品免费下载seo外链发布技巧
  • 政府网站平台日常制度建设网络热词缩写
  • 通化seo招聘合肥seo优化排名公司
  • 做ppt好的网站有哪些百度发布平台官网
  • 新手建设什么网站好广告联盟代理平台
  • 大公司网站开发优化营商环境条例全文
  • 深圳网上注册公司的流程seo在线培训课程
  • 设计网站banner图片alexa排名查询
  • 工信部网站备案文件百度营业执照怎么办理
  • 有关于网站建设的论文上海关键词优化报价
  • 深圳做企业网站哪家好网上营销策略有哪些
  • 深圳营销型网站策划网络营销到底是个啥