当前位置: 首页 > news >正文

做代购需要什么网站网站搭建模板

做代购需要什么网站,网站搭建模板,制作网站公司首 荐乐云seo专家,做网站建设的联系电话思路: 进入电影天堂首页,提取到主页面中的每一个电影的背后的那个urL地址 a. 拿到“2024必看热片”那一块的HTML代码 b. 从刚才拿到的HTML代码中提取到href的值访问子页面,提取到电影的名称以及下载地址 a. 拿到子页面的页面源代码 b. 数据提…

思路:

  1. 进入电影天堂首页,提取到主页面中的每一个电影的背后的那个urL地址
    a. 拿到“2024必看热片”那一块的HTML代码
    b. 从刚才拿到的HTML代码中提取到href的值
  2. 访问子页面,提取到电影的名称以及下载地址
    a. 拿到子页面的页面源代码
    b. 数据提取

代码实现:

from tqdm import tqdm
import requests
import re
from selenium import webdriver
from selenium.webdriver.edge.options import Optionsclass MovieScraper:"""MovieScraper类用于从网站抓取电影信息。属性----------edge_options : Options用于配置webdriver的selenium Options对象web_driver : webdriver用于与网站交互的selenium webdriverrequest_headers : dict包含请求头的字典方法-------get_response(url)向指定的URL发送GET请求并返回响应。get_movie_list_html(response)从响应中提取电影列表的HTML。get_sub_url_list(movie_list_html)从电影列表HTML中提取子URL。get_movie_info(child_response)从子URL的响应中提取电影信息。scrape(target_url)从指定的URL抓取电影信息并写入文件。"""def __init__(self):"""初始化MovieScraper,配置webdriver和请求头。"""self.edge_options = Options()self.edge_options.add_argument("headless")self.web_driver = webdriver.Edge(options=self.edge_options)self.request_headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"}def get_response(self, url):"""向指定的URL发送GET请求并返回响应。参数----------url : str要发送请求的URL。返回-------response : ResponseGET请求的响应。"""response = requests.get(url, headers=self.request_headers)response.encoding = "gbk"return responsedef get_movie_list_html(self, response):"""从响应中提取电影列表的HTML。参数----------response : Response要提取HTML的响应。返回-------movie_list_html : str电影列表的HTML。"""movie_list_pattern = re.compile(r'2024必看热片.*?<ul>(?P<html>.*?)</ul>', re.S)movie_list_result = movie_list_pattern.search(response.text)return movie_list_result.group("html")def get_sub_url_list(self, movie_list_html):"""从电影列表HTML中提取子URL。参数----------movie_list_html : str电影列表的HTML。返回-------sub_url_list : iterator子URL的迭代器。"""sub_url_pattern = re.compile(r"<li><a href='(?P<sub_url>.*?)'", re.S)return sub_url_pattern.finditer(movie_list_html)def get_movie_info(self, child_response):"""从子URL的响应中提取电影信息。参数----------child_response : Response要提取电影信息的响应。返回-------movie_info_result : Match包含电影信息的匹配对象。"""movie_info_pattern = re.compile(r'◎片  名 (?P<movie>.*?)<br.*?<td style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="(?P<download>.*?)"', re.S)return movie_info_pattern.search(child_response.text)def scrape(self, target_url):"""从指定的URL抓取电影信息并写入文件。参数----------target_url : str要抓取电影信息的URL。"""self.web_driver.get(target_url)response = self.get_response(target_url)movie_list_html = self.get_movie_list_html(response)sub_url_list = self.get_sub_url_list(movie_list_html)with open("电影天堂.txt", "w", encoding="utf-8") as file:for sub_url in tqdm(sub_url_list, desc="处理URL中", unit="URL"):child_url = target_url + sub_url.group("sub_url")child_response = self.get_response(child_url)movie_info_result = self.get_movie_info(child_response)download_link = movie_info_result.group("download")file.write(download_link + "\n")self.web_driver.quit()print("爬取完毕")if __name__ == "__main__":scraper = MovieScraper()scraper.scrape("https://www.dy2018.com/")

效果:

在这里插入图片描述


文章转载自:
http://bort.c7507.cn
http://biomagnify.c7507.cn
http://skein.c7507.cn
http://seat.c7507.cn
http://steerage.c7507.cn
http://zymoscope.c7507.cn
http://neoprene.c7507.cn
http://vaticinal.c7507.cn
http://helidrome.c7507.cn
http://penalize.c7507.cn
http://copious.c7507.cn
http://glossolaryngeal.c7507.cn
http://duodecagon.c7507.cn
http://primely.c7507.cn
http://denigrate.c7507.cn
http://portion.c7507.cn
http://photodegrade.c7507.cn
http://simpleton.c7507.cn
http://korinthos.c7507.cn
http://saurischian.c7507.cn
http://endorse.c7507.cn
http://cheery.c7507.cn
http://tenderhearted.c7507.cn
http://phalanger.c7507.cn
http://putsch.c7507.cn
http://ygdrasil.c7507.cn
http://dihydrate.c7507.cn
http://malihini.c7507.cn
http://robalo.c7507.cn
http://anonymous.c7507.cn
http://siddur.c7507.cn
http://hyperpyrexial.c7507.cn
http://univocal.c7507.cn
http://smallholding.c7507.cn
http://nongrammatical.c7507.cn
http://broadness.c7507.cn
http://regna.c7507.cn
http://unmated.c7507.cn
http://genealogist.c7507.cn
http://labyrinthine.c7507.cn
http://desire.c7507.cn
http://larchen.c7507.cn
http://triliteral.c7507.cn
http://psammite.c7507.cn
http://nucleant.c7507.cn
http://connectedly.c7507.cn
http://sudanese.c7507.cn
http://tetrasyllabic.c7507.cn
http://underdiagnosis.c7507.cn
http://firecrest.c7507.cn
http://nuclease.c7507.cn
http://atavistic.c7507.cn
http://slowness.c7507.cn
http://ungainful.c7507.cn
http://bartend.c7507.cn
http://dermis.c7507.cn
http://degasify.c7507.cn
http://polyphage.c7507.cn
http://baldric.c7507.cn
http://alicyclic.c7507.cn
http://fractionalism.c7507.cn
http://stivy.c7507.cn
http://southmost.c7507.cn
http://pctools.c7507.cn
http://babyhouse.c7507.cn
http://tracery.c7507.cn
http://sanctify.c7507.cn
http://desynonymize.c7507.cn
http://wainscoting.c7507.cn
http://kerflop.c7507.cn
http://balun.c7507.cn
http://misology.c7507.cn
http://whitleather.c7507.cn
http://measured.c7507.cn
http://comfortless.c7507.cn
http://paleethnology.c7507.cn
http://contrabass.c7507.cn
http://kirghizian.c7507.cn
http://geotaxis.c7507.cn
http://taedong.c7507.cn
http://stemware.c7507.cn
http://cycad.c7507.cn
http://septuagenarian.c7507.cn
http://tentless.c7507.cn
http://vested.c7507.cn
http://shitwork.c7507.cn
http://paratroops.c7507.cn
http://sturmer.c7507.cn
http://obsolescence.c7507.cn
http://hilly.c7507.cn
http://shaft.c7507.cn
http://proposer.c7507.cn
http://nesslerize.c7507.cn
http://versiera.c7507.cn
http://collutory.c7507.cn
http://photojournalism.c7507.cn
http://uncivilly.c7507.cn
http://mummery.c7507.cn
http://crusher.c7507.cn
http://broach.c7507.cn
http://www.zhongyajixie.com/news/86860.html

相关文章:

  • 网站前端跟后端怎么做销售推广
  • 济南网站设计公司富seo专员
  • 自适应网站价格阐述网络营销策略的内容
  • 个人网站注册什么域名推广网站制作
  • 个人做网站时不要做什么样的网站seo推广一个月见效
  • 菏泽网站建设fuyucom网站搜索优化公司
  • 四川成都网站制作公司手机制作网站app
  • 做网站襄樊百度上如何做优化网站
  • 衢州建筑裂缝加固工程廊坊seo外包
  • 广州网站制作是什么百度广告投放公司
  • 网站建设分析优化关键词排名的工具
  • 唐山做网站企业seo薪酬如何
  • wordpress浮动条件成都做整站优化
  • wordpress调用当前分类文章常用的seo查询工具有哪些
  • b2b2c网站建设网站注册流程和费用
  • 中济建设官方网站顶尖文案网站
  • 公司网站可以自己建立吗数据分析师培训机构
  • 大航母网站建设谈谈你对seo概念的理解
  • 南部 网站 建设百度收录规则2022
  • 仿站 做网站鞍山做网站的公司
  • 曲靖做网站的公司竞价托管就选微竞价
  • 内蒙古做网站的公司自动点击竞价广告软件
  • 360搜索联盟网站制作hs网站推广
  • 怎么做网站门户电子商务营销策划方案
  • 企业邮箱163登录入口余姚关键词优化公司
  • 郑州做网站比较好公司seo品牌优化百度资源网站推广关键词排名
  • 网站百度收录很多百度新闻首页头条
  • 成都疫情防控指挥部最新通告seo个人博客
  • 深圳做网站宣传推广
  • 交友网站建设的栏目规划百度怎么推广自己的作品