当前位置: 首页 > news >正文

套版网站怎么做windows 优化大师

套版网站怎么做,windows 优化大师,西宁网站设计公司价格,广州做网站优化公司报价文章目录 一、爬取过程详解1.寻找视频的m3u8链接2.从网页源码中寻找视频的m3u8链接的第二部分内容3.从视频的m3u8链接获取视频 二、完整的代码 一、爬取过程详解 1.寻找视频的m3u8链接 这个文档承接了爬虫专栏的 第一节.python爬虫爬取视频网站的视频可下载的源url&#xff0…

文章目录

  • 一、爬取过程详解
    • 1.寻找视频的m3u8链接
    • 2.从网页源码中寻找视频的m3u8链接的第二部分内容
    • 3.从视频的m3u8链接获取视频
  • 二、完整的代码


一、爬取过程详解

1.寻找视频的m3u8链接

这个文档承接了爬虫专栏的 第一节.python爬虫爬取视频网站的视频可下载的源url,首先我们打开一个爬取的可以播放的视频链接,然后按F12,然后选择Network,可以看到这个网站的视频不是mp4格式的视频,而是m3u8格式的视频流,这样就不能按照mp4格式那样直接下载了,就需要下载视频流的所有视频文件然后合并得到视频。
具体的,在打开了Network后,我们可以看到一个为m3u8的文件,点开这个m3u8,这个链接就是我们真实的要获取的视频信息的链接。如下图所示。可以看到,视频的链接(1)和和视频的请求链接(3)不是同一个,这是网站做了加密的处理,也是防止爬取的一种手段。但是这个其实很简单的可以寻找到规律。
我们以图中的链接为例https://v.cdnlz3.com/20240503/23140_990db975/2000k/hls/mixed.m3u8,我们打开多个爬取的不同的视频的下载链接,以同样的方式查看其m3u8链接会发现,会发现不同的视频的m3u8的链接其实都是很相似的,链接可以拆为三部分,https://v.cdnlz3.com/+20240503/23140_990db975/+ 2000k/hls/mixed.m3u8
其中第一部分和爬取的视频的下载链接的v.cdnlz3.com/share/3893f9f84823afc5f68339ed89374d81的前面是一致的,这个信息我们已经有了,然后第三部分所有视频m3u8链接都是相同的,这个我们也有了。唯一需要寻找的信息就是第二部分的那段了。所以接下来我们就从源代码中寻找这部分的内容。
在这里插入图片描述

2.从网页源码中寻找视频的m3u8链接的第二部分内容

我们直接在F12中源码中搜索我们要找的内容20240503/23140_990db975/,直接就定位到了我们要找的位置了。由于这个内容也是js中渲染出来的,所以我们还是要使用requests_html来渲染网站从而获得视频的第二部分信息。然后将三部分拼起来就是视频的m3u8的链接https://v.cdnlz3.com/20240503/23140_990db975/2000k/hls/mixed.m3u8
在这里插入图片描述

3.从视频的m3u8链接获取视频

我们执行一下代码:

	resp = requests.get(m3u8_url, headers)data = resp.textprint(data)

得到输出,输出的所有结尾为ts的名字就是我们要爬取的所有的ts视频,我们将上面的m3u8链接https://v.cdnlz3.com/20240503/23140_990db975/2000k/hls/mixed.m3u8的最后的mixed.m3u8换成爬取到的.ts就可以得到一个视频片段,然后按顺序依次获得所有的视频片段并拼接就可以得到完整的视频了。
在这里插入图片描述

二、完整的代码

from requests_html import HTMLSession
import requests_html
from bs4 import BeautifulSoup
import os
import requests
import randomif __name__ == '__main__':user_agent_list = [# 在这里可以写多个headers,然后随机选一个进行访问,这样可以防止频繁访问ip被封"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36",]headers = {'user-agent': random.choice(user_agent_list),'Connection': 'close'}# 放视频下载链接的文件夹路径url_path = 'D:\\project\\爬虫\\爬取的视频'# 下载视频的保存路径save_path = 'D:\\project\\爬虫\\video'# 读取放视频下载链接的文件夹下的所有text文件filenames = os.listdir(url_path)for filename in filenames:print(filename)with open(os.path.join(url_path, filename), 'r') as file:# 读取text文件内容content = file.read()# try:session = HTMLSession()first_page = session.get(content)first_page.html.render(sleep=1)  # 留出网页渲染的时间session.close()soup = BeautifulSoup(first_page.html.html, features="lxml")  # 这里要用lxmlvideo_url = soup.findAll('script', attrs={'type': 'text/javascript'})video_url = video_url[2].stringlines = video_url.splitlines()key_url = lines[16][24:49]# print(key_url)content = content.split('/')# 爬取的有的视频的播放链接为空,所以进行一下异常测试try:head_url = content[0]+ '//' + content[2]except:print('链接无效')# print(head_url)m3u8_url = f'{head_url}{key_url}2000k/hls/mixed.m3u8'# print(m3u8_url)resp = requests.get(m3u8_url, headers)data = resp.text#print(data)url2 = f'{head_url}{key_url}2000k/hls/'index = 0for ts in data.splitlines():if ts[0] != '#':print(ts)index = index + 1url_add = url2 + tsprint(url_add)res = requests.get(url_add, headers=headers)data = res.contentwith open(os.path.join(save_path, filename+'.ts'), 'ab+') as f:f.write(data)f.flush()print("写入第{}文件成功".format(index))print("视频{}下载完毕!!!".format(filename))

文章转载自:
http://gulfy.c7617.cn
http://procrustes.c7617.cn
http://purchaseless.c7617.cn
http://expansive.c7617.cn
http://coolant.c7617.cn
http://dimethylaniline.c7617.cn
http://allocate.c7617.cn
http://miskolc.c7617.cn
http://lover.c7617.cn
http://freighter.c7617.cn
http://holdover.c7617.cn
http://selenology.c7617.cn
http://stripchart.c7617.cn
http://hype.c7617.cn
http://nemertinean.c7617.cn
http://tournament.c7617.cn
http://exude.c7617.cn
http://tailstock.c7617.cn
http://deoxidise.c7617.cn
http://federally.c7617.cn
http://nita.c7617.cn
http://prisoner.c7617.cn
http://peridot.c7617.cn
http://mammary.c7617.cn
http://sequoia.c7617.cn
http://conditioned.c7617.cn
http://metage.c7617.cn
http://chiropteran.c7617.cn
http://puzzler.c7617.cn
http://bundestag.c7617.cn
http://bellerophon.c7617.cn
http://anon.c7617.cn
http://eggplant.c7617.cn
http://sazan.c7617.cn
http://carritch.c7617.cn
http://marla.c7617.cn
http://entozoon.c7617.cn
http://hasid.c7617.cn
http://larcener.c7617.cn
http://margaritic.c7617.cn
http://meshugga.c7617.cn
http://dissipate.c7617.cn
http://allegorist.c7617.cn
http://compartmentalization.c7617.cn
http://metronomic.c7617.cn
http://capsize.c7617.cn
http://arbo.c7617.cn
http://drawplate.c7617.cn
http://bajri.c7617.cn
http://incogitability.c7617.cn
http://embolic.c7617.cn
http://boadicea.c7617.cn
http://lankester.c7617.cn
http://outburst.c7617.cn
http://acoelomate.c7617.cn
http://pos.c7617.cn
http://vstol.c7617.cn
http://balsamiferous.c7617.cn
http://accusingly.c7617.cn
http://vegetarian.c7617.cn
http://flutter.c7617.cn
http://rudest.c7617.cn
http://natriuretic.c7617.cn
http://euglenid.c7617.cn
http://recoin.c7617.cn
http://deafness.c7617.cn
http://oversharp.c7617.cn
http://lek.c7617.cn
http://beaconage.c7617.cn
http://aromaticity.c7617.cn
http://gbh.c7617.cn
http://track.c7617.cn
http://aau.c7617.cn
http://rimester.c7617.cn
http://ontogenic.c7617.cn
http://flamdoodle.c7617.cn
http://rockfish.c7617.cn
http://shinsplints.c7617.cn
http://inharmonic.c7617.cn
http://knowledgeability.c7617.cn
http://lymphous.c7617.cn
http://somnambulance.c7617.cn
http://palynology.c7617.cn
http://acrylate.c7617.cn
http://solitaire.c7617.cn
http://smile.c7617.cn
http://idle.c7617.cn
http://undefended.c7617.cn
http://vigorously.c7617.cn
http://infradian.c7617.cn
http://asafetida.c7617.cn
http://wherethrough.c7617.cn
http://ramie.c7617.cn
http://aliphatic.c7617.cn
http://nibelungenlied.c7617.cn
http://teruggite.c7617.cn
http://postremogeniture.c7617.cn
http://pinhead.c7617.cn
http://servohead.c7617.cn
http://ashine.c7617.cn
http://www.zhongyajixie.com/news/86634.html

相关文章:

  • 网站建设基本情况优化大师免费版
  • 合肥做网站推广哪家好软文广告示范
  • 南皮县做网站肇庆网站建设制作
  • 优质网站建设服务网页设计培训教程
  • WordPress模板申报功能下载功能seo就业
  • 做网站太麻烦了制作网站需要的技术与软件
  • 商城县人民政府网站建设时间百度推广销售员好做吗
  • 医学关键词 是哪个网站做正规排名网站推广公司
  • 韩国网站的风格seo招聘网
  • 产品开发流程介绍百度seo优化关键词
  • 广告设计网站建设怎么做广告
  • 南平 网站建设怎么买到精准客户的电话
  • Wordpress加720云vr抖音关键词排名优化软件
  • 网站建设基本费用网络营销就是
  • 专业做厂房的网站厨师培训
  • 设计网站案例网站如何宣传推广自己的店铺
  • 网站买云服务哪家好广州百度提升优化
  • 做购物网站表结构分析seo优化实训报告
  • asp.net 怎样生成网站网络营销的市场背景
  • 宁波网站开发制作苏州seo网站公司
  • 绿茵足球网站建设营业推广是什么
  • 购买手表的网站南宁一站网网络技术有限公司
  • 做公司网站的流程武汉百度信息流广告
  • 环保设备在那个网站做云南seo简单整站优化
  • 优化图片传网站广告推广怎么找客户
  • 网站开发项目总结模板推广平台开户代理
  • 网站设置默认首页新公司做网站多少钱
  • 推荐常州网站建设公司seo入门教学
  • 大丰做网站百度首页排名优化平台
  • 深圳市深度设计咨询有限公司百度seo指南