当前位置: 首页 > news >正文

方城网站设计福清市百度seo

方城网站设计,福清市百度seo,asp网站自动识别手机,政府门户网站建设多元化直觉上处理网页信息,很多人会先将网页保存成HTML,然后做文本分析。但这样做是不够的,因为网页可能内嵌图片,这些图片在HTML里就是一处链接,离线处理时无法还原,相当于丢失了图片信息。更好的做法是将整个网…

直觉上处理网页信息,很多人会先将网页保存成HTML,然后做文本分析。但这样做是不够的,因为网页可能内嵌图片,这些图片在HTML里就是一处链接,离线处理时无法还原,相当于丢失了图片信息。更好的做法是将整个网页一次性保存下来。

路径一:将网页保存成mhtml,然后保存成图片。没有现成的工具可以做到这点,mhtml可以通过直接将后缀改成doc以doc的方式打开。然后通过工具将doc转成图片。

路径二:将网页保存成mhtml,然后使用chromedriver保存成pdf,然后pdf再转图片。

路径三:使用chromedriver直接将网页保存成pdf,然后pdf再转图片。

import os
import csv
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
import base64def get_url_list(csv_path):content_list = []with open(csv_path, "r", encoding="gbk") as fin:csv_reader = csv.reader(fin)for line in csv_reader:content_list.append(line)title_list, url_list = list(zip(*content_list))return title_list, url_listif __name__ == "__main__":url_file_path = "title_url.csv"driver_location = 'chromedriver.exe的绝对路径'service = Service(driver_location)# 创建Chrome选项options = Options()# 无头模式,无界面options.add_argument("--headless")options.add_argument("--disable-gpu")driver = webdriver.Chrome(options, service)# 设置 PDF 选项pdf_options = {# 'paperWidth': 33.1,  # 纸张宽度,单位是英寸# 'paperHeight': 46.8,  # 纸张高度,单位是英寸'printBackground': True,  # 是否打印背景'landscape': False  # 是否横向打印}title_list, url_list = get_url_list(url_file_path)for i, url_path in enumerate(url_list):driver.get(url_path) # 打开网页# 使用 Chrome DevTools 协议保存为 PDFpdf_data = driver.execute_cdp_cmd('Page.printToPDF', pdf_options)# 解码并保存 PDF 文件pdf_content = base64.b64decode(pdf_data['data'])cur_title = title_list[i]cur_title = cur_title.replace("/", "_").replace("\\", "_")output_path = "pdf_output/" + cur_title + ".pdf"print(output_path)try:with open(output_path, 'wb') as file:file.write(pdf_content)except:print("fail", output_path)# 关闭 WebDriverdriver.quit()

http://www.zhongyajixie.com/news/10519.html

相关文章:

  • 韩国做美食的视频网站网站热度查询
  • 昆明网站设计制造网络培训seo
  • 武汉光谷做网站多少钱苏州首页排名关键词优化
  • 网站动态添加广告怎么做的知乎关键词排名
  • 企业门户网站建设特色昆明seo关键字推广
  • 烟台h5网站建设公司网站seo提升
  • 天津市建设工程合同备案网站百度游戏
  • 南宁网站建设 传导seo中国是什么
  • 设置wordpress上传文件大小网站优化排名方案
  • 政务网站建设方案怎么在网上推广产品
  • 北京商城型网站建设天猫seo搜索优化
  • php建站视频教程班级优化大师官方免费下载
  • 网站草图模板百度怎么发布自己的广告
  • 网站开发哪一门语言更快注册网站怎么注册
  • 湖州北京网站建设域名注册商
  • 网站ip如何做跳转seo智能优化
  • 中国制造加工网官网沈阳seo搜索引擎
  • 网站招聘栏怎么做免费网站推广网站不用下载
  • 网站建设项目实施方案北京培训机构
  • 日照网站建设系统介绍网站关键词优化多少钱
  • 个人网站制作与设计论文代写文章平台
  • 西安建筑科技大学360优化大师下载
  • 基于web的新闻发布系统泽成seo网站排名
  • 毕业设计做网站哪种好app如何推广
  • 企业官网网站模板做营销怎样才能吸引客户
  • 大连手机自适应网站建设维护餐饮营销手段13种手段
  • wordpress 顶部美化简单的seo
  • 二手东西网站怎么做二十条优化
  • 互联网舆情信息中心杭州seo外包服务
  • 北京建设部网站官网360收录查询