当前位置: 首页 > news >正文

怎么样做英文网站上海网站建设公司排名

怎么样做英文网站,上海网站建设公司排名,企业网站托管如何更有效,小学网站建设工作小组文章目录 1. 安装包2. 相关代码3. 说明4. 注意事项5. 扩展功能5.1 多页面下载5.2 输入地址下载 在Python 2中编写一个爬虫来大量下载图片,可以使用requests库来发送HTTP请求,并使用BeautifulSoup来解析HTML页面。此外,可以使用urllib2库来下载…

文章目录

      • 1. 安装包
      • 2. 相关代码
      • 3. 说明
      • 4. 注意事项
      • 5. 扩展功能
        • 5.1 多页面下载
        • 5.2 输入地址下载

在Python 2中编写一个爬虫来大量下载图片,可以使用requests库来发送HTTP请求,并使用BeautifulSoup来解析HTML页面。此外,可以使用urllib2库来下载图片。lxml 是一个 Python 库,用于处理 XML 和 HTML 文档。它提供了高效的 XML/HTML 解析和生成工具,是处理 Web 页面内容的常用工具之一。

1. 安装包

pip install requests
pip install beautifulsoup4
pip install lxml
pip install urllib2

2. 相关代码

下面是一个相关代码,演示如何从一个网页中下载图片:

# -*- coding: utf-8 -*-
import requests
import os
import urllib2
from lxml import etree# 创建目录函数
def create_file(file_path):# 如果目录不存在,则创建目录if not os.path.exists(file_path):os.makedirs(file_path)# 下载图片函数
def download_image(url, path):try:# 使用 urllib2 打开 URL 并获取响应response = urllib2.urlopen(url)# 以二进制写模式打开文件,并写入响应内容with open(path, 'wb') as f:f.write(response.read())except Exception as e:# 如果发生异常,打印错误信息print("Failed to download image: {}".format(url))print("Error: ", str(e))# 从网页中抓取图片的函数
def fetch_images_from_page(url):# 使用 requests 发送 GET 请求获取网页内容resp = requests.get(url)# 解析网页文本text = resp.text# 使用 lxml 解析 HTML 文档html = etree.HTML(text)# 通过 XPath 获取包含图片的元素列表img_list = html.xpath('//div[@class="mod flow-ppt-mod"]/div/div/img')# 初始化计数器cnt = 1# 目标文件路径file_path = './ppt/'# 创建目标文件夹create_file(file_path)# 遍历图片元素列表for i in img_list:try:# 尝试获取图片的 src 属性img_url = i.xpath('./@src')[0]except IndexError:# 如果 src 属性不存在,则尝试获取 data-src 属性img_url = i.xpath('./@data-src')[0]# 构建图片文件名file_name = '%s/page_%d.jpg' % (file_path, cnt)# 下载图片download_image(img_url, file_name)# 输出下载成功的提示信息print("Downloaded: {}".format(file_name))# 增加计数器cnt += 1# 主函数
def main():# 目标网页 URLurl = 'https://wenku.baidu.com/view/c784625f1a2e453610661ed9ad51f01dc3815771.html'# 调用抓取图片的函数fetch_images_from_page(url)# 如果当前模块是主程序,则执行 main 函数
if __name__ == '__main__':main()

3. 说明

  • 导入模块:导入必要的模块 requests、os、urllib2 和 lxml.etree。
  • 创建目录函数:create_file 用于创建指定的目录。
  • 下载图片函数:download_image 用于下载图片并保存到本地。
  • 从网页中抓取图片的函数:fetch_images_from_page 用于从指定网页抓取图片并下载到本地。
  • 主函数:main 用于定义入口 URL 并调用抓取图片的函数。

4. 注意事项

  • 图片URL:确保图片的URL是绝对路径。如果是相对路径,需要拼接成绝对路径。
  • 错误处理:添加了异常处理逻辑,以处理下载过程中可能出现的错误。
  • 文件路径:确保保存图片的路径正确,并且有写入权限。
  • XPath 表达式:使用 XPath 表达式从网页中提取图片元素。

5. 扩展功能

5.1 多页面下载

如果你需要从多个页面下载图片,可以将页面的URL放入一个列表中,并循环处理每个页面。

def main():# 目标URL列表urls = ['https://example.com/images1', 'https://example.com/images2']# 抓取并下载图片for url in urls:fetch_images_from_page(url)if __name__ == '__main__':main()
5.2 输入地址下载

如果你需要输入想要的地址,然后下载相对应的图片,需要使用raw_inputraw_input是一个内置函数,用于从标准输入(通常是键盘)读取一行文本,并返回一个字符串。这个函数不会执行任何类型的转换,返回的内容就是用户输入的原始字符串。

def main():url = raw_input('输入百度文库地址:')fetch_images_from_page(url)if __name__ == '__main__':main()
http://www.zhongyajixie.com/news/63454.html

相关文章:

  • 电商网站开发定制营销型网站建设推荐
  • 网站建设公司问答营销案例新网站秒收录技术
  • 装修公司装修房子南宁百度seo优化
  • 企业网站备案所需材料 amp软文是啥意思
  • 企业网站空间买虚拟主机信息流广告推广
  • 建设网站公司网站seo的基本步骤是什么
  • 易居做网站农大南路网络营销推广优化
  • 大型网站开发案例昆明百度推广优化
  • 做资金盘网站广东省各城市疫情搜索高峰进度
  • wordpress 极速模板班级优化大师使用心得
  • 网站建设是什么?网站优化北京seo
  • 小程序企业网站关键词排名零芯互联关键词
  • 永久免费crm都有什么谷歌seo网站优化
  • 去哪个网站做农产品推广太原seo推广
  • 企业类网站有哪些百度竞价关键词质量度怎么提升
  • 东营网站建设制作seo快速排名软件平台
  • 个体做敦煌网站怎么样什么软件可以发布广告信息
  • 南京网站设计公司兴田德润放心网站网络推广公司
  • 建筑公司做网站的好处上海优化外包
  • 盐城做网站哪家最好大连网站搜索排名
  • 徐州网站开发哪个好薇2021小说排行榜百度风云榜
  • 龙华建设局网站自己如何制作一个小程序
  • 备案做电影网站吗百度广告开户
  • 宜春网站建设公司哪家好推广产品引流的最佳方法
  • 广东河源疫情通报网站的优化与推广分析
  • 做网站该注意哪些基本要素怎么制作网站教程
  • 网络公关团队最新seo视频教程
  • 如何快速写一个网站台州百度推广优化
  • 做电子书网站 赚钱seo综合查询站长工具关键词
  • 家装设计一般用什么软件潮州seo建站