当前位置: 首页 > news >正文

软件开发 系统开发 网站开发服务seo手机端优化

软件开发 系统开发 网站开发服务,seo手机端优化,135网站模板,广东省建设厅三库一平台前言: TaoTao之前在前几期推文中发布了一个篇weibo评论的爬虫。主要就是采集评论区的数据,包括评论、评论者ip、评论id、评论者等一些信息。然后有很多的小伙伴对这个代码很感兴趣。TaoTao也都给代码开源了。由于比较匆忙,所以没来得及去讲这…

前言:

TaoTao之前在前几期推文中发布了一个篇weibo评论的爬虫。主要就是采集评论区的数据,包括评论、评论者ip、评论id、评论者等一些信息。然后有很多的小伙伴对这个代码很感兴趣。TaoTao也都给代码开源了。由于比较匆忙,所以没来得及去讲这个代码。今天刚好使用这个代码去爬取了一些数据,刚好借着这个机会给大伙讲讲代码思路。

思路讲解:

其实这个代码比较简单,其实就是通过使用request这个python的库向目标url发送对应的请求,然后服务器在相应了请求以后,然后再给数据返回回来。然后我们再对对应的数据进行解析就可以了。

大体上如下图所示:
图画的有的地方不是特别严谨,还请见谅
在这里插入图片描述

代码讲解:

首先需要明确我们需要使用的类库,这里主要使用到的库如下:

import re					# 进行数据正则化
import time				# 跟时间有关,主要是为了请求休眠使用
import csv				# 数据持久化,保存到csv
import random			# 随机化数据
import requests			# request请求的库,主要是为了发送请求
from datetime import datetime	# 进行数据格式化,主要是为了对评论时间进行转换
from fake_useragent import UserAgent		# 模拟各种浏览器,一种反反爬手段

这些库都是需要使用的,所以需要提前安装,安装方法,可以使用pip 进行安装,如果直接安装不上的话,可以使用清华镜像站进行安装,安装方法如下:

pip install 库名 -i https://pypi.tuna.tsinghua.edu.cn/simple

然后就是登录weibo账号,然后找到对应的文章点进去,可以看到hotflow,这个其实就是评论的数据。我们点击它,然后就可以看到对应的cookie值了,然后复制它
在这里插入图片描述
之后需要给这个cookie值写在代码中,具体如下:
在这里插入图片描述
设置好cookie之后,就是需要给这个创建request请求了。我们还是回到之前的打开文章的界面复制url链接就可以了。
在这里插入图片描述
之后写如下的代码就完成了request请求的操作了,
在这里插入图片描述
其实现在就可以获取到数据了,但是我们可以看一下,hotflow哪些是我们需要的数据。
可以看到我们需要的是like_count、source、text等这些数据
在这里插入图片描述
在这里插入图片描述
所以我们就需要写下面的代码对数据进行解析,至于为什么要写一个for循环,就是为了迭代多条数据。
在这里插入图片描述
然后就是数据进行持久化了,持久化这里我这里使用的是csv,代码如下:
下面的这个是进行表格以及表头的创建

在这里插入图片描述
下面的是对数据进行保存的操作:
在这里插入图片描述

到这里基本上代码就已经写完了

爬取数据:

完成了上面的代码以后,我们就可以爬取数据了
首先我们需要找到需要爬取文章的id,获取方式如下在这里插入图片描述
然后给这个id复制到代码的下面的位置就可以了在这里插入图片描述
然后就可以爬取数据了,这里可以在pycharm或者cmd中执行都是可以的。我比较喜欢在cmd中执行代码,具体就是在cmd中使用python youcodeName.py就可以了。比较省事的方式其实就是使用pycharm直接run
下面是我在cmd中运行结束的截图

在这里插入图片描述
然后下面的是我爬取到的数据:
在这里插入图片描述
在这里插入图片描述
数据可视化:
拿到了数据,其实我们还可以对数据进行可视化,这样方便观察数据的规律
TaoTao使用pyecharts简单的做了几个,仅供大家参考:
其实我们可以看到有重复数据。我看了一下评论区,其实是有人多刷的,就是说一个账号刷了多条同样的评论。我理解这些人可能是水军。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
源码获取:关注“python小胡说”,回复“微博评论”既可获取源码!
希望大家可以动手实践,光说不练假把式!
由于TaoTao能力有限,在一些问题表述上难免有不准确的地方,还请多多包涵!

http://www.zhongyajixie.com/news/35432.html

相关文章:

  • 创建网站的快捷方式电商平台怎么运营的
  • 北京多用户商城网站建设东莞seo软件
  • wordpress评论区镶嵌图片浙江seo外包
  • 营销型网站建设找哪家一个人怎么做独立站shopify
  • wordpress指定分类投稿澳门seo关键词排名
  • 做网站公司找意向客户seo外包公司专家
  • 有用织梦做的大网站吗常见的线下推广渠道有哪些
  • 网站前台后台模板下载西安百度推广代运营
  • 哈尔滨网站建设工作室seo快速排名点击
  • 网站开发的系统需求企业获客方式
  • 怎样做网站让百度能找到网页代码大全
  • 微信你的意义是什么小程序优化网站排名方法教程
  • 怎么做提卡网站网站制作软件免费下载
  • 武汉便宜的做网站公司舆情报告
  • 益阳建站网站制作网站检测工具
  • 河南简介网站设计湖南省人民政府
  • 手机与电脑网站制作可以放友情链接的网站
  • 做网站业务员如何跟客户沟通手机网站
  • 网站设计制作报价营销托管全网营销推广
  • 建网站买什么主机外贸网站平台都有哪些
  • 生鲜市场型网站开发seo优化评论
  • 青岛独立站开发公司个人建网站的详细步骤
  • 网站前期推广开网店哪个平台靠谱
  • 网站建设与微信公众号绑定网络推广seo怎么做
  • 张家界网站建设要求北京网站优化排名推广
  • 农业部工程建设服务中心网站什么叫做关键词
  • 网站免费正能量软件下载视频淘宝怎么提高关键词搜索排名
  • 南翔企业网站开发建设哪个网站学seo是免费的
  • 怎么做有个捐款的网站百度网页排名怎么提升
  • 展厅展馆设计北京seo执行