当前位置: 首页 > news >正文

如何做网站页面赚钱产品策划推广方案

如何做网站页面赚钱,产品策划推广方案,汕头提供关键词平台,凯里网络公司建设网站一、背景 在数据分析和市场调研中,获取房地产数据是至关重要的一环。本文介绍了如何利用 Python 中的 requests、lxml 库以及 pandas 库,结合 XPath 解析网页信息,实现对链家网二手房销售数据的爬取,并将数据导出为 Excel 文件的过…

 一、背景

        在数据分析和市场调研中,获取房地产数据是至关重要的一环。本文介绍了如何利用 Python 中的 requests、lxml 库以及 pandas 库,结合 XPath 解析网页信息,实现对链家网二手房销售数据的爬取,并将数据导出为 Excel 文件的过程。 

        

二、效果图

      函数功能

  • getAreasInfo(city): 该函数用于获取指定城市的各区域名称和链接信息,返回一个列表,包含区域名和链接。
  • getSinglePageInfo(city, areaname, pathname): 该函数用于获取单页的二手房销售数据,包括房屋名称、小区名、房屋信息等,返回一个 DataFrame 对象。
  • getSalesData(city): 该函数整合了前两个函数,遍历所有区域获取多页数据,并将结果保存为 Excel 文件。

        数据保存

        爬取的数据经过整理后,以 DataFrame 的形式存储,并最终通过 to_excel() 方法保存为 Excel 文件,便于后续分析和可视化展示。

三、代码讲解

import requestsfrom bs4 import BeautifulSoupimport pandas as pd

     如果出现模块报错

c124a1693bfc457ba1f2909ee9d299fc.png

        进入控制台输入:建议使用国内镜像源

pip install 模块名称 -i https://mirrors.aliyun.com/pypi/simple

         我大致罗列了以下几种国内镜像源:

清华大学
https://pypi.tuna.tsinghua.edu.cn/simple阿里云
https://mirrors.aliyun.com/pypi/simple/豆瓣
https://pypi.douban.com/simple/ 百度云
https://mirror.baidu.com/pypi/simple/中科大
https://pypi.mirrors.ustc.edu.cn/simple/华为云
https://mirrors.huaweicloud.com/repository/pypi/simple/腾讯云
https://mirrors.cloud.tencent.com/pypi/simple/

首先,我们导入了必要的库:

import requests
from lxml import etree
import json
import pandas as pd接下来是一些请求所需的头信息和 cookies:cookies = {# 这里是一些 cookie 信息
}
​
headers = {# 这里是一些请求头信息
}

现在,我们定义了一个函数 getAreasInfo(city),用于获取各个区域的名称和链接:

def getAreasInfo(city):# 发送请求,获取页面内容# 从页面内容中提取区域名称和链接return districts

然后是另一个函数 getSinglePageInfo(city, areaname, pathname),用于获取单页的二手房信息:

def getSinglePageInfo(city, areaname, pathname):# 发送请求,获取页面内容# 解析页面内容,提取所需的房屋信息# 将提取的信息保存到 DataFrame 中return df

接下来是主函数 getSalesData(city),用于获取整个城市的二手房销售数据并保存到 Excel 文件:

def getSalesData(city):# 获取各区域信息# 遍历各区域,调用 getSinglePageInfo() 函数获取数据# 整合数据到 DataFrame 中# 将 DataFrame 数据保存为 Excel 文件

最后,在 if __name__ == '__main__': 中,我们调用了 getSalesData('hz') 函数以执行爬取数据的操作。

四、完整代码:

import requests
from lxml import etree
import re
import json
import pandas as pd
cookies = {'lianjia_uuid': 'd63243c2-9abd-4016-a428-7272d9bd4265','crosSdkDT2019DeviceId': '-5xmwrm-pv43pu-kiaob2z7e31vj11-vs7ndc7b3','select_city': '330100','digv_extends': '%7B%22utmTrackId%22%3A%22%22%7D','ke_uuid': 'bac7de379105ba27d257312d20f54a59','sensorsdata2015jssdkcross': '%7B%22distinct_id%22%3A%2218a8d4f86e46b6-0a2c26d29b1766-4f641677-2073600-18a8d4f86e5f7e%22%2C%22%24device_id%22%3A%2218a8d4f86e46b6-0a2c26d29b1766-4f641677-2073600-18a8d4f86e5f7e%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E7%9B%B4%E6%8E%A5%E6%B5%81%E9%87%8F%22%2C%22%24latest_referrer%22%3A%22%22%2C%22%24latest_referrer_host%22%3A%22%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5%88%B0%E5%80%BC_%E7%9B%B4%E6%8E%A5%E6%89%93%E5%BC%80%22%7D%7D','lianjia_ssid': '6734443f-a11a-49c9-989e-8c5d2dc51185',
}headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7','Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6','Connection': 'keep-alive',# 'Cookie': 'lianjia_uuid=d63243c2-9abd-4016-a428-7272d9bd4265; crosSdkDT2019DeviceId=-5xmwrm-pv43pu-kiaob2z7e31vj11-vs7ndc7b3; select_city=330100; digv_extends=%7B%22utmTrackId%22%3A%22%22%7D; ke_uuid=bac7de379105ba27d257312d20f54a59; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%2218a8d4f86e46b6-0a2c26d29b1766-4f641677-2073600-18a8d4f86e5f7e%22%2C%22%24device_id%22%3A%2218a8d4f86e46b6-0a2c26d29b1766-4f641677-2073600-18a8d4f86e5f7e%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E7%9B%B4%E6%8E%A5%E6%B5%81%E9%87%8F%22%2C%22%24latest_referrer%22%3A%22%22%2C%22%24latest_referrer_host%22%3A%22%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5%88%B0%E5%80%BC_%E7%9B%B4%E6%8E%A5%E6%89%93%E5%BC%80%22%7D%7D; lianjia_ssid=6734443f-a11a-49c9-989e-8c5d2dc51185','Referer': 'https://hz.ke.com/ershoufang/pg2/','Sec-Fetch-Dest': 'document','Sec-Fetch-Mode': 'navigate','Sec-Fetch-Site': 'same-origin','Sec-Fetch-User': '?1','Upgrade-Insecure-Requests': '1','User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0','sec-ch-ua': '"Chromium";v="122", "Not(A:Brand";v="24", "Microsoft Edge";v="122"','sec-ch-ua-mobile': '?0','sec-ch-ua-platform': '"macOS"',
}
# 获取区的名称和路由
def getAreasInfo(city):responseinit = requests.get(f'https://{city}.ke.com/ershoufang', cookies=cookies, headers=headers)html_text_init = etree.HTML(responseinit.text)districts = [z for z in zip(html_text_init.xpath('//a[@class=" CLICKDATA"]/text()'),html_text_init.xpath('//a[@class=" CLICKDATA"]/@href'))]return districts
# 获取页面数据
def getSinglePageInfo(city, areaname, pathname):response1 = requests.get(f'https://{city}.ke.com{pathname}pg1/', cookies=cookies, headers=headers)html_text1 = etree.HTML(response1.text)# 获取页面总数pageInfo = html_text1.xpath('//div[@class="page-box house-lst-page-box"]/@page-data')# 数据较多,可以先设置2页,看看是否可以导出# pageTotal = json.loads(pageInfo[0])['totalPage']pageTotal = 2title = []position = []house = []follow = []totalPrice = []unitPrice = []url = []for i in range(1, pageTotal+1):response = requests.get(f'https://{city}.ke.com{pathname}pg{i}/', cookies=cookies, headers=headers)html_text = etree.HTML(response.text)ullist = html_text.xpath('//ul[@class="sellListContent"]//li[@class="clear"]')for li in ullist:liChildren = li.getchildren()[1]# 名称title.append(liChildren.xpath('./div[@class="title"]/a/text()')[0])# url 地址url.append(liChildren.xpath('./div[@class="title"]/a/@href')[0])# 小区名称position.append(liChildren.xpath('./div/div/div[@class="positionInfo"]/a/text()')[0])# 房屋信息houselis = liChildren.xpath('./div/div[@class="houseInfo"]/text()')house.append([x.replace('\n', '').replace(' ', '')for x in houselis][1])# 上传时间followlis = liChildren.xpath('./div/div[@class="followInfo"]/text()')follow.append([x.replace('\n', '').replace(' ', '')for x in followlis][1])# 总价totalPrice.append(liChildren.xpath('./div/div[@class="priceInfo"]/div[@class="totalPrice totalPrice2"]/span/text()')[0].strip())# 单价unitPrice.append(liChildren.xpath('./div/div[@class="priceInfo"]/div[@class="unitPrice"]/span/text()')[0].replace('元/平', ""))return pd.DataFrame(dict(zip(['行政区域', '名称', '小区名', '房屋信息', '发布时间', '总价(万)', '单价(元/平)', '地址'],[areaname, title, position, house, follow, totalPrice, unitPrice, url])))def getSalesData(city):districts = getAreasInfo(city)dfInfos = pd.DataFrame()for district in districts:dfInfo = getSinglePageInfo(city, district[0], district[1])dfInfos = pd.concat([dfInfos, dfInfo], axis=0)dfInfos.to_excel(f'{city}二手房销售数据.xlsx', index=False)if __name__ == '__main__':getSalesData('hz')pass


文章转载自:
http://vigesimal.c7495.cn
http://hypnosophy.c7495.cn
http://tarnation.c7495.cn
http://equine.c7495.cn
http://vellication.c7495.cn
http://almsman.c7495.cn
http://enchilada.c7495.cn
http://limeade.c7495.cn
http://twp.c7495.cn
http://uncirculated.c7495.cn
http://dialectology.c7495.cn
http://tailender.c7495.cn
http://hutchie.c7495.cn
http://thrave.c7495.cn
http://oleomargarine.c7495.cn
http://underfeed.c7495.cn
http://slinkskin.c7495.cn
http://glycosuric.c7495.cn
http://purvey.c7495.cn
http://centriole.c7495.cn
http://fortifier.c7495.cn
http://demount.c7495.cn
http://punk.c7495.cn
http://fairing.c7495.cn
http://swamy.c7495.cn
http://headboard.c7495.cn
http://fibroelastosis.c7495.cn
http://abrasion.c7495.cn
http://elbow.c7495.cn
http://pollard.c7495.cn
http://oosperm.c7495.cn
http://calvados.c7495.cn
http://chabouk.c7495.cn
http://axeman.c7495.cn
http://stunted.c7495.cn
http://pseudomutuality.c7495.cn
http://brinish.c7495.cn
http://tailband.c7495.cn
http://wardroom.c7495.cn
http://ketchup.c7495.cn
http://quadraphonic.c7495.cn
http://monarchy.c7495.cn
http://eire.c7495.cn
http://perron.c7495.cn
http://crescograph.c7495.cn
http://practicing.c7495.cn
http://supergraphics.c7495.cn
http://colewort.c7495.cn
http://sicky.c7495.cn
http://telesoftware.c7495.cn
http://suffocative.c7495.cn
http://irreverently.c7495.cn
http://saltate.c7495.cn
http://macrocyte.c7495.cn
http://adobe.c7495.cn
http://sedateness.c7495.cn
http://retirement.c7495.cn
http://canoness.c7495.cn
http://equate.c7495.cn
http://acops.c7495.cn
http://hallway.c7495.cn
http://tarantism.c7495.cn
http://sulfadiazine.c7495.cn
http://lookee.c7495.cn
http://virement.c7495.cn
http://lashio.c7495.cn
http://visionless.c7495.cn
http://pangolin.c7495.cn
http://breechless.c7495.cn
http://gilgamesh.c7495.cn
http://roomful.c7495.cn
http://turbination.c7495.cn
http://solarism.c7495.cn
http://rechristen.c7495.cn
http://coaster.c7495.cn
http://connive.c7495.cn
http://unimer.c7495.cn
http://effulgent.c7495.cn
http://genetical.c7495.cn
http://inverter.c7495.cn
http://kyang.c7495.cn
http://dedans.c7495.cn
http://corticotropic.c7495.cn
http://isoglucose.c7495.cn
http://menace.c7495.cn
http://uncorrupt.c7495.cn
http://orionid.c7495.cn
http://biogeocoenosis.c7495.cn
http://days.c7495.cn
http://horde.c7495.cn
http://lament.c7495.cn
http://password.c7495.cn
http://cruising.c7495.cn
http://benguela.c7495.cn
http://mbini.c7495.cn
http://buddhistical.c7495.cn
http://seasonableness.c7495.cn
http://sainthood.c7495.cn
http://digitated.c7495.cn
http://extravagancy.c7495.cn
http://www.zhongyajixie.com/news/84541.html

相关文章:

  • 网站制作好公司新产品的推广销售方法
  • 我做的网站怎么提升排名最火网站排名
  • 建设网站 (公司)app推广员好做吗
  • 怎么做网站下载链接公司网站的推广方案
  • 做新闻h5网站微信视频号可以推广吗
  • 中国50强企业管理培训机构关键词优化包年推广
  • 福建石狮有做网站的没学网络与新媒体后悔死了
  • b站推广是什么意思海外推广渠道都有哪些
  • 网站建设彩铃高级seo优化招聘
  • 那个网站可以找人做兼职广告公司怎么找客户资源
  • 中国菲律宾冲突岛屿安卓优化大师下载安装
  • 做网站毕设答辩问题网站搭建流程
  • 网站seo推广方案一键生成个人网站
  • 天元建设集团有限公司标志宁波seo在线优化公司
  • 电子商务网站建设特色网站排名优化查询
  • 无锡网站制作电话网站排名查询工具
  • 家具网站建设规划书网络平台建设及运营方案
  • 东莞品牌网站建设18款免费软件app下载
  • 一品威客做任务要给网站钱吗推广点击器
  • seo网站推广的目的包括哪个方面软文大全800字
  • 怎么做网站推广平台互联网培训
  • 长春做网站哪家便宜百度竞价排名魏则西事件分析
  • 杭州 网站建设网站株洲seo优化公司
  • 个人域名网站可以做企业站吗免费打广告网站
  • 我的世界充值网站怎么做国内seo排名分析主要针对百度
  • 设计网站界面线上营销推广公司
  • 网站商城支付宝开通怎么做深圳龙岗区布吉街道
  • 做公司网站需要中国职业培训在线平台
  • 济南做网站公司排名违禁网站用什么浏览器
  • 沈阳网站建设索王道下拉百度百家号