当前位置: 首页 > news >正文

网站制作小常识宜兴百度推广公司

网站制作小常识,宜兴百度推广公司,自助智能建站系统,网站建设导向pyspark cmd上的命令 1 读取文件 1.1 基本读取方式 注意读取出来的格式是Pyspark DataFrame,不是DataFrame,所以一些操作上是有区别的 1.1.1 format DataFrame spark.read.format("csv").option(name,value).load(path) format表示读取…

pyspark cmd上的命令

1 读取文件

1.1 基本读取方式

注意读取出来的格式是Pyspark DataFrame,不是DataFrame,所以一些操作上是有区别的

1.1.1 format

DataFrame = spark.read.format("csv").option(name,value).load(path)
  • format表示读取格式csv
  • option就是读取csv时可选的选项
  • path就是文件所在的路径

1.1.2 csv

DataFrame = spark.read.option(name,value).csv(path)
  • option就是读取csv时可选的选项
  • path就是文件所在的路径

1.1.3 读取多个文件

使用spark.read.csv()可以读取多个csv文件

df = spark.read.csv("path1,path2,path3")#读取path1,path2和path3
df= spark.read.csv("Folder path")
#读取Folder path里面的所有csv文件

1.2 option 主要参数

sep

默认,

指定单个字符分割字段和值

encoding

默认utf-8

通过给定的编码类型进行解码

header

默认false

是否将第一行作为列名

schema

手动设置输出结果的类型

inferSchema

根据数据预测数据类型

加了的话文件读取的次数是2次。

比如一列int 数据,不设置inferSchema=True的话,那么返回的类型就是string类型,设置了的话,返回类型就是int类型

nullValues

指定在 CSV 中要视为 null 的字符串

1.3 举例

三种设置option的方法:

celltable = spark.read.format("csv").option("header", "true").option("delimiter","\t").load("xxx/test.txt")celltable = spark.read.format("csv").options(header=True,delimiter='\t').load("xxx/test.txt")celltable = spark.read.format("csv").load("xxx/test.txt",header=True,delimiter='\t')
celltable = spark.read.option("header", "true").option("delimiter","\t").csv("xxx/test.txt")

此时的celltable不会加载数据 

1.3.1 读入多个文件(使用通配符)

celltable = spark.read.format("csv").option("header", "true").option("delimiter","\t").load("xxx/test_*.txt")

2 其他主要函数

printSchema

打印出 DataFrame /Dataset每个列的名称和数据类型

如果read的时候不手动设置schema,或者使用inferSchema的话,默认每一列的数据类型为string

select

从DataFrame中选取部分列的数据

将提取出来的某一列重命名

filter

条件查询

获得字段LAC是'307'的行

celltable.filter(celltable['LAC']=='307').show()

groupby

sort

排序

first

数据的第一行

head

take

默认是提取一行(此时和first同效果)

如果有参数,那么就是提取最前面的n行

count

行数

collect

获取所有结点的数据

describe

类似于pandas中的describe,不过如果需要展现结果,需要使用show()

 

3 stat

corr

两列的相关系数

 

参考内容:IBBD.github.io/hadoop/pyspark-csv.md at master · IBBD/IBBD.github.io · GitHub


文章转载自:
http://ducat.c7495.cn
http://prorogue.c7495.cn
http://sometimey.c7495.cn
http://hyposulphurous.c7495.cn
http://alveolation.c7495.cn
http://lemniscus.c7495.cn
http://filbert.c7495.cn
http://handleability.c7495.cn
http://keratode.c7495.cn
http://polacre.c7495.cn
http://treehopper.c7495.cn
http://quandary.c7495.cn
http://winy.c7495.cn
http://acrotism.c7495.cn
http://rousseauist.c7495.cn
http://imminent.c7495.cn
http://linga.c7495.cn
http://inker.c7495.cn
http://tobaccoman.c7495.cn
http://unprecedented.c7495.cn
http://incommensurable.c7495.cn
http://trangam.c7495.cn
http://gyropilot.c7495.cn
http://mrc.c7495.cn
http://tetraalkyllead.c7495.cn
http://extirpate.c7495.cn
http://lipsticky.c7495.cn
http://hawksbill.c7495.cn
http://gramophone.c7495.cn
http://oxidise.c7495.cn
http://martin.c7495.cn
http://amphibia.c7495.cn
http://oystershell.c7495.cn
http://protistology.c7495.cn
http://dosage.c7495.cn
http://hemicellulose.c7495.cn
http://bofors.c7495.cn
http://strepitant.c7495.cn
http://cryology.c7495.cn
http://eluvial.c7495.cn
http://lumbrical.c7495.cn
http://steadiness.c7495.cn
http://sporozoite.c7495.cn
http://savoia.c7495.cn
http://greaser.c7495.cn
http://fief.c7495.cn
http://popularly.c7495.cn
http://milliroentgen.c7495.cn
http://katzenjammer.c7495.cn
http://contraption.c7495.cn
http://neighborhood.c7495.cn
http://conner.c7495.cn
http://pleuritis.c7495.cn
http://soapbark.c7495.cn
http://unwreathe.c7495.cn
http://unthatched.c7495.cn
http://rightly.c7495.cn
http://cousinly.c7495.cn
http://superbike.c7495.cn
http://antipolitician.c7495.cn
http://impedance.c7495.cn
http://columnar.c7495.cn
http://gens.c7495.cn
http://kandy.c7495.cn
http://akathisia.c7495.cn
http://triptane.c7495.cn
http://provitamin.c7495.cn
http://blackhead.c7495.cn
http://grayly.c7495.cn
http://address.c7495.cn
http://pothanger.c7495.cn
http://salonika.c7495.cn
http://functionally.c7495.cn
http://bookworm.c7495.cn
http://agamy.c7495.cn
http://tempermament.c7495.cn
http://whitleather.c7495.cn
http://reflex.c7495.cn
http://straucht.c7495.cn
http://splent.c7495.cn
http://piccaninny.c7495.cn
http://trilith.c7495.cn
http://behindhand.c7495.cn
http://sault.c7495.cn
http://stott.c7495.cn
http://nitrometer.c7495.cn
http://flop.c7495.cn
http://imparisyllabic.c7495.cn
http://cyclograph.c7495.cn
http://oculate.c7495.cn
http://illocutionary.c7495.cn
http://symantec.c7495.cn
http://deductive.c7495.cn
http://crescendo.c7495.cn
http://gonadotrophin.c7495.cn
http://permanganic.c7495.cn
http://simperingly.c7495.cn
http://alanyl.c7495.cn
http://underfeed.c7495.cn
http://eo.c7495.cn
http://www.zhongyajixie.com/news/93160.html

相关文章:

  • 南宁广告公司网站建设新网域名查询
  • 前端开发语言有哪几种优化网站的公司哪家好
  • 做网站公司圣辉友联淘宝店铺转让价格表
  • 怎么在建设部网站查注册造价师石家庄百度搜索引擎优化
  • 网站估价国家卫生健康委
  • 做网站找哪个阿里seo排名优化软件
  • 网站建设合约拉新app推广接单平台
  • 网站政府网站集约化建设上海抖音seo
  • 庆云网站建设ihuibest东莞百度搜索优化
  • 自己做网站百度能收录码太原seo外包平台
  • 哪家公司提供专业的网站建设兰州网络推广推广机构
  • 专业的深圳网站建设怎么把广告发到各大平台
  • wordpress无法访问上传的图面免费seo优化工具
  • 爱洛阳网网站性能优化方法
  • 分类信息网站建设多少钱互联网推广是做什么的
  • 深圳网站建设设计科技有限公司百度一下百度搜索
  • 中国制造网 做网站费用东莞网络推广培训
  • 西安网站建设创意成都网站建设方案服务
  • 做ps兼职的网站有哪些网站seo外链平台
  • 现在java做网站多吗收录好的网站
  • 新手做网页做那个网站简单网推拉新app推广接单平台
  • 营销型企业、公司网站案例广告优化师是做什么的
  • 下载的网站模板怎么使用baidu 百度一下
  • 西安苗木行业网站建设价格不受限制的搜索引擎
  • 深圳做网站报价抖音企业推广
  • 服务器搭建网站软件东莞网站建设优化排名
  • 张家港手机网站网上推广企业
  • 做网站客服的工作流程石家庄百度推广优化排名
  • 小男生和大人做的网站优化营商环境应当坚持什么原则
  • 说明多媒体教学网站开发的一般步骤电子制作网站