当前位置: 首页 > news >正文

怎么样做购物网站怎么创建自己的网站

怎么样做购物网站,怎么创建自己的网站,无法进入wordpress,免费网络验证本文来源公众号“算法金”,仅用于学术分享,侵权删,干货满满。 原文链接:Dask,一个超强的 python 库 1 Dask 概览 在数据科学和大数据处理的领域,高效处理海量数据一直是一项挑战。 为了应对这一挑战&am…

本文来源公众号“算法金”,仅用于学术分享,侵权删,干货满满。

原文链接:Dask,一个超强的 python 库

1 Dask 概览

在数据科学和大数据处理的领域,高效处理海量数据一直是一项挑战。

为了应对这一挑战,我们需要强大而灵活的工具。今天,我将向大家介绍一款备受瞩目的 Python 库 —— Dask。

Dask 是一款用于并行计算的灵活、开源的库,它使得处理大规模数据变得更加容易。

Dask 提供了动态的并行计算工具,可以在单机或分布式系统上运行,让我们能够处理比内存更大的数据集。

https://github.com/dask/dask

1.1 Dask 的核心概念

Dask 的核心概念之一是分布式。它能够在集群上运行任务,通过分布式计算来加速处理。

此外,Dask 还支持延迟计算,这意味着它只在需要时才会计算结果,避免了不必要的计算开销。

1.2 Dask 的优势

  • 可扩展性:Dask 可以轻松扩展到集群中的多台机器,处理比内存更大的数据集。

  • 灵活性:Dask 与众多常用的 Python 数据科学库(如 NumPy、Pandas)兼容,使得迁移现有代码变得更加容易。

  • 动态计算:Dask 采用延迟计算,只有在需要时才计算结果,提高了计算效率。

1.3 安装 Dask

首先,让我们来安装 Dask。打开你的终端并输入以下命令:

pip install dask

1.4 使用 Dask 处理数据

让我们通过一个简单的例子来演示如何使用 Dask 处理数据。

假设我们有一个大型的CSV文件,我们想要计算某一列的平均值。

import dask.dataframe as dd# 读取大型CSV文件
df = dd.read_csv('large_dataset.csv')# 计算某一列的平均值
result = df['column_name'].mean()# 打印结果
print(result.compute())

2 一个具体示例:传感器数据处理

案例:对比 Pandas 与 Dask 在大规模传感器数据处理上的性能,一起来看看吧。

创造一个大规模的传感器数据集,包含传感器ID、时间戳、测量值等信息。使用 Pandas 和 Dask 进行数据处理,如计算每个传感器的平均测量值。

  • 首先,我们生成一个包含传感器ID、时间戳和测量值的大规模传感器数据集。

  • 然后,我们使用 Pandas 和 Dask 分别进行数据处理,通过对比运行时间来展示 Dask 在大规模数据集上的性能优势。

import numpy as np
import pandas as pd
import dask.dataframe as dd
from datetime import datetime# 生成大规模传感器数据集
sensor_ids = np.random.randint(low=1, high=101, size=10**6)
timestamps = pd.date_range(start=datetime(year=2022, month=1, day=1), periods=10**6, freq='T')
measurements = np.random.random(size=10**6) * 100df_sensor = pd.DataFrame({'SensorID': sensor_ids,'Timestamp': timestamps,'Measurement': measurements
})df_sensor.to_csv('large_sensor_data.csv', index=False)# 使用 Pandas 进行数据处理并建立性能基线
def pandas_data_processing():df_pandas = pd.read_csv('large_sensor_data.csv')result = df_pandas.groupby('SensorID').agg({'Measurement': 'mean'})%timeit pandas_data_processing()

输出:

2.48 s ± 814 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

可以观察到,使用Pandas进行groupby操作需要耗费2.48秒的时间。

现在,我们切换到Dask,运行相同的groupby查询。

# 使用 Dask 读取大型传感器数据 CSV 文件
ddf_sensor = dd.read_csv('large_sensor_data.csv')# 使用 Dask 进行相同的数据处理
def dask_data_processing():result_dask = ddf_sensor.groupby('SensorID').agg({'Measurement': 'mean'}).compute()%timeit dask_data_processing()

输出:

5.48 ms ± 592 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

对于相似的任务,Dask的处理速度仅需5.48毫秒,这意味着性能有了明显的提升。

对比:

在Pandas执行groupby操作时,运算时间长达2.48秒。

而通过使用Dask进行相同的groupby查询,在相同的操作下,Dask仅需5.48毫秒,性能得到了显著的改善。

3 Dask 使用示例

Dask 团队贴心的提供了一系列的使用示例

Basic Examples

  • Dask数组

  • Dask Bags

  • Dask数据框

  • 使用Dask Delayed进行自定义工作负载

  • 自定义工作负载

  • Dask用于机器学习

  • 在SQL上操作Dask数据框

  • Xarray与Dask数组

  • 抵御硬件故障

Dataframes

  • 数据框:读取和写入数据

  • 数据框:按组操作

  • 从Pandas到Dask的注意事项

  • 创建两个进行比较的数据框:

  • Dask数据框 vs Pandas数据框

  • 读取/保存文件

  • 按组聚合 - 自定义聚合

  • 数据框:读取混乱数据

  • 制造一些混乱的数据

  • 读取混乱的数据

  • 构建延迟读取器

  • 组装Dask数据框

Machine Learning

  • 块状集成方法

  • 将Scikit-Learn扩展到小数据问题

  • 评分和预测大型数据集

  • 使用PyTorch进行批处理预测

  • 在大型数据集上训练模型

  • 逐步训练大型数据集

  • 文本矢量化管道

  • 使用Dask进行超参数优化

  • 扩展XGBoost

  • 使用投票分类器

  • 使用TPOT自动化机器学习

  • 广义线性模型

  • 奇异值分解

Applications
  • 分析托管在Web上的JSON数据

  • 异步/等待和非阻塞执行

  • 异步计算:Web服务器 + Dask

  • 尴尬的并行工作负载

  • 处理不断变化的工作流程

  • 图像处理

  • 使用Prefect进行ETL流水线

  • 使用Numba进行模板计算

  • 时间序列预测

总结

Dask 是处理大规模数据的一项重要工具,它的灵活性和可扩展性使其在数据科学领域备受欢迎。

通过这篇简要介绍,相信你对 Dask 已经有了初步了解。

如果你处理的数据量较大,或者希望提高数据处理效率,不妨尝试在你的项目中引入 Dask,开启大数据处理的新境界。

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

http://www.zhongyajixie.com/news/38315.html

相关文章:

  • 做标书有什么好的网站吗搜索引擎优化方法总结
  • 租房子网站怎么做网络营销推广策划方案
  • 静态网页怎么做网站输入关键词自动生成文章
  • 新密做网站推广公司官网开发制作
  • 电商详情做的最好看的网站在线网页制作网站
  • 违反建设投诉网站举报网站应该如何进行优化
  • 做的网站怎么提交到百度上去国际新闻最新消息今天
  • 商城系统网站建设上海优化网站seo公司
  • 产品推广策划案西安关键词seo公司
  • 怎么查看网站快照百度小说官网
  • 河南城乡建设委员会的网站专业的seo排名优化
  • 大宗商品现货交易规则湖南seo优化公司
  • 深圳网页设计培训要多久seo培训班
  • 芜湖网站开发网站如何优化
  • 域名注册好了怎么使用推广网站排名优化seo教程
  • 西安的电商平台网站建设怎么创建一个自己的网站
  • mac上用什么做网站搜索引擎国外
  • 网站建设与管理复习题2024年阳性最新症状
  • 新新手手网网站站建建设设谷歌seo和百度seo
  • 做私活网站河南seo网站多少钱
  • 成立公司注意事项北京seo课程
  • 微信网站建设和维护报价表seo成都培训
  • 苏州那家公司做网站比较好杭州百度推广优化排名
  • 做网站运营需要培训吗网址域名查询
  • 进一步加强政府网站内容建设实时热搜榜
  • 建设银行网站多少关键词优化怎么操作
  • 做兼职的网站有哪些工作凡科建站多少钱
  • b2b行业网站系统昆明seo技术培训
  • 九江有限公司seo综合
  • 民权网站建设流量网站