利用Dask扩展Python性能
马宏华 译
出版时间:2024年08月
页数:193
“本书写得非常棒,如果你是Dask的新用户或考虑在项目中使用Dask,那么这几乎是一本必读书册。Dask提供了强大的功能以及许多需要牢记的微妙技巧,而本书则是探索这一新领域的理想工具。”
——Adam Breindel
数据工程和ML/AI独立顾问
“很高兴能看到本领域专家写的有关Dask的图书。”
——Matthew Rocklin
初始Dask维护者和Coiled Computing首席执行官
现代系统包含具有并行计算潜力的多核CPU和GPU,但许多科学Python工具的设计并没有很好地利用这种并行性。通过本书的深入介绍,数据科学家和Python程序员将了解Dask并行计算开源库,掌握如何利用它提供的API,使包括NumPy、Pandas和scikit-learn在内的PyData库易于并行化。
本书作者Holden Karau和Mika Kimmins向你展示了如何在本地系统中使用Dask计算,然后扩展到云端以应对更繁重的工作负载。这本实用手册解释了为什么Dask在行业专家和学者中很受欢迎,并被沃尔玛、Capital One、哈佛医学院和美国国家航空航天局(NASA)等组织使用。
在本书中你会学习到:
● 如何使用Dask进行批量数据并行处理
● 理解Dask的关键分布式系统概念
● 将Dask与高级API和构建块一起使用的方法
● 如何使用集成库
● 如何将Dask与GPU结合使用
书名:利用Dask扩展Python性能
译者:马宏华 译
国内出版社:清华大学出版社
出版时间:2024年08月
页数:193
书号:978-7-302-66629-5
原版书书名:Scaling Python with Dask
原版书出版商:O'Reilly Media
Holden Karau
Holden Karau是一位加拿大人,在IBM的Spark技术中心担任软件开发工程师。同时作为一位Spark committer,经常在PySpark和机器学习方面进行贡献。另外曾在多次国际会议中发表关于Spark的演讲。
Databricks的软件开发工程师,活跃于开源社区。她还著有《Spark快速数据处理》。
Mika Kimmins
Mika Kimmins是一名数据工程师、分布式系统研究员和机器学习顾问。她参与了各种自然语言处理(NLP)项目,包括语言建模、强化学习和机器学习管道等。