「直播回顾」Mars应用与最佳实践

作者：周树草 | 来源：互联网 | 2023-08-23 10:46

简介：本文首先对Mars的概念、功能、优势进行了介绍，随后，对Mars几个典型的应用场景进行介绍，并通过两个Demo展示了在

简介：本文首先对Mars的概念、功能、优势进行了介绍，随后，对Mars几个典型的应用场景进行介绍，并通过两个Demo展示了在使用Mars后数据科学性能的提升，最后总结了Mars的最佳实践，让使用Mars更高效便捷。
本文主要从以下几个方面展开：

Mars简介
典型场景
Demo
最佳实践
一、Mars简介
Mars是统一的数据科学平台，它用来加速传统的Python数据科学技术栈，在单机中也可以用多核加速，或用分布式来加速。Mars可以部署在单机的分布式集群，或者Kubernetes和Hadoop Yarn上。

Mars整个框架构建在单机的并行和分布式的这两个调度的基础之上，它的数据科学基础包括三个核心部分，Tensor、DataFrame和Remote。而构建在这个基础之上的，是Mars Learn模块，它可以兼容Scikit-learn API，能简单地进行更大数据规模的分布式处理。此外，Mars还支持深度学习和机器学习的框架，比如能轻松运行TensorFlow、PyTorch等，而且可视化也可以在Mars上完成。除此之外，Mars还支持了丰富的数据源。

image.png

从传统Python技术栈到Mars也非常简单，比如在NumPy和Pandas里要变成Mars，只需要替换import，然后后面变为延迟执行即可。

image.png

普通的Python函数，在调用的时候变成mr.spawn来延迟这个过程，最后通过execute来并发执行，不用担心Mars是运行在单机上还是分布式运行。

image.png

而Mars上的TensorFlow大部分也一样，区别在于main函数部分的变化。最后，我们需要通过run_tensorflow_script的方式把脚本运行到Mars中。

image.png

二、典型场景
场景1. CPU和GPU混合计算
在安全和金融领域可以用Mars做CPU和GPU的混合计算，加速现有的工作流。

在这个领域，因为传统大数据平台挖掘周期长，资源紧张，需要很久来执行任务，不能达到客户需求。所以能用Mars DataFrame来加速数据处理，它可以做大规模数据排序，并帮助用户做高阶统计和聚合分析。

另外在安全领域有很多无监督学习的算法，Mars learn能加速无监督学习，同时拉起分布式深度学习计算加速现有的深度学习训练。之后，对于某些计算任务也可以利用GPU来加速。

image.png

场景2. 可解释性计算
在广告领域，在广告归因和洞察特征的解释算法中，因为本身计算量大，所以耗时很长。这种情况下，单机加速是比较困难的，基于传统大数据平台的分布式也不太灵活，但是通过Mars remote，可以很轻松地把计算分布到几十台机器上来加速，达到百倍的性能提升。

image.png

场景3. 大规模K-最邻近算法
Mars非常广泛地应用在K-最邻近算法中，因为Embedding越来越流行，它让向量表述实体非常常见。另外，Mars的NearestNeighbors算法兼容scikit-learn，它里面有暴力算法，而用户也需要暴力算法来进行大规模计算，可以通过多个worker来完成，从而让性能提升百倍。最后，Mars支持分布式的方式加速Faiss和Proxima，达到千万级别和上亿级别的规模。

image.png

三、Demo
Demo1. 分析豆瓣电影数据
我们从这个Demo看一下Mars如何加速pandas数据处理及其可视化。

image.png

开始演示之前我们需要安装Mars。这里已经创建了Jupyter，然后 pip install pymars。

image.png

安装之后，我们可以到IPython进行验证，可以看到下面的结果没有问题，接下来我们就可以进入到Jupyter notebook里。

image.png

我们开始demo。这个数据可以在GitHub地址下载，然后我们用pandas来分析电影的数据，使用ipython memory usage来查看内存使用。

image.png

我们的数据主要用到4个CSV文件，分别是movies、ratings、users和comments。

image.png

接下来根据上映日期统计有多少电影发布。这里先处理一下数据，让发行日期只取到年份，去掉日期，并对年份做聚合。

image.png

数据出来后，可以用pandas bokeh把图绘制出来，并通过交互式的方式查看。

image.png

接下来看电影评分的统计。首先把有评分的电影筛选出来，然后把豆瓣评分的数值数量从大到小进行排序。可以看到，最多的评分是6.8分。

image.png

同样，通过pandas bokeh把它画成柱状图，评分差不多呈现正态分布。

image.png

接下来做一个标签词云，看电影哪个标签词最多，这里从movies取出tags，用斜杠分割，然后max words是50。

image.png

接下来我们再对电影的Top K进行分析。首先按电影ID进行聚合，求出评价的平均值和个数。然后我们对评价个数进行过滤，从高到低，算出top20的电影。

image.png

然后做评论数据分析。因为评论是中文的，所以需要做一个分词，然后对每一句话做切分，在统计的时候进行排序。这里可以加一个进度条，在处理数据的时候方便看到进程。这个过程大概花了20分钟，所以在单机上跑大任务的时候对机器的压力还是比较大。

image.png

这是最终的词云图。

image.png

接下来我们用Mars做同样的分析任务。首先是对Mars环境进行部署，然后这里有5个worker，每个worker是8个CPU和32G内存。还是一样，我们打开内存的监控，做一些import，这里把import Pandas替换成import mars.dataframe，然后Numpy是import mars.tensor。

image.png

随后我们在SDK里来创建to mars dataframe，这一步几乎没有用到内存，最终得到的结果也和之前一样。

image.png

我们用同样的方式来分析上映日期的电影个数和电影评分。得益于Mars跟Pandas的高度兼容，我们也能用Pandas bokeh来呈现结果。

image.png

电影评论的分析也一样，但是在显示的时候，Mars只会拉取头几条和最后几条，所以客户端几乎没有内存使用。而且整个running过程只用了45秒，与之前的20分钟相比提升了几十倍性能。

image.png

接下来我们用Mars做一个地区的统计，让它有一个动态的效果。首先我们看一下刚刚计算过的已经released的电影dataframe，然后取1980-2019这几年的电影，而regions部分可能有多个，所以用斜杠分割开，最后执行排出top10地域电影。

image.png

然后我们通过bar chart race来生成动态效果。

image.png

Demo2. 豆瓣电影推荐
第二个demo我们会基于刚才豆瓣电影的数据来做一个推荐。我们首先会用TensorFlow Mars来进行训练，接着用Mars分布式KNN算法来加速召回计算。

我们先使用单机的技术栈，这个数据已经分成了训练和测试集，所以我们先to pandas把它下载到本地，接着来对用户和电影做一个label encode，把它变成一个数字，而不是字符串的值。随后我们对数据进行处理，先按照时间排序，然后按照用户进行分组，生成分组聚合的结果。

image.png

接下来开始训练，我们需要用TensorFlow训练出代表user的embedding。之前说过embedding，可以对任一实体用向量描述，所以得到embedding之后，我们在给用户推荐电影时就可以查找在这个向量空间里面跟这个用户比较接近的电影embedding。

image.png

训练后我们可以保存向量，这里的搜索规模是60万乘7万，单机花费了22分钟，但如果达到千万乘千万级别，搜索耗时要超过800小时，这是不可接受的。

image.png

接下来我们看如何用Mars来实现这一过程。首先创建一个Mars集群，这里有8个worker。然后和上面一样，对数据进行预处理，做label encode，按时间排序，按user分组生成分组聚合。

image.png

这里唯一的区别是Mars会自动推断DataFrame的结果，如果推断失败就需要用户自己提供dtypes和output type。

image.png

然后是执行和训练。这里TensorFlow可以写Python文件，不用写到notebook里。

image.png

接着我们用Mars的run tensorflow script来跑这个脚本，然后指定worker是8。可以看到，执行的时间缩小到了23分钟。同时，我们也拿到了最终的embedding，用Mars做embedding只需1分25秒，比刚刚的时间提升个十倍左右。1400万乘1400万也可以稳定在1小时左右，与单机800个小时相比提升是非常巨大的。

image.png

四、最佳实践
首先尽量不要使用to pandas和to numpy，因为这会把Mars的分布式数据变成单机的数据，失去了Mars本身的优势，除非这个操作不能用Mars实现；其次，Mars tensor、DataFrame和learn由于本身受限于API的原因需要自己写一些函数，所以可以考虑用Mars remote来加速，把操作抽象成函数；第三，Pandas的加速技巧在Mars DataFrame依然适用，比如可以使用更高效的数据类型，可以优先使用内建操作，使用apply取代循环。

原文链接
本文为阿里云原创内容，未经允许不得转载。

推荐阅读

python
Python程序安全运行的三个条件及预防措施

Python已成为全球最受欢迎的编程语言之一，然而Python程序的安全运行存在一定的风险。本文介绍了Python程序安全运行需要满足的三个条件，即系统路径上的每个条目都处于安全的位置、"主脚本"所在的目录始终位于系统路径中、若python命令使用-c和-m选项，调用程序的目录也必须是安全的。同时，文章还提出了一些预防措施，如避免将下载文件夹作为当前工作目录、使用pip所在路径而不是直接使用python命令等。对于初学Python的读者来说，这些内容将有所帮助。 ... [详细]

蜡笔小新 2023-12-09 10:20:23
range
Python对Excel文件的读取方法及模块安装

本文介绍了Python对Excel文件的读取方法，包括模块的安装和使用。通过安装xlrd、xlwt、xlutils、pyExcelerator等模块，可以实现对Excel文件的读取和处理。具体的读取方法包括打开excel文件、抓取所有sheet的名称、定位到指定的表单等。本文提供了两种定位表单的方式，并给出了相应的代码示例。 ... [详细]

蜡笔小新 2023-12-14 19:49:05
range
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
range
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
window
无损压缩算法专题——LZSS算法实现

本文介绍了基于无损压缩算法专题的LZSS算法实现。通过Python和C两种语言的代码实现了对任意文件的压缩和解压功能。详细介绍了LZSS算法的原理和实现过程，以及代码中的注释。 ... [详细]

蜡笔小新 2023-12-13 19:47:31
window
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
python
计算机存储系统的层次结构及其优势

本文介绍了计算机存储系统的层次结构，包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体，形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低，使得整体存储系统的平均价格降低。同时，高速缓存的存取速度可以和CPU的工作速度相匹配，进一步提高程序执行效率。 ... [详细]

蜡笔小新 2023-12-13 17:32:41
window
基于dlib的人脸68特征点提取(眨眼张嘴检测)python版本

文章目录引言开发环境和库流程设计张嘴和闭眼的检测引言(1)利用Dlib官方训练好的模型“shape_predictor_68_face_landmarks.dat”进行68个点标定 ... [详细]

蜡笔小新 2023-12-12 13:27:42
window
RouterOS 5.16软路由安装图解教程

本文介绍了如何安装RouterOS 5.16软路由系统，包括系统要求、安装步骤和登录方式。同时提供了详细的图解教程，方便读者进行操作。 ... [详细]

蜡笔小新 2023-12-12 10:22:22
main
操作系统的定义和功能

本文介绍了操作系统的定义和功能，包括操作系统的本质、用户界面以及系统调用的分类。同时还介绍了进程和线程的区别，包括进程和线程的定义和作用。 ... [详细]

蜡笔小新 2023-12-11 14:17:13
range
EzPP 0.2发布，新增YAML布局渲染功能

EzPP发布了0.2.1版本，新增了YAML布局渲染功能，可以将YAML文件渲染为图片，并且可以复用YAML作为模版，通过传递不同参数生成不同的图片。这个功能可以用于绘制Logo、封面或其他图片，让用户不需要安装或卸载Photoshop。文章还提供了一个入门例子，介绍了使用ezpp的基本渲染方法，以及如何使用canvas、text类元素、自定义字体等。 ... [详细]

蜡笔小新 2023-12-11 12:39:10
python
Python张量流中的device spec make_merged_spec()方法使用说明

本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法，以及参数和返回值的说明，并提供了一个示例代码。 ... [详细]

蜡笔小新 2023-12-11 12:15:19
python
Python操作MySQL（pymysql模块）详解及示例代码

本文介绍了使用Python操作MySQL数据库的方法，详细讲解了pymysql模块的安装和连接MySQL数据库的步骤，并提供了示例代码。内容涵盖了创建表、插入数据、查询数据等操作，帮助读者快速掌握Python操作MySQL的技巧。 ... [详细]

蜡笔小新 2023-12-10 17:50:06
python
python中安装并使用redis相关的知识

本文介绍了在python中安装并使用redis的相关知识，包括redis的数据缓存系统和支持的数据类型，以及在pycharm中安装redis模块和常用的字符串操作。 ... [详细]

蜡笔小新 2023-12-09 10:31:54
python
协程greenletyieldasyncioasync / await协程意义异步编程事件循环快速上手awaitTask对象

本文介绍了协程的概念和意义，以及使用greenlet、yield、asyncio、async/await等技术实现协程编程的方法。同时还介绍了事件循环的作用和使用方法，以及如何使用await关键字和Task对象来实现异步编程。最后还提供了一些快速上手的示例代码。 ... [详细]

蜡笔小新 2023-12-09 01:35:03

周树草

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章