热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python工业级推荐系统_ElasticCTR是基于Kubernetes的企业级推荐系统解决方案

ElasticCTRElasticCTR是分布式训练CTR预估任务和Serving流程一键部署的方案,用户只需配置数据源、样本格式即可完成一系列的训练与预测任务1.总

ElasticCTR

ElasticCTR是分布式训练CTR预估任务和Serving流程一键部署的方案,用户只需配置数据源、样本格式即可完成一系列的训练与预测任务

1. 总体概览

本项目提供了端到端的CTR训练和二次开发的解决方案,主要特点如下:

1.快速部署

ElasticCTR当前提供的方案是基于百度云的Kubernetes集群进行部署,用户可以很容易扩展到其他原生的Kubernetes环境运行ElasticCTR。

2.高性能

ElasticCTR采用PaddlePaddle提供的全异步分布式训练方式,在保证模型训练效果的前提下,近乎线性的扩展能力可以大幅度节省训练资源。在线服务方面,ElasticCTR采用Paddle Serving中高吞吐、低延迟的稀疏参数预估引擎,高并发条件下是常见开源组件吞吐量的10倍以上。

3.可定制

用户可以通过统一的配置文件,修改训练中的训练方式和基本配置,包括在离线训练方式、训练过程可视化指标、HDFS上的存储配置等。除了通过修改统一配置文件进行训练任务配置外,ElasticCTR采用全开源软件栈,方便用户进行快速的二次开发和改造。底层的Kubernetes、Volcano可以轻松实现对上层任务的灵活调度策略;基于PaddlePaddle的灵活组网能力、飞桨的分布式训练引擎Fleet和远程预估服务Paddle Serving,用户可以对训练模型、并行训练的模式、远程预估服务进行快速迭代;MLFlow提供的训练任务可视化能力,用户可以快速增加系统监控需要的各种指标。

本方案整体结构请参照这篇文章 ElasticCTR架构

2. 配置集群

运行本方案前,需要用户已经搭建好k8s集群,并安装好volcano组件。k8s环境部署比较复杂,本文不涉及。百度智能云CCE容器引擎申请后即可使用,百度云上创建k8s的方法用户可以参考这篇文档百度云创建k8s教程及使用指南。此外,Elastic CTR还支持在其他云上部署,可以参考以下两篇文档华为云创建k8s集群,aws创建k8s集群.

准备好K8S集群之后,我们需要配置HDFS作为数据集的来源HDFS配置教程

3. 一键部署教程

您可以使用我们提供的脚本elastic-control.sh来完成部署,在运行脚本前,请确保您的机器装有python3并通过pip安装了mlflow,安装mlflow的命令如下:

python3 -m pip install mlflow -i https://pypi.tuna.tsinghua.edu.cn/simple

脚本的使用方式如下:

bash elastic-control.sh [COMMAND] [OPTIONS]

其中可选的命令(COMMAND)如下:

-c|--config_client 检索客户端二进制文件用于发送预测服务请求并接收预测结果

-r|--config_resource 定义训练配置

-a|--apply 应用配置并启动训练

-l|--log 打印训练状态,请确保您已经启动了训练

在定义训练配置时,您需要添加附加选项(OPTIONS)来指定配置的资源,可选的配置如下:

-u|--cpu 每个训练节点的CPU核心数

-m|--mem 每个节点的内存容量

-t|--trainer trainer节点的数量

-p|--pserver parameter-server节点的数量

-b|--cube cube分片数

-hd|--hdfs_address 存储数据文件的HDFS地址

注意:您的数据文件的格式应为以下示例格式:

$show $click $feasign0:$slot0 $feasign1:$slot1 $feasign2:$slot2......

举例如下:

1 0 17241709254077376921:0 132683728328325035:1 9179429492816205016:2 12045056225382541705:3

-f|--datafile 数据路径文件,需要指明HDFS地址并指定起始与截止日期(截止日期可选)

-s|--slot_conf 特征槽位配置文件,请注意文件后缀必须为'.txt'

以下是data.config文件,其中START_DATE_HR和END_DATE_HR就是我们在上一步配置HDFS的路径。

export HDFS_ADDRESS="hdfs://${IP}:9000" # HDFS地址

export HDFS_UGI="root,i" # HDFS用户名密码

export START_DATE_HR=20200401/00 # 训练集开始时间,代表2020年4月1日0点

export END_DATE_HR=20200401/03 # 训练集结束时间,代表2020年4月1日3点

export DATASET_PATH="/train_data" # 训练集在HDFS上的前缀

export SPARSE_DIM="1000001" # 稀疏参数维度,可不动

脚本的使用示例如下:

bash elastic-control.sh -r -u 4 -m 20 -t 2 -p 2 -b 5 -s slot.conf -f data.config

bash elastic-control.sh -a

bash elastic-control.sh -l

bash elastic-control.sh -c

4. 训练进度追踪

我们提供了两种方法让用户可以观察训练的进度,具体方式如下:

1.命令行查看

在训练过程中,用户可以随时输入以下命令,将Trainer0和file server的状态日志打印到标准输出上以便查看

bash elastic-control.sh -l

5. 预测服务

用户可以输入以下指令查看file server日志:

bash elastic-control.sh -l

当发现有模型产出后,可以进行预测,预测的方法是输入以下命令

bash elastic-control.sh -c

并按照屏幕上打出的提示继续执行即可进行预测,结果会打印在标准输出 infer_help.png



推荐阅读
  • 本文详细介绍了HDFS的基础知识及其数据读写机制。首先,文章阐述了HDFS的架构,包括其核心组件及其角色和功能。特别地,对NameNode进行了深入解析,指出其主要负责在内存中存储元数据、目录结构以及文件块的映射关系,并通过持久化方案确保数据的可靠性和高可用性。此外,还探讨了DataNode的角色及其在数据存储和读取过程中的关键作用。 ... [详细]
  • 本文推荐了六款高效的Java Web应用开发工具,并详细介绍了它们的实用功能。其中,分布式敏捷开发系统架构“zheng”项目,基于Spring、Spring MVC和MyBatis技术栈,提供了完整的分布式敏捷开发解决方案,支持快速构建高性能的企业级应用。此外,该工具还集成了多种中间件和服务,进一步提升了开发效率和系统的可维护性。 ... [详细]
  • 优化后的标题:PHP分布式高并发秒杀系统设计与实现
    PHPSeckill是一个基于PHP、Lua和Redis构建的高效分布式秒杀系统。该项目利用php_apcu扩展优化性能,实现了高并发环境下的秒杀功能。系统设计充分考虑了分布式架构的可扩展性和稳定性,适用于大规模用户同时访问的场景。项目代码已开源,可在Gitee平台上获取。 ... [详细]
  • 作为140字符的开创者,Twitter看似简单却异常复杂。其简洁之处在于仅用140个字符就能实现信息的高效传播,甚至在多次全球性事件中超越传统媒体的速度。然而,为了支持2亿用户的高效使用,其背后的技术架构和系统设计则极为复杂,涉及高并发处理、数据存储和实时传输等多个技术挑战。 ... [详细]
  • 本题库精选了Java核心知识点的练习题,旨在帮助学习者巩固和检验对Java理论基础的掌握。其中,选择题部分涵盖了访问控制权限等关键概念,例如,Java语言中仅允许子类或同一包内的类访问的访问权限为protected。此外,题库还包括其他重要知识点,如异常处理、多线程、集合框架等,全面覆盖Java编程的核心内容。 ... [详细]
  • Python作为当今IT领域中最受欢迎且高效的语言之一,其框架能够显著加速Web应用程序的开发过程。本文推荐并对比了十大顶级Python Web开发框架,其中CubicWeb以其卓越的代码重用性和模块化设计脱颖而出,为开发者提供了强大的支持。 ... [详细]
  • 当前,众多初创企业对全栈工程师的需求日益增长,但市场中却存在大量所谓的“伪全栈工程师”,尤其是那些仅掌握了Node.js技能的前端开发人员。本文旨在深入探讨全栈工程师在现代技术生态中的真实角色与价值,澄清对这一角色的误解,并强调真正的全栈工程师应具备全面的技术栈和综合解决问题的能力。 ... [详细]
  • 2019年后蚂蚁集团与拼多多面试经验详述与深度剖析
    2019年后蚂蚁集团与拼多多面试经验详述与深度剖析 ... [详细]
  • 个人学习进阶:深入解析Tomcat架构体系(第一部分)
    大家好,欢迎来到X的技术分享。近期我一直在深入研究Tomcat的架构体系,收获颇丰。作为一款广泛使用的应用服务器,Tomcat的架构设计非常精妙,对理解和优化Web应用具有重要意义。在本系列的第一部分中,我将详细解析Tomcat的核心组件及其工作原理,帮助读者建立坚实的基础。希望这些内容能为大家的学习和实践带来启发。 ... [详细]
  • 如果你对项目管理和系统架构感兴趣,欢迎关注微信订阅号“softjg”,加入我们这个PM和架构师的大家庭。本文将探讨编写高质量软件架构文档的重要性及其优势。良好的架构文档不仅能够促进不同利益相关者之间的沟通与理解,还能为项目的长期维护和扩展提供坚实的基础。通过详细记录系统的设计决策和关键组件,架构文档能够确保团队成员在项目周期内保持一致性和高效协作。 ... [详细]
  • 修复一个 Bug 竟耗时两天?真的有那么复杂吗?
    修复一个 Bug 竟然耗费了两天时间?这背后究竟隐藏着怎样的复杂性?本文将深入探讨这个看似简单的 Bug 为何会如此棘手,从代码层面剖析问题根源,并分享解决过程中遇到的技术挑战和心得。 ... [详细]
  • 深入理解Java事务编程:可串行化隔离级别的快照隔离机制解析
    深入理解Java事务编程:可串行化隔离级别的快照隔离机制解析 ... [详细]
  • 如何正确配置与使用日志组件:Log4j、SLF4J及Logback的连接与整合方法
    在当前的软件开发实践中,无论是开源项目还是日常工作中,日志框架都是不可或缺的工具之一。本文详细探讨了如何正确配置与使用Log4j、SLF4J及Logback这三个流行的日志组件,并深入解析了它们之间的连接与整合方法,旨在帮助开发者高效地管理和优化日志记录流程。 ... [详细]
  • 开发心得:利用 Redis 构建分布式系统的轻量级协调机制
    开发心得:利用 Redis 构建分布式系统的轻量级协调机制 ... [详细]
  • NoSQL数据库,即非关系型数据库,有时也被称作Not Only SQL,是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求,特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能,支持分布式部署,能够有效应对互联网时代的海量数据挑战。 ... [详细]
author-avatar
围脖上的博博_771
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有