热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

每日优鲜仓管员(拼多多的仓储基地)

编辑导读:生鲜配送已经不是一件新鲜事,只要在手机上下单就能享受到送货到家的服务。这背后不仅要依靠强大的物流,还需要搭建数据仓库,以便决策。本文将以每日优鲜为例,分析它是如何搭建数据


生鲜配送已经不新鲜了。 只要用手机下单就可以享受送货上门的服务。 其背后不仅需要强大的物流,还需要建立数据仓库进行决策。 本文每天以优鲜为例,分析它是如何构建数据仓库的,并与你分享。




一、为什么要做数据仓库数据仓库的结构

1. 市场

国内生鲜销售渠道中农贸市场占73%,但超市渠道渗透率为22%,与发达国家70%以上的水平相比,仍有较大差距。


随着新零售的风向标波及到社区生鲜领域,社区生鲜近年来也密集开店。 一是行业巨头受到降维打击,布局“社区生鲜”市场,二是生鲜传说、钱大妈这样的小品牌井喷式爆发。


PEST分析:


国家政策:


国家大力发展网上农产品交易,向农产品超市发放补贴。 2017年发布的《商务部 中国农业发展银行关于共同推进农产品和农村市场体系建设的通知》版主要支持方向包括


农产品市场和仓储物流设施的建设。 支持各类农产品批发市场、综合加工配送中心、产地集配中心的新建、改造,完善预选等级、包装、仓储、物流等设施。 公益性农产品市场体系建设。 支持公益性农产品批发市场公共加工配送中心、公共信息服务平台、检测检测中心、消防安全监测中心、废物处理设施等公益性流通基础设施的建设。 支持公益性蔬菜市场、低价餐厅等公益性农产品零售店的建设。 农产品冷链物流体系建设。 协助建设、改造标准化冷库和冷链物流集散中心,提高农产品产地预冷、低温加工、冷链仓储配送能力。 推进封闭式货物通道、站台、货架等设施的标准化改造,加快环保型冷藏制冷设施的设备和技术应用。 为此,为网上生鲜的发展开辟了政策途径。


经济发展:


我国近年来经济快速发展,经济发展带动了人民的消费意愿,网上生鲜食品EC开辟了网上生鲜买卖的渠道。


社会现状:


现在人们的消费水在提高,人们越来越关注农产品的安全问题,所以人们想从农产品生产地直接获取商品,保证食品安全,满足价格,另外,随着人们网络购物习惯的培养和物流运输水平的发展,人们也越来越喜欢生鲜类


技术现状:


随着AI大数据和物联网等新技术的诞生,保质期短的生鲜产品可以在特定时间送到用户手中,跟踪用户反馈的数据,既可以提高用户的满意度,又可以保证食品的安全和新鲜。


综上所述,生鲜网上的发展正处于快速增长期,市场份额越来越大。


二、每日优鲜产品概况每日优鲜成立于2014年,2018年完成了水果、蔬菜、乳制品、零食、酒鬼、肉蛋、水产、熟食、小吃、方便面、粮油、日百等全部品种的精选生鲜布局,因此SKU非常丰富,


每天优鲜都做了更准确的触摸。 媒体环境越来越准确,作为零售商和广告主也要求在算法上越来越准确。 因此,我推测戴利优有自己的OLTP。


随着新零售的到来和社区团购迎来的新风口,大型电子商务公司也纷纷布局生鲜食品EC。 阿里有箱马鲜生,京东有7Fresh,苏宁有畅快的电源,高步幅的生食演义,同样的路线还有美团小象生鲜、易果生鲜、天天果园、大润发优鲜等,生鲜食品EC海滩攻略战的未来将进一步加剧。




因此,以上产品分析表明,天天优无需构建自己的数据仓库,用于公司决策,精细化运营。


三、数据仓库的结构


1. 事实与维度

日的优良维度分析:




数据集市行列表:




2. 数据仓库数据源

数据源分为三种:


结构化数据:一般是直接由业务数据库和日志数据库生成的数据,存储在关系数据库中,一般使用的数据库是MYSQL、ORCAL、SQL SERVER、POSTGRESQL等数据半结构化数据:一般来说,用XML将半结构化的数据转换为CLOB进行存储。 这意味着它位于XML的节点上,因此可以有效地扩展数据。 半结构化数据一般在后期保存在结构化数据库中调用。 非结构化数据:一般来说,图像、文字、语言类型通常是通过NLP、图像处理、语音识别等技术手段处理后,存在于nosql数据库中。 一般有基于mongo DB和HBASE或存储器运算的列型存储Redis数据库,使数据驻留在数据库的节点上具有可以有效扩展的优点。


3. 数据仓库的物理生产环境和ETL


在服务器集群规模选择上如下分析(举例):

日活100w,每人平均产生100条日志,那么每天总日志可以是100w*100=1亿条;每条日志一般情况5~2k,按照1k进行计算,约需要100万存储空间;如果服务器半年内不尽兴扩容,那么需要的空间就是100万*180天约为18T;保存3套数据副本,为54T;一般情况下还要预留20%~30%的空间,那么需要77T;按照一个磁盘10T的容量,那么我们就可以得出需要10个硬盘的服务器。

数据仓库的物理生产环境一般是在LINUX平台下运行,因为大数据生态体系下的编译好的很多并包都是在LINUX系统中进行编译,因此从技术开发层次在LINUX下开发。

一般服务器可以部署Apache开源的服务,当然在选择框架的过程中需要考虑企业数据的规模,一般情况下大企业使用Apache框架,而对于中小企业可以选择CDH框架。可以使用使用Mysql或其他类型的数据库(根据需求)。使用PHP或者Python、Javascript进行写入。

ETL可选择Informatica、Beeload、Kettle(开源,有数据安全风险)。

在进行服务器集群管理时,可选择软件Claudira Manager(只支持CDH框架下软件安装)简化框架安装和集群管理。

4. 半结构化数据的预处理

通常会使用XML或JOSN进行半结构化数据的处理存储。

5. 物理化实现数据库物理表

这一步就是设计数据库的表结构,依据上一部中的分析维度和事实情况进行数据库表的设计。常用的维度建模模型有星型模型(结构清晰)和星座模型。根据维度模型建立数据仓库表。

6. ETL

数据仓库设计完成,再对数据库中的数据进行抽取转换加载步骤。进行数据处理。将数据在各个框架中传递。

7. 加载事实表和维度表

对已经制作完成的表结构加载,得出我们希望看到的数据的事实表。

8. OLAP分析

将数据仓库中的数据通过报表的形式和dashboard形式呈现出来。在此常用的工具有:

选择的依据可以遵循两个方面:

1)按照超大数据的查询效率

Druid & Kylin & Presto & Spark SQL

2)从能够处理的数据源多少的种类(从多到少)

Presto & Spark SQL & Kylin& Druid

数据可视化的工具一般可选用:echarts,superset,QuickBI,DataV。后两种可视化工具为阿里提供的付费工具。

四、总结

数据仓库的搭建是企业对数据的充分重视,搭建的过程可以是高层主导直接全域搭建或者由业务主题开始搭建数据集市,然后汇总成数据仓库。

优点:数据仓库使企业数据集成,向上能够帮助高层决策,向下能够满足运营、财务、采购、物流等业务部门需求;随着企业数据量的增大,为后续数据湖和数据平台的搭建提供底层支撑,对企业数据进行数据资产化和数据管理,进一步能够指导企业的业务线发展。

缺点:数据仓库帮助企业数字集成的同时,随着企业发展壮大,缺少对数据的运维,如何能够更好服务企业发展,各部门协作,是下面需要考虑的问题。

后期,数据仓库为更好的为企业节省成本,需要搭建数据平台,集成业务中台和技术中台。

由于本人知识结构尚待优化,有不足之处,请多多指正。感谢。

作者:汪仔2296,QQ:1083368735

本文由@汪仔2296 原创发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash, 基于CC0协议


推荐阅读
  • MySQL笔记_MySQL笔记1|数据库17问17答
    本文由编程笔记#小编为大家整理,主要介绍了MySQL笔记1|数据库17问17答相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 图解redis的持久化存储机制RDB和AOF的原理和优缺点
    本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件,恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘,实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点,帮助读者更好地理解redis的持久化存储策略。 ... [详细]
  • 本文介绍了关系型数据库和NoSQL数据库的概念和特点,列举了主流的关系型数据库和NoSQL数据库,同时描述了它们在新闻、电商抢购信息和微博热点信息等场景中的应用。此外,还提供了MySQL配置文件的相关内容。 ... [详细]
  • 面试经验分享:华为面试四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试
    最近有朋友去华为面试,面试经历包括四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试。80%的人都在第一轮电话面试中失败,因为缺乏基础知识。面试问题涉及 ... [详细]
  • 一面自我介绍对象相等的判断,equals方法实现。可以简单描述挫折,并说明自己如何克服,最终有哪些收获。职业规划表明自己决心,首先自己不准备继续求学了,必须招工作了。希望去哪 ... [详细]
  • 本文详细介绍了SQL日志收缩的方法,包括截断日志和删除不需要的旧日志记录。通过备份日志和使用DBCC SHRINKFILE命令可以实现日志的收缩。同时,还介绍了截断日志的原理和注意事项,包括不能截断事务日志的活动部分和MinLSN的确定方法。通过本文的方法,可以有效减小逻辑日志的大小,提高数据库的性能。 ... [详细]
  • Android中高级面试必知必会,积累总结
    本文介绍了Android中高级面试的必知必会内容,并总结了相关经验。文章指出,如今的Android市场对开发人员的要求更高,需要更专业的人才。同时,文章还给出了针对Android岗位的职责和要求,并提供了简历突出的建议。 ... [详细]
  • 本文介绍了南邮ctf-web的writeup,包括签到题和md5 collision。在CTF比赛和渗透测试中,可以通过查看源代码、代码注释、页面隐藏元素、超链接和HTTP响应头部来寻找flag或提示信息。利用PHP弱类型,可以发现md5('QNKCDZO')='0e830400451993494058024219903391'和md5('240610708')='0e462097431906509019562988736854'。 ... [详细]
  • 集成电路企业在进行跨隔离网数据交换时面临着安全性问题,传统的数据交换方式存在安全性堪忧、效率低下等问题。本文以《Ftrans跨网文件安全交换系统》为例,介绍了如何通过丰富的审批流程来满足企业的合规要求,保障数据交换的安全性。 ... [详细]
  • 2021最新总结网易/腾讯/CVTE/字节面经分享(附答案解析)
    本文分享作者在2021年面试网易、腾讯、CVTE和字节等大型互联网企业的经历和问题,包括稳定性设计、数据库优化、分布式锁的设计等内容。同时提供了大厂最新面试真题笔记,并附带答案解析。 ... [详细]
  • Redis API
    安装启动最简启动命令行输入验证动态参数启动配置文件启动常用配置通用命令keysbdsize计算key的总数exists判断是否存在delkeyvalue删除指定的keyvalue成 ... [详细]
  • __call是找不到方法的时候会执行可以代替下面的saddsrem方法publicfunction__call($name,$arguments){if(count($argum ... [详细]
  • 14亿人的大项目,腾讯云数据库拿下!
    全国人 ... [详细]
  • 玩转直播系列之消息模块演进(3)
    一、背景即时消息(IM)系统是直播系统重要的组成部分,一个稳定的,有容错的,灵活的,支持高并发的消息模块是影响直播系统用户体验的重要因素。IM长连接服务在直播系统有发挥着举足轻重的 ... [详细]
author-avatar
叶韵
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有