01
—
熟悉业务
我们接触的每一个数据表并非偶然,一定会有带有某种场景需求。比如我们要计算一个APP的订单数据,每日活跃用户数……我们总是带着问题去寻找数据。
反之亦然,我们拿到一张数据表,要搞清楚这个表的数据是怎么生产出来的,比如用户打开APP产生的埋点日志,用户下单产生的业务订单数据……
又或是我们已经不需要从最源头去背书一张数据表,而是非常精确的知道一个表的作用和意义,比如A表内是APP内XXX业务的订单数据,B标示XXX业务的商家数据,C表是经过A+B加工而成的商家订单宽表数据……
在以上三种情况下,我们首先要了解的是业务,业务的场景是什么,数据是通过业务怎么产生的。埋点日志是用户访问和点击的时候产生的,订单数据是用户创建并支付订单时候产生的,商家信息是商家注册或者合同数据上传产生的……
无论是数据工程师还是数据分析师,只要从事业务方面的工作,对业务的了解越深入也会后期发挥更大的意义和作用。
02
—
数据生产
以订单数据表为例,我们不仅要熟悉整体的业务场景,还需要更细节的熟悉每个数据在什么情况下产生。
订单ID:当用户提交订单的时候,系统生产的唯一值。
订单金额:用户提交订单的商品价格(如果有优惠活动,这里的口径就会变化多端)
支付金额: