Data To The People,数据驱动业务增长
- GIO 增长团队 作者 | 吴继业
数据像水,而水滋润万物,帮助万物生长。
GrowingIO这个名字诠释了,生长,数据和循环。
我希望数据能像水一样,可以帮助到每个人。Data to the people。
毕业的时候,正好赶上了数据仓库迅速发展的好时候,大学的时候喜欢数据库,很自然的就入了这行。入行后我发现企业有很多的数据孤岛,很多的数据不能统一在同一个地方以供分析。我的工作就是将不同数据源的数据整合起来,设计数据仓库模型,开发数据处理、数据清洗的任务,定时调度 ETL(数据抽取,数据转换,数据装载)的任务,制作报表,准备数据挖掘的Training 数据。 这些数据准备的工作都是为了解决以下这些问题。
-
“公司有堆积如山的数据,可是就是不能访问。”
-
“我们需要以各种方式随心所欲地切割数据。”
-
“如何让业务人员能够简单快捷地得到所需形式的数据?”
-
“我只想看到最重要的内容,能指导我决策。”
-
“为什么在开会的时候两个同样的指标,却相差如此之大,背后的计算逻辑到底是什么?”
-
“我们希望员工用事实依据和数据来支持决策的过程!“
-
“用历史数据来预测用户的倾向,从而增加转化率!“
曾几何时大数据这个词出现了, 技术的发展是为了适应数据在这几年里疯狂的增长。我们不需要说明我们今天要分析的数据有多大。很多企业都有大量的数据。我们要解决的问题 是可以多快的准备好数据并用于分析。新的技术不断涌现,storm, spark,tez,impala, presto, tajo, flink。
不变的什么?还是上面这些问题。
在 LinkedIn 我们非常成功的解决了这些问题。Simon,我在 Linkedin 的领导,也是 GrowingIO 的创始人和 CEO,有一个三年计划,第一年全面自动化,第二年数据挖掘,第三年全面用数据分析支持公司各大业务部门实现商业决策。最初三年里我们全面支持了 LinkedIn的销售,产品,市场,运营 和客服部门。我们做的数据分析内部网站每天都有很多的内部员工在用,一旦宕机立马被叫醒去修复。
离开 LinkedIn 的那天,一起工作过战斗过的同事为我们送别,我哭了,被团队感动了。 从 LinkedIn 出来,是觉得每个企业都需要数据处理和分析服务,我们用 SAAS 服务解决企业的数据采集,整合,清理,分析的问题,我们想把这个流程自动化,为企业提供云端服务。让互联网企业能够在几分钟内就可以分析自己的业务。
数据的采集,是数据分析的第一步。互联网和移动互联网的数据是我们关注的重点。不同的数据源需要不同的技术手段去采集数据,比如网页端的,iOS 和 Android。目前大部分的数据采集的模式都是埋点采集的模式,就是需要什么数据点就埋什么数据点。往往存在的问题是业务人员和分析师定义要什么样的数据,然后由程序员来埋点实现。程序员的主要职责是负责开发产品的功能与埋点做数据监控,但埋点不是他们工作的重点, 业务人员和分析师的工作重点是关心产品的用户体验,而不是像技术人员那样改代码埋点。GrowingIO 想推出的 SAAS 服务可以帮助业务人员直接在网页端,移动应用端上面定义数据点,而且立刻就能看到具体的浏览量和点击量。
数据的整合,在很多互联网企业里,数据是分散存储的,但又是有紧密联系的, 搜索系统,订单系统,数据推荐系统,站内私信系统,聊天系统,库存系统,物流系统,售后服务系统,可能不在一个数据库中,是不同的Rest API、存储策略、数据源。如果让数据封闭在独立的系统中,不能和其他的数据整合进行数据分析,就不能知道企业数字化运营的全局,当然很多企业的管理者可以在高速成长期用拍脑袋来运营,然而在如今竞争激烈的“互联网+” 时代,数据零散的分布会导致企业的生产力下降。数据的快速增长和复杂性的提高,对数据的实时整合的要求也越来越高。如果可以接近实时地抽取数据,加上整合和企业相关的外部数据才能把企业的数据盘活,分析总体的情况,提取出高价值,为决策者服务。
数据的清理,一切对数据的测量都需要有高质量的数据做保障,这个很重要,我觉得我工作中的 50%以上的时间花在了数据质量上面。业务端,老板觉得转化率低了要查,高了也要查,每次询问,开始是被动地查,后来成主动地查,将来需要自动地查 。人肉被动,主动,机器自动。每次查数据质量都是要追溯到数据源头。看 master data(例如统一的客户信息,产品信息等),看 transaction data(比如订单明细数据),验证业务指标的计算逻辑。逐步验证自己的假设,在一家公司做的久了,对数据熟悉了,对业务熟悉了,这样的事情才会做的有效率, 如果涉及到其他团队的问题,修复这个数据质量就需要更多的时间。
Simon 在今年 CIO 高峰论坛的时候提到过“Hamilton City”污水处理厂,”Garbage in, Garbage out”。数据本身就是脏的,如果不经过清洗,那么分析的结果也是大打折扣。因为世界是无序的,每个人写的日期都还会有不同的格式,就算格式相同,处理数据的时候我们会遇到很多数据类型错误,拼写错误, 精度错误,数值过大,或者字符串过长,一个字段表达了多种意思,需要被拆分成多个列,有的时候数据也有几个列合并成为一个列的情况。
数据清洗的过程,是一个不断改善的过程。程序员很难将数据一次清洗到位,因为业务人员使用的过程中,会发现一些边际问题,不断的提出数据的重复,缺失,错误和缺陷,让程序员不断改善数据质量。我们 GrowingIO 做的产品希望能够改变现状,能够帮助业务分析人员直接改进数据质量,减少数据工程师的处理数据的时间,从繁杂的数据清洗中解脱出来。数据整合和清洗是过程不是目的,我们的目的还是提炼数据价值。
数据的价值,只有将具体的业务数字化,才能提炼出价值,怎么数字化?就是要建立各个业务层面的维度和指标。一个公司的分析能力好不好,首先看数据是否有足够的积累,这里的积累不是数据量的大小,而是数据维度指标的积累,丰富的维度和指标,形成一个分析型的数据系统,才是数据分析的基础也是关键。然而这个过程往往需要时间,更需要专业人才,如果一上来就要做数据挖掘,机器学习的工作,那的确是挺难的。维度的新增和变更,业务指标的新增和变更是业务部门经常的需求, 工程师总是来不及满足分析师和产品经理的所有需求,因为业务需求总是在不断变化的。我们 GrowingIO 的分析产品就是要让工程师解放出来,让产品经理可以任性起来,随意增加维度和指标。将更多时间投入在分析数据上。
如果数据是水,能像水一样循环起来。太阳的照射让水蒸发,就如同我们实时收集数据的过程,水蒸气到了高空在云端聚集,如同我们提供的数据分析的云平台,我们在云端进行数据清理数据整合,如同云的聚集,会形成雨水,雨水滋润万物生长,我们用数据分析的平台来服务企业,帮助企业成长。
我们发现在企业中得到一个数据分析的结果,要经过很多的人协作才能达成。业务人员提出需求,产品经理和分析师制定 KPI,然后和前端工程师商量如何 track 数据,埋点,数据仓库工程师进入,改变数据存储的模型,或者增加维度,或者增加指标,设置好 ETL 的时间调度,然后BI工程师进入,创建报表。分析师开始分析数据并支持产品经理和业务人员做决策。这其中一旦一个环节出现问题。就需要沟通,甚至重新从数据埋点再来一遍。
我们的目标是将数据的价值送到每个人手中。Data to the people,用技术驱动数据分析,用分析驱动业务增长,是我们要做事情。也是我们擅长的事情,我们希望能把这个做到极致。
原文链接:https://blog.growingio.com/growth/66