时间: 2021-07-30 10:52:21 人气: 16 评论: 0
搭建大数据分析平台的工作是循序渐进的,不同公司要根据自身所处阶段选择合适的平台形态,没有必要过分追求平台的分析深度和服务属性,关键是能解决当下的问题。

如果说用户行为分析平台是互联网行业等线上业务特有的数据分析产品,那么大数据分析平台就是适用于全行业的数据分析产品。任何行业的公司发展和精进都离不开数据分析,而大数据分析平台就是实现数据分析,为业务人员提供分析能力的基础产品。如果没有该数据分析平台,企业则不得不招聘专业的数据分析师完成全部的数据分析工作。
一方面数据分析师的招聘门槛更高,一方面数据分析师对实际业务的了解程度也并不如运营、市场等业务方人员。
所以更合理的做法是为业务人员提供易用的数据分析产品,配合特定的数据分析培训,以使业务同事可自行完成绝大部分数据分析需求。同时辅以数名数据分析师完成更专业的数据分析任务,产出数据报告或决策等关键信息。
大数据分析平台是对大数据时代的数据分析产品(或称作模块)的泛称,诸如业务报表、OLAP应用、BI工具等都属于大数据分析平台的范畴。与用户行为分析平台相比,其分析维度更集中在核心业务数据,特别是对于一些非纯线上业务的领域,例如线上电商、线下零售、物流、金融等行业。而用户行为分析平台**更集中分析与用户及用户行为相关的数据。
企业目前实现大数据分析平台的方法主要有三种:
(1)采购第三方相关数据产品
例如Tableau、Growing IO、神策等。此类产品能帮助企业迅速搭建数据分析环境,不少第三方厂商还**提供专业的技术支持团队。但选择此方法,在统计数据的广度、深度和准确性上可能都有所局限。例如某些主打无埋点技术的产品,只能统计到页面上的一些通用数据。
随着企业数据化运营程度的加深,这类产品可能**力不从心。该方案适合缺少研发资源、数据运营初中期的企业。一般一些创业公司、小微企业可能**选择此方案。
(2)利用开源产品搭建大数据分析平台
笔者曾经待过的一家公司就是采用该方案搭建的OLAP应用。对于有一定开发能力的团队,可以采用该方式快速且低成本地搭建起可用的大数据分析平台。该方案的关键是对开源产品的选择,选择正确的框架,在后续的扩展过程中**逐步体现出优势。而如果需要根据业务做一些自定义的开发,最后还是绕不过对源码的修改。
(3)完全自建大数据分析平台
对于中大型公司,在具备足够研发实力的情况下,通常还是**自己开发相关的数据产品。自建平台的优势是不言而喻的,企业可以完全根据自身业务需要定制开发,能够对业务需求进行最大化的满足。
对于平台型业务,开发此类产品也可以进行对外的商业化,为平台上的B端客户服务。例如淘宝官方推出的生意参谋就是这样一款成熟的商用数据分析产品,且与淘宝业务和平台优势有非常强的结合。
接下来,本篇将重点介绍几种不同阶段的大数据分析平台产品形态。
提到数据分析,很多人的第一反应应该都是报表。确实报表应该就是最基础的数据分析工具,因此不少公司在搭建数据分析平台时,也是先从满足报表需求起步的。
在平台搭建初期,优先实现重要的固化报表没有任何问题,但随着业务的发展,对数据分析的需求**成倍增加,不可能一直靠业务新增查询需求,数据团队对前后端进行开发改动这种低效的方式来实现。
因此我们可以在报表平台上开发一套扩展工具,用于完成对取数需求的条件配置。本质上是将日常业务查询的SQL语句进行了产品化,并罗列了可支持的数据指标、维度、时间等信息。
至此,报表平台便拥有了直接新增报表的功能,业务人员可根据自身需求在平台上配置所需的报表,而不用每次由研发团队单独开发。例如下图是生意参谋中的新建报表功能,商家可以通过一系列的条件选择完成报表的配置。

生意参谋-新建报表
除去简单的报表生成,我们还可以扩展图表模块,对报表进行可视化。可以选择常见的图表样式,例如折线图、柱状图、饼图等。
不过受限于产品形态,所有的配置操作都是在既定的框架下完成的,研发人员需要事先在页面上规定可选的维度、时间周期、指标的信息。若遇到对当前页面还不支持的指标或维度的分析需求(在实际使用时**经常发生),仍需要进行开发,升级平台。为了满足更定制化的查询需求,该平台也可以做到支持书写SQL完成查询。
某种程度上来看,其实该阶段的分析平台对业务人员还不够友好,可能更多时候是数据产品经理和数据分析师在进行使用,以满足自身分析需求或承接业务的数据需求。为了真正让业务人员直接具备查询、分析数据的能力,我们需要进入下一个阶段。
如果说扩展后的报表平台能很大程度的释放研发生产力的话,搭建自助分析平台将可以解放数据分析师的大量工作。自助分析平台已经基本能满足业务人员的全部数据查询和分析需求了。当然,在平台上线后还是需要组织适当的培训,提供友好的产品说明文档。
自助分析平台是进一步将我们的数据查询、分析语言产品化。与报表平台相比,自助分析平台至少有了以下进步:
下图是笔者过去搭建的某自主分析平台产品的简易原型。

新建查询
在完成查询条件的筛选后,**构建出如下表格。同一维度下的查询字段**构建层次化索引,不同维度下的查询字段**类似concat连接在一起。

查询结果
自助分析平台的另一个优势是可直接根据数据生成各式的图表,典型的折线图、柱状图、堆积面积图、直方图、饼图、散点图等,以及根据业务需求可以支持漏斗图或基于GIS信息的图表等。
自助分析平台虽然功能强大,但其本质上仍是构建数据表格的工具。业务人员更自然的使用方式是利用平台构建表格并导出,之后在Excel进行分析和图表的制作,这其实违背了我们希望平台本身能解决数据分析问题的初衷。这一方面是因为用户的习惯很难改变,另一方面也是平台构建表格的属性引导了用户。
若要通过平台直接完成数据分析,这就要求平台不能只是构建表格这么简单。我们需要重点优化平台的数据表达和交互功能,以体现出平台的分析属性。这个阶段可以称为在线智能分析平台。这里的关键词有两个:“在线”和“智能”。
其进步表现在可以直接在构建完的数据之上进行交互,产生更多的数据洞察。类似于我们在python中直接通过matplot或seaborn进行可视化,和利用bokeh进行数据表达的区别。虽然seaborn已经可以做出优秀的可视化报告,但其表达形式主要还是静态图表,更多时候是展现在分析报告中。而bokeh构建的图表支持一系列的交互操作,不同使用人员可根据自身需求在图表上完成分析。
最典型的区别,有以下几点:
(1)支持图表的基本交互操作
包括了对区域的圈选高亮、全局或针对单一坐标轴的放大缩小、鼠标悬停时的详细数据展示等常用操作。
(2)支持数据的下**
选中具体数据后,可根据所支持的维度进行数据下**。例如我们发现某天的GMV下降明显,选中当天数据后可以根据GMV在业务上定义的构成指标(订单量、客单价等)或其他查询维度(门店/类目等)进行下**以定位具体问题。可能最终**发现是某家重点门店当天经营异常而导致了整体GMV的下降。
(3)支持数据间的联动
根据分析需求,我们可能需要同时分析有关联关系的数据,洞察数据间的关系或影响。其核心是以某一字段作为关联图表或表格的关联字段,建立多份数据间的联系。这样在同一个工作区内,对其中任意一份数据进行圈选、拖拽等操作,在其他的数据中也**同步展示。
例如A表是SKU信息表,B表是订单详情表,C表是商品销量的图表,商品运营同事在分析具体SKU销售情况时,**在A表中选中具体的SKU,在B表中为自动选出包含该SKU的订单,在C表中**自动选出该SKU的销量情况。
在这些功能的支撑下,我们便可以直接在平台上在线完成大部分数据分析的工作,而不用导出数据后在其他工具