当前位置:主页 > 军事 > 正文

朴秀荣:lxw的大数据田地Hadoop/Hive/HBase/Spar

时间:2020-11-14 20:25 来源:未知 编辑:admin

核心提示

一个公司的业务运营,不论规模大小,什么行业,都离不开数据的支撑。既然要数据,那么就得取数,谁来取数,怎么取?可能是一个销售人员在用Excel取,可能是一个DBA从生产数据库中...

  一个公司的业务运营,不论规模大小,什么行业,都离不开数据的支撑。既然要数据,那么就得取数,谁来取数,怎么取?可能是一个销售人员在用Excel取,可能是一个DBA从生产数据库中查,也可能是一个数据开发人员写SQL或者写程序从数据仓库中取。

  作为一个多年从事数据相关的开发者,深受“临时数据提取”之苦,自己也是用尽十八般武艺,目的就是想尽可能的解决取数难、取数慢的问题。在此总结一下多年来对于取数的一些方法(更多是针对公司有自己的数据团队),大概包含以下几个方面:

  固定报表;

  OLAP系统;

  自助分析系统;

  自助取数系统;

  临时数据提取需求;

  固定报表是最常见、最简单的取数方式。通常是需求方在经过对数据调研之后,形成固定的数据报表需求,然后提给数据开发团队,由数据开发团队安排资源实施完成。报表形成后,定期更新数据,报表一般通过WEB界面(自研或者使用开源)来呈现,有些则是通过邮件(Excel)方式每天定时发送。

  然而需求方的数据需求并不总是固定格式的,他们希望从所有可能的维度去探索数据,因为很多时候,他们自己一开始也不知道最终想要的数据。这时候,依靠固定报表显然无法满足需求。

  OLAP系统开始发挥他们的长处,数据开发团队依据业务和数据,在OLAP系统中设计相应的CUBE,定期更新,而需求方则可以在OLAP系统中,基于设计好的CUBE,自己选择需要查询的维度、指标、条件等等,进行探索分析查询。

  一个比较好的OLAP系统需要依赖以下方面:规整的数据仓库模型(事实表、维度表),不错的OLAP引擎,Nice的OLAP前端工具。

  为了进一步减少数据开发的工作量,让需求方能更加自助和自主的去完成一些取数,我们开发了自助分析系统(用户可以自己上传Excel、文本,接入数据仓库数据,接入自己数据库数据,自助建模(相当于定义Cube),然后来探索分析数据。

  另外,该系统也适用于那些没有数据开发团队的小公司。

  慢慢的,又遇到问题了。OLAP系统和自助分析系统,都需要定义CUBE,而CUBE对数据模型(事实表,维度表)有一定的要求。对于一些数据需求,很难固化成数据模型去支持查询。

  刚开始,直接提供SQL接口让需求方去提交SQL去查,但问题是他们不太会SQL,即使会,提交过来的SQL执行性能很有问题。因此,我想增加一种功能,让需求方只去操作界面,后台根据界面操作,转换成SQL去执行。这个问题看似简单,但是我想做的更灵活简单一些。

  数据开发人员去配置一个自助取数模板,这个模板核心由一段SQL和一些变量组成。

  变量有三种类型:维度、指标和常量。

  数据开发人员定义好模板后,需求方可以在自助取数任务页面使用模板,提交取数任务。

  在取数任务页面,常量是必填字段,维度和指标可以随意组合选择,也可以增加过滤条件。选择好后,由后台根据任务条件,替换模板中的变量,生成SQL,产生结果供下载。

  这个过程,更像是一个动态虚拟CUBE,虽然离线运行SQL并生成结果需要一段时间,但灵活性更好,也收到了比较好的效果。

  尽管为了满足取数需求,减少数据开发工作量,我们做了上面很多的努力,但仍然有小部分的需求,需要由数据开发人员来完成。

  其实依靠平台化、系统化、自动化去解决80-90%的数据需求,已经非常不错了。

  如果觉得本博客对您有帮助,请 赞助作者 。

  转载请注明:lxw的大数据田地 ? 谈谈”取数”的那些事儿

  (1)个小伙伴在吐槽

下一篇:没有了
  • 朴秀荣:lxw的大数据田地Hadoop/Hive/HB 朴秀荣:lxw的大数据田地Hadoop/Hive/HB

    一个公司的业务运营,不论规模大小,什么行业,都离不开数据的支撑。既然要数据,那么就得取数,谁来取数,怎么取?可能是一个销售人员在用Excel取,可能是一个DBA从生产数据库中...

  • 王雨歆:不摧成语 王雨歆:不摧成语

    第一位第二位第三位第四位末位汇总所有不摧的成语,含有无坚不摧成语意思,包括:不摧开头有什么成语,不摧结尾的成语有哪些,有关不摧什么的成语查询,表达无坚不摧的成语是什么...

  • 薛文彬:击剑的剑叫什么剑? 薛文彬:击剑的剑叫什么剑?

    的剑分为三种,copy分别是重剑、bai花剑剑。重剑点du是,以zhi进攻方式。实战中可以攻击对方dao任何部位。花剑主要是贵族间决斗用的,的特点是比较轻比较纤细,也是以刺为进攻方式...

  • 彭景泉:公历 彭景泉:公历

    我们常常在提到日期的时候,常常会说到农历和阳历以及公立,农历和阳历是比较常见的日期的叫法,那么公历是什么意思?公历是农历还是阳历?下面就和小编一起来文中详细了解一...

  • 向海岚:辟谷是什么意思? 向海岚:辟谷是什么意思?

    原标题:辟谷是什么意思?辟谷,亦称却谷、断谷、绝谷。是道家修炼的方法,即是不食五谷和肉类,但要服食药饵兼行行气、咽元、导引等功夫。练到一定程度出现不感饥饿,不进饮食而精...

  • 王自健:人喝什么农药自杀快 喝农药后人 王自健:人喝什么农药自杀快 喝农药后人

    949健康网编辑报道:美女喝农药自杀视频,人喝什么农药自杀快,喝农药自杀的农民夫妻,斗门一女生喝农药自杀,15岁少女喝农药自杀,喝农药自杀痛苦吗,喝农药自杀,喝农药自杀视...

  • 韩馨悦希:杏林、桃李、肝胆、千金、高 韩馨悦希:杏林、桃李、肝胆、千金、高

    杏林指医家桃李现在多指学生肝胆是兄弟千金是对对方女儿的尊称高足是徒弟、弟子汗青多指史书尺素就是书信杜康是酒楼兰是西域古国红豆是一味药也是相思之物手足就是兄弟1"杏林...

  • 韩胜妍:快乐是什么排比句 韩胜妍:快乐是什么排比句

    快乐是什么排比句1、快乐的起点就是和谐;快乐的过程就是幸福;快乐的终点就是美满。2、快乐就像小孩子的棒棒糖一样甜蜜;快乐就像喜欢上一样东西一样简单;快乐就像苍鹰翱翔于...

  • 旺卓措:忙组词有哪些词语,忙碌组词怎么 旺卓措:忙组词有哪些词语,忙碌组词怎么

    连忙、急忙、帮忙、繁忙、赶忙、忙乱、忙人、大忙、慌忙、忙碌、忙音、忙活、农忙、忙于、奔忙、忙、穷忙、忙乎、忙月、忙急、瞎忙、烦忙、惊忙、仓忙、忙忙、闹忙、忙然、疾...