当前位置: 主页 > 行业资讯 > 大数据培训 > 深圳大数据培训 Druid 的三个设计原则

深圳大数据培训 Druid 的三个设计原则

2018-04-02 17:32:25 作者:光环大数据 栏目:未知

光环大数据作为国内知名的高端IT就业培训机构,多年来培养无数高薪人才!为了让更多人了解大数据、人工智能、数据分析、python等相关技能,光环大数据免费提供学习视频、2周免费跟班试听课程,如有需要,可点击留言

光环大数据的大数据培训班,只聘请精英讲师,确保教学的整体质量与教学水准,讲师团及时掌握时代潮流技术,将前沿技能融入教学中,确保学生所学知识顺应时代所需,通过深入浅出、通俗易懂的教学方式,指导学生更快的掌握技能知识,成就上万个高薪就业学子。

深圳大数据培训告诉你Druid 的三个设计原则,深圳大数据培训(光环大数据)专家就针对Druid 的三个设计原则这一问题做一个详细的分解。希望能在工作中对你有所帮助!

在计划之初,开发人员确定了三个计划准则(Design Principle)。

(1)快速盘问(Fast Query):部分数据的聚合(Partial Aggregate)+内存化(In-emory)+索引(Index)。

(2)水平扩展能力(Horizontal Scalability):分布式数据(Distributed Data)+ 并行化盘问(Parallelizable Query)。

(3)实时阐发(Realtime Analytics):弗成变的曩昔,只追加的未来(Immutable Past,Append-Only Future)。

1 快速盘问(Fast Query)

对于数据阐发场景,大部分情况下,我们只关心一定粒度聚合的数据,而非每一行原始数据的细节情况。因此,数据聚合粒度能够或者是1 分钟、5 分钟、1 小时或1 天等。部分数据聚合(Partial Aggregate)给Druid 争夺了很大的性能优化空间。

数据内存化也是提高盘问速度的杀手锏。内存和硬盘的访问速度相差近百倍,但内存的大小是非常无穷的,因此在内存利用方面要风雅计划,比如Druid 表面利用了Bitmap 和各种压缩技巧。

别的,为了支持Drill-Down 某些维度,Druid 保护了一些倒排索引。这类方法能够或者加速AND 和OR 等打算把持。

2 水平扩展能力(Horizontal Scalability)

Druid 盘问性能在很大水平上依赖于内存的优化利用。数据能够或者分布在多个节点的内存中,因此当数据增长的时候,能够或者经过进程简略增长机械的方法结束扩容。

为了坚持均衡,Druid按照时间规模把聚合数据结束分区处理。对于高基数的维度,只按照时间切分有时候是不足的(Druid 的每个Segment 不超过2000 万行),故Druid 还支持对Segment 进一步分区。

历史Segment 数据能够或者保存在深度存储系统中,存储系统能够或者是当地磁盘、HDFS 或远程的云做事。假如某些节点呈现毛病,则可借助Zookeeper 协调别的节点重新布局数据。

Druid 的盘问模块能够或者感知和处理集群的状态变革,盘问总是在有用的集群架构中结束。集群上的盘问能够或者结束灵活的水平扩展。Druid 内置供应了一些随意马虎并行化的聚合把持,比喻Count、Mean、Variance 和别的盘问统计。

对于一些无法并行化的把持,比喻Median,Druid暂时不供应支持。在支持直方图(Histogram)方面,Druid 也是经过进程一些类似打算的方法结束支持,以担保Druid 全部的盘问性能,这些类似打算方法还包含HyperLoglog、DataSketches的一些基数打算。

3 实时阐发(Realtime Analytics)

Druid 供应了包含基于时间维度数据的存储做事,并且任何一行数据都是历史真实发生的事件,因此在计划之初就约定事件一但进入系统,就不能再改变。

对于历史数据Druid 以Segment 数据文件的方法结构,并且将它们存储到深度存储系统中,比喻文件系统或亚马逊的S3 等。当需要盘问这些数据的时候,Druid 再从深度存储系统中将它们装载到内存供盘问利用。

想知道更多关于IT行业的信息吗?想远远不如行动,行动起来,一起加入光环大数据,一起进入IT行业,跟着光环大数据的脚步,一起走进如今的互联网信息时代,带给你不一样的色彩生活——【深圳大数据培训】


光环大数据作为国内知名的高端IT就业培训机构,多年来培养无数高薪人才!为了让更多人了解大数据、人工智能、数据分析、python等相关技能,光环大数据免费提供学习视频、2周免费跟班试听课程,如有需要,可点击留言
Tags标签 大数据培训

领取资料

X
立即免费领取

请准确填写您的信息

点击领取