当前位置: 主页 > 行业资讯 > 大数据培训 > 20个最佳开源大数据技术

20个最佳开源大数据技术

2018-04-03 17:53:11 作者:光环大数据 栏目:未知

光环大数据作为国内知名的高端IT就业培训机构,多年来培养无数高薪人才!为了让更多人了解大数据、人工智能、数据分析、python等相关技能,光环大数据免费提供学习视频、2周免费跟班试听课程,如有需要,可点击留言

20个最佳开源大数据技术

1. Spark

在Apache的大数据项目中,Spark是最火的一个,分外是像IBM这样的重量级进献者的深入参与,使得Spark的成长和进步速度飞快。

与Spark产生最甜美的火花点仍然是在机器学习领域。去年以来DataFrames API取代SchemaRDD API,类似于R和Pandas的创造,使数据访问比原始RDD接口更大略。

Spark的新成长中也有新的为建立可重复的机器学习的事情流程,可扩展和可优化的支持各种存储格式,更大略的接口来访问机器学习算法,改进的集群成本的监控和任务跟踪。

在Spark1.5的默认环境下,TungSten内存管理器经过进程微调在内存中的数据布局布局供应了更快速的处理能力。末了,新的spark-packages.org网站上有超过100个第三方进献的链接库扩展,增加了许多有用的功能。

2. Storm

Storm是Apache项目中的一个分布式打算框架项目,紧张利用于流式数据实时处理领域。他基于低延时交互情势理念,以应对复杂的变乱处理需要。和Spark不同,Storm可以或许或者结束单点随机处理,而不仅仅是微批量任务,而且对内存的需要更低。在我的经验中,他对于流式数据处理更有优势,分外是当两个数据源之间的数据快速传输进程傍边,需要对数据结束快速处理的场景。

Spark掩盖了许多Storm的光芒,但其实Spark在许多消散数据处理的利用场景中其实不得当。Storm经常和Apache Kafka一起配合利用。

3. H2O

H2O是一种分布式的内存处理引擎用于机器学习,它拥有一个令人印象深入的数组的算法。早期版本仅仅支持R措辞,3.0版本开始支持Python和Java措辞,同时它也可以或许或者作为Spark在后端的履行引擎。

利用H2O的最佳办法是把它作为R环境的一个大内存扩展,R环境其实不直接作用于大的数据集,而是经过进程扩展通信协议比喻REST API与H2O集群通信,H2O来处理大量的数据事情。

几个有用的R扩展包,如ddply已经被打包,容许你在处理大规模数据集时,打破本地机器上内存容量的限制。你可以或许或者在EC2上运行H2O,或者Hadoop集群/YARN集群,或者Docker容器。用苏打水(Spark+ H2O)你可以或许或者访问在集群上并行的访问Spark RDDS,在数据帧被Spark处理后。再传递给一个H2O的机器学习算法。

4. Apex

Apex是一个企业级的大数据动态处理平台,即可以或许或者支持即时的流式数据处理,也可以或许或者支持批量数据处理。它可以或许或者是一个YARN的原生程序,可以或许或者支持大规模、可扩展、支持容错办法的流式数据处理引擎。它原生的支持同样平凡变乱处理并担保数据一致性(精确一次处理、最少一次、至少一次)

过去DataTorrent公司开拓的基于Apex的商业处理软件,其代码、文档及架构操持表示,Apex在支持DevOps方面可以或许或者把利用开拓清楚的分离,用户代码常日不需要知道他在一个流媒体处理集群中运行。

Malhar是一个干系项目,供应超过300种常用的完成配合的业务逻辑的利用程序模板。Malhar的链接库可以或许或者显著的减少开拓Apex利用程序的时间,而且供应了连接各种存储、文件体系、消息体系、数据库的连接器和驱动程序。而且可以或许或者结束扩展或定制,以满足个人业务的哀求。所有的malhar组件都是Apache容许下利用。

5. Druid

Druid在今年二月转为了商业友好的Apache容许证,是一个基于“变乱流的稠浊引擎,可以或许或者满足OLAP解决方案。末了他紧张利用于广告市场的在线数据处理领域,德鲁伊可以或许或者让用户基于时间序列数据做随便任性和互动的分析。一些关键的功能包括低延迟变乱处理,快速聚合,类似和精确的打算。

Druid的核心是一个利用专门的节点来处理每个部分的成就自定义的数据存储。实时分析基于实时管理(JVM)节点来处理,最终数据会存储在历史节点中负责老的数据。代理节点直接盘问实时和历史节点,给用户一个完整的变乱信息。测试表明50万变乱数据可以或许或者在一秒内处理完成,而且每秒处理能力可以或许或者达到100万的峰值,Druid作为在线广告处理、网络流量和别的的活动流的理想实时处理平台。

6. Flink

Flink的核心是一个变乱流数据流引擎。虽然表面上类似Spark,实际上Flink是采用不同的内存中处理办法的。首先,Flink从操持开始就作为一个流处理器。批处理只是一个具有开始和结束状态的流式处理的分外环境,Flink供应了API来应对不同的利用场景,不论是API(批处理)和数据流API。MapReduce的世界的开拓者们在面对DataSet处理API时该当有华盖云集的觉得,而且将利用程序移植到Flink非常随便马虎。在许多方面,Flink和Spark非常,其的简洁性和一致性使他广受欢迎。像Spark非常,Flink是用Scala写的。

7. Elasticsearch

Elasticsearch是基于Apache Lucene搜索分布式文件做事器。它的核心,Elasticsearch基于JSON格式的近乎实时的构建了数据索引,可以或许或者完成快速全文检索功能。结合开源Kibana BI表示对象,您可以或许或者创建令人印象深入的数据可视化界面。

Elasticsearch易于设置和扩展,他可以或许或者自动根据需要利用新的硬件来结束分片。他的盘问语法和SQL不太非常,但它也是大家很熟悉的JSON。大多数用户不会在那个级别结束数据交互。开拓人员可以或许或者利用原生JSON-over-HTTP接口或常用的几个开拓措辞结束交互,包括Ruby,Python,PHP,Perl,Java,JavaScript等。

8. SlamData

假如你正在寻找一个用户友好的对象,能理解最新流行的NoSQL数据的可视化对象,那么你该当看一看SlamData。SlamData容许您用熟悉的SQL语法来结束JSON数据的嵌套盘问,不需要转换或语法改造。

该技能的紧张特点之一是它的连接器。从MongoDB,HBase,Cassandra和Apache的Spark,SlamData同大多数业界标准的外部数据源可以或许或者方便的结束整合,并结束数据转换和分析数据。你可以或许会问:“我不会有更好的数据池或数据客栈对象吗?请认清这是在NoSQL领域。

9. Drill

Drill是一种用于大型数据集的交互分析的分布式体系,由谷歌的Dremel催生。Drill专为嵌套数据的低延迟分析操持,它有一个明白的操持目标,灵活的扩展到10000台做事器来处理盘问记录数据,并支持兆级别的数据记录。

嵌套的数据可以或许或者从各种数据源获得的(如HDFS,HBase,Amazon S3,和Blobs)和多种格式(包括JSON,Avro,和buffers),你不需要在读取时指定一个情势(“读时情势”)。

Drill利用ANSI 2003 SQL的盘问措辞为基础,以是数据工程师是没有学习压力的,它容许你连接盘问数据并跨多个数据源(比喻,连接HBase表和在HDFS中的日志)。末了,Drill供应了基于ODBC和JDBC接口以和你所爱好的BI对象对接。

10. HBASE

HBase在今年的里程碑达到1.X版本并持续改进。像别的的非关系型的分布式数据存储非常,HBase的盘问结果反响非常迅速,因此擅长的是经常用于后援搜索引擎,如易趣网,博科和雅虎等网站。作为一个稳定的、成熟的软件产品,HBase新鲜的功能其实不是经常出现,但这种稳定性往往是企业最关心的。

迩来的改进包括增加地域做事器改进高可用性,迁移转变进级支持,和YARN的兼容性提升。在他的特性更新方面包括扫描器更新,担保进步性能,利用HBase作为流媒体利用像Storm和Spark历久存储的能力。HBase也可以或许或者经过进程Phoenix项目来支持SQL盘问,其SQL兼容性在稳步进步。Phoenix迩来增加了一个Spark连接器,添加了自定义函数的功能。

11. Hive

随着Hive过去多年的成长,逐步成熟,今年发布了1.0正式版本,它用于基于SQL的数据客栈领域。目前基金会紧张会合在提升性能、可扩展性和SQL兼容性。最新的1.2版本显著的提升了ACID语意兼容性、跨数据中心复制,和以成本为基础的优化器。

Hive1.2也带来了改进的SQL的兼容性,使布局利用它更随便马虎的把从现有的数据客栈经过进程ETL对象结束转移。在筹划中讲紧张改进:以内存缓存为核心的速度改进 LLAP,Spark的机器学习库的集成,进步SQL的前嵌套子盘问、中央典范支持等。

12. Kylin

Kylin是eBay开拓的用于处理非常大量数据的OLAP分析体系,他利用标准的SQL语法,和许多数据分析产品很像。Kylin利用Hive和MR来构建立方体,Hive用作预链接,MR用作预聚合,HDFS用来储存构建立方体时的中央文件,HBase用来存储立方体,HBase的coprocessor(协处理器)用来响应盘问。

像大多数别的的分析利用非常,Kylin支持多种访问办法,包括JDBC,ODBC API结束编程访问和REST API接口。

13. CDAP

CDAP(Cask Data Access Platform)是一个在Hadoop之上运行的框架,抽象了制造和运行大数据利用的复杂性。CDAP围绕两个核心概念:数据和利用程序。CDAP数据集是数据的逻辑展示,不论底层存储层是什么样的;CDAP供应实时数据流处理能力。

利用程序利用CDAP做事来处理诸如分布式变乱和做事创造等利用场景,避免程序开拓者淹没在Hadoop的底层细节中。CDAP自带的数据摄取框架和一些预置的利用和一些通用的“包”,比喻ETL和网站分析,支持测试,调试和安全等。和大多数原商业(闭源)项目开源非常,CDAP具有良好的文档,教程,和例子。

14. Ranger

安全一直是Hadoop的一个痛处。它不是说(像是经常报道)Hadoop是“不安全”或“不安全”。实际是,Hadoop有许多的安全功能,虽然这些安全功能都不太强大。我的意思是,每个组件都有它自己的身份验证和授权履行,这与别的的平台没有集成。

2015年5月,Hortonworks拉拢XA /安全,随后经过了改名后,我们有了Ranger。Ranger使得许多Hadoop的关键部件处在一个保护伞下,它容许你设置一个“计谋”,把你的Hadoop安全绑定到到您现有的ACL基于活动目录的身份验证和授权体系下。Ranger给你一个地方管理Hadoop的访问控制,经过进程一个漂亮的页面来做管理、审计、加密。

15. Mesos

Mesos供应了高效、跨分布式利用程序和框架的成本拒却和共享,支持Hadoop、 MPI、Hypertable、Spark等。

Mesos是Apache孵化器中的一个开源项目,利用ZooKeeper完成容错复制,利用Linux Containers来拒却任务,支持多种成本操持分配(内存和CPU)。供应Java、Python和C++ APIs来开拓新的并行利用程序,供应基于Web的用户界面来提反省集群状态。

Mesos利用程序(框架)为凑集成本协调两级调度机制,以是写一个Mesos利用程序对程序员来说觉得不像是熟悉的体验。虽然Mesos是新的项目,成长却很快。

16. NiFi

Apache NiFi0.2.0 发布了,该项目目前还处于 Apache 基金会的孵化阶段。Apache NiFi 是一个易于利用、功能强大而且可靠的数据处理和披发体系。Apache NiFi 是为数据流操持。它支持高度可设置设备陈设的指示图的数据路由、转换和体系中介逻辑。

ApacheNiFi是由美国过国家安全局(NSA)进献给Apache基金会的开源项目,其操持目标是自动化体系间的数据流。基于其事情流式的编程理念,NiFi非常易于利用,强大,可靠及高可设置设备陈设。两个最紧张的特性是其强大的用户界面及良好的数据回溯对象。

NiFi的用户界面容许用户在浏览器中直观的理解并与数据流举行交互,更快速和安全的结束迭代。

其数据回溯特性容许用户反省一个对象如安在体系间流转,回放和可视化关键步骤过去之后产生的环境,包括大量复杂的图式转换,fork,join及别的把持等。

别的,NiFi利用基于组件的扩展模型觉得复杂的数据流快速增加功能,开箱即用的组件中处理文件体系的包括FTP,SFTP及HTTP等,非常也支持HDFS。

NiFi获得来来自业界的一致好评,包括HortonworksCEO,Leverage CTO及Prescient Edge首席体系架构师等。

17. Kafka

在大数据领域,Kafka已经成为分布式发布定阅消息的实际标准。它的操持容许代理支持不可胜数的客户在信息吞吐量告诉处理时,同时经过进程分布式提交日志保持历久性。Kafka是经过进程在HDFS体系上保存单个日志文件,因为HDFS是一个分布式的存储体系,使数据的冗余拷贝,因此Kafka自己也是受到良好保护的。

当消费者想读消息时,Kafka在中央日志中查找其偏移量并发送它们。因为消息没有被立即删除,增加消费者或重发历史信息不产生额外消耗。Kafka已经为可以或许或者每秒发送2百万个消息。尽管Kafka的版本号是sub-1.0,但是其实Kafka是一个成熟、稳定的产品,利用在一些世界上最大的集群中。

18 OpenTSDB

opentsdb是建立在时间序列基础上的HBase数据库。它是专为分析从利用程序,移动设备,网络设备,和别的硬件设备网络的数据。它自定义HBase架构用于存储时间序列数据,被操持为支持快速聚合和最小的存储空间需要。

经过进程利用HBase作为底层存储层,opentsdb很好的支持分布与体系可靠性的特点。用户不与HBase的直接互动;而数据写入体系是经过进程时间序列的守卫进程(TSD)来管理,它可以或许或者方便的扩展用于需要高速处理数据量的利用场景。有一些预制连接器将数据发布到opentsdb,而且支持从Ruby,Python和别的措辞的客户端读取数据。opentsdb其实不擅长交互式图形处理,但可以或许或者和第三方对象集成。假如你已经在利用HBase和想要一个大略的办法来存储变乱数据,opentsdb也许正好得当你。

19. Jupiter

大家最爱好的条记利用程序都走了。jupyter是“IPython”剥离出来成为一个独立的软件包的措辞无关的部分。虽然jupyter自己是用Python写的,该体系是模块化的。现在你可以或许或者有一个和iPython非常的界面,在条记本电脑中方便共享代码,使得文档和数据可视化。

至少已经支持50个措辞的内核,包括Lisp,R,F #,Perl,Ruby,Scala等。实际上即使IPython自己也只是一个jupyter Python模块。经过进程REPL(读,评价,打印循环)措辞内核通信是经过进程协议,类似于nrepl或Slime。很高兴看到这样一个有用的软件,得到了显著的非营利布局帮助,以进一步成长,如并行履行和多用户条记本利用

20. Zeppelin

Zeppelin是一个Apache的孵化项目. 一个基于web的条记本,支持交互式数据分析。你可以或许或者用SQL、Scala等做出数据驱动的、交互、互助的文档。(类似于ipython notebook,可以或许或者直接在浏览器中写代码、条记并共享)。

一些基本的图表已经包括在Zeppelin中。可视化其实不只限于SparkSQL盘问,后端的任何措辞的输出都可以或许或者被识别并可视化。 Zeppelin 供应了一个 URL 用来仅仅展示结果,那个页面不包括 Zeppelin 的菜单和按钮。这样,你可以或许或者随便马虎地将其作为一个iframe集成到你的网站。

Zeppelin还不成熟。我想把一个演示,但找不到一个大略的办法来禁用“Shell”作为一个履行选项(在别的事情)。但是,它已经看起来的视觉效果比IPython条记本利用更好,Apache Zeppelin (孵化中) 是 Apache2 容许软件。供应100%的开源。

想知道更多关于IT行业的信息吗?想远远不如行动,行动起来,一起加入光环大数据,一起进入IT行业,跟着光环大数据的脚步,一起走进如今的互联网信息时代,带给你不一样的色彩生活——【深圳大数据培训】


光环大数据作为国内知名的高端IT就业培训机构,多年来培养无数高薪人才!为了让更多人了解大数据、人工智能、数据分析、python等相关技能,光环大数据免费提供学习视频、2周免费跟班试听课程,如有需要,可点击留言
Tags标签 大数据培训
返回上一页
新浪微博
新浪微博

关注@我们

腾讯微博
腾讯微博

关注@我们

RSS订阅
RSS订阅

订阅我们

领取资料

X
立即免费领取

请准确填写您的信息

点击领取