主流大数据存储解决方案评析
EMC Isilon:横向扩展 性能突出
大数据存储不是一类单独的产品,它有许多实现办法。EMC Isilon存储事业部总经理杨兰江归纳综合说,大数据存储该当具备以下一些特征:
海量数据存储能力,可轻松管理PB级甚至数十PB的存储容量;
具备全局命名空间,统统利用可以或许或者看到统一的文件体系视图;
支撑标准接口,利用无需篡改可直接运行,并供应API接口结束面向对象的管理;
读写性能精良,聚合带宽高达数GB甚至数十GB;
易于管理掩护,无需中断业务即可轻松实现动态扩展;
基于凋零架构,可以或许或者运行于任何凋零架构的硬件之上;
具备多级数据冗余,支撑硬件与软件冗余掩护,数据具备高可靠性;
采用多级存储备份,可灵活支撑SSD、SAS、SATA和磁带库的统一管理。
经过过程与中国用户的接触,杨兰江感到,今后中国用户最急迫需要理解的是大数据存储有哪些分类,而在大数据利用方面面对的最大障碍就是若安在众多平台中找到适合本身的解决筹划。
EMC针对不同的利用需要可以或许或者供应不同的解决筹划:对付能源、媒体、生命迷信、医疗记忆、GIS、视频监控、HPC利用、某些归档利用等,EMC会首推以Isilon存储为核心的大数据存储解决筹划;
对付虚拟化和具备许多小文件的利用,EMC将首推以VNX、XtremIO为核心的大数据存储解决筹划;对付大数据分析一类的利用需要,EMC会综合考虑客户的具体需要,推荐Pivotal、Isilon等一体化的解决筹划。
在此,具体先容一下EMC用于大数据的横向扩展NAS解决筹划——EMC Isilon,其筹划目标是简化对大数据存储基础架构的管理,为大数据供应灵活的可扩展平台,进一步提嵬峨数据存储的效率,降低成本。
EMC Isilon存储解决筹划紧张包含三部分:
EMC Isilon平台节点和加快器,可从单个文件体系结束大数据存储,从而做事于 I/O 密集型利用程序、存储和近线归档;
EMC Isilon基础架构软件是一个强大的对象,可帮助用户在大数据环境中掩护数据、控制成本并优化存储成本和体系性能;
EMC Isilon OneFS操作体系可在集群中跨节点智能地整合文件体系、卷管理器和数据掩护功能。
企业用户决定EMC Isilon的情由可以或许或者归纳为以下几点。
第一,简化管理,增强易用性。
与传统NAS比较,不论未来存储容量、性能增长到何种程度,EMC Isilon的装配、管理和扩展都邑保持其大略性。
第二,强大的可扩展性。
EMC Isilon可以或许或者满足非结构化数据的存储和分析需要,单个文件体系和卷中每个集群的容量为18TB~15PB。
第三,更高的处理效率,更低的成本。
EMC Isilon在单个共享存储池中的利用率超过80%,而EMC Isilon SmartPools软件可进一步优化成本,供应自动存储分层,担保存储的高性能、经济性。
第四,灵活的互操作性。
EMC Isilon支撑众多行业标准,简化工作流。它还供应了API可以或许或者向客户和ISV供应OneFS控制接口,供应Isilon集群的自动化、协调和成本分派能力。
EMC Isilon大数据存储解决筹划已经在医疗、制造、高校和科研机构中有了许多成功利用。
EMC Isilon是一个强大但大略的横向扩展NAS筹划,适用于渴望投资数据管理而不是纯粹存储的企业。
如今,EMC将拉拢来的分布式数据客栈软件厂商Greenplum的软件与Isilon存储组分解为了EMC最早的大数据解决筹划。
用户既可以或许或者分开决定Greenplum软件或Isilon存储,也可以或许或者决定由Greenplum软件和Isilon存储组成的一体机解决筹划。
如今,Greenplum软件虽然已归Pivotal公司,但EMC是Pivotal的经销商与合作同伴,Greenplum与Isilon存储的组合筹划并不会因此受到影响。
HDS UCP:统一平台 利用优化
HDS中国区解决筹划与业余做事事业部总监陈戈感到,大数据存储该当是一个解决筹划:“大数据解决筹划是由基础架构的各部件组成的,包含数据存储、打算和分析,而存储是此架构中的一部分。”
大数据的存储典范与传统的存储典范有一定差异:在大数据存储中,更多的利用是一次写、多次读,读得更多是大数据存储的一个特点,而在传统的数据存储中,读写是随机的,因为每个利用不同,其读写的比例也是随机的;大数据存储需要具备横向的可扩展性,并可支撑多种接口、多种数据访问协议,便于不同数据进入这个大数据平台。
谈到中国用户在大数据存储利用中最急迫的需如果什么,陈戈感到,中国用户最急迫的需如果如何逐步实现大数据利用,即用户从现有的情势如何过渡到大数据,如何更好地利用大数据结束经营分析。
大数据的经典定义可以或许或者归纳为四个“V”,但企业不可能一步到位实现四个“V”,这需要一个循序渐进的过程。海量的、多种典范的数据是一次性全部载入到大数据中,还是经过过程现有的平台结束数据初选,再导入到大数据平台中,是两种不同的实现途径。
“先经过过程现有平台结束数据初选,再导入到大数据平台,这种办法更适合于客户垂垂实现大数据,可以或许或者延伸用户实现大数据利用的时间。”陈戈表示,“大数据紧张是非结构化数据。
用户可以或许或者利用基于对象数据存储的HCP,利用其独特的元数据采集和智能对象,对非结构化文件数据结束管理,实现智能的自动化。
这有助于对数据结束深度分析,帮助客户从单一体系中存储、共享、同步、掩护、保存、分析和检索文件数据,减少残余数据,进而为大数据分析建立一个良好的基础。”
谈到用户在大数据利用中碰着的紧张障碍,陈戈表示,一方面,利用软件本身的智能程度可否能满足行业利用需要,利用软件可否已经成型,大数据人才网job.vhao.net可否具备等,是让大数据利用落地的关键;另一方面,如何抽取数据,放在大数据平台中结束相应的打算是另一个关键成就。
HDS可为统统数据供应单一、可扩展的虚拟化集成平台。HDS推出了“三步”云计策,从基础架构、内容和信息三个层面帮助客户解决目前所碰着的成就。
具体来看,经过过程“基础架构云”,HDS可以或许或者帮助客户结束虚拟化和集成管理,实现数据中心的整合;在第二层的“内容云”当中,HDS可以或许或者按需供应内容,更可以或许或者不受利用限制地结束数据搜索和集成;
在第三层的“信息云”中,针对统统数据典范,HDS在其存储平台中融入了分析功能,使客户可以或许或者从数据信息中获得洞察力。
HDS供应的UCP for SAP HANA集成为了基于大量数据集的创新和内存分析技能,并供应实时的洞察力,从而使今后的信息驱动型企业可以或许或者加快其商业决定筹划的速度。
陈戈先容说,UCP for SAP HANA解决筹划结合了HDS刀片做事器技能、企业级存储体系和业内争先的收集组件,在这样一个集成的、高性能的硬件平台上可以或许或者快速交付SAP下一代内存打算技能。全球已有超过200家客户在利用HDS和SAP的大数据解决筹划。
其实,HDS的“三步”云计策也可以或许或者看成是其大数据计策。HDS借助以UCP为核心的大数据平台,可以或许或者帮助企业用户构建从基础架构到内容归档和搜索,直至信息提取和分析的全面、高效的大数据解决筹划。
HDS的“信息云”直接与大数据干系。UCP是一个集成为了打算、存储与收集的一体化平台,它既可以或许或者供应像一体机非常的整合性、大略性,又可以或许或者供应灵活的决定,连接第三方的设备组件。HDS还经过过程与包含SAP在内的众多大数据分析类的合作同伴合作,针对行业定制优质的大数据解决筹划。
HP StoreAll :快速支配 极速搜索
中国惠普有限公司企业集团存储产品部存储架构师张楠向记者表示,大数据存储是一套解决筹划,该当可以或许或者对大数据的Volume、Velocity、Variety和Value四个方面供应全面的支撑。
第一,大数据存储要支撑海量级的数据存储,比如具备PB级的存储能力。第二,大数据存储要支撑更高的存储速度,支撑10Gb甚至更高的收集连接。第三,大数据存储要支撑数据的多样性,如图片、文本、视频、音频等。第四,大数据最紧张的是价值的表示,而为了实现这一点,存储本身该当具备快速、智能的数据检索能力。“在存储的最底层供应最直接、快捷的数据检索。这一过程大略说就是,将基层的数据发掘工作下移,充分利用存储强大的处理能力和数据识别能力。”张楠举例说,“比如,在秒级的单位内对数据结束极速的搜索, 从几千万甚至上亿个文件中找到目标数据。”
别的,模糊盘问能力也是大数据存储不可缺少的功能。智能的模糊盘问将为大数据平台供应更加便捷的存储做事能力,使得存储更像一台智能的高速打算设备。
目前,许多中国用户在存储厂商的引导下,片面追求存储的大容量和高性能,而忽略了大数据存储本身该当供应的别的额外属性。中国用户在实行大数据的过程中经常碰着的障碍有以下两方面:第一,无法将存储与大数据平台结束对接;第二,无法充分利用大数据存储的价值,也很难将其利用到实际的业务中。张楠表示,究其原因起因,紧张在于有些大数据存储产品没有凋零的接口协议,或没有针对用户的大数据场景结束特别优化,也没有效户容易接受的易用的管理办法等。
惠普在大数据方面可以或许或者供应软硬结合的解决筹划。惠普在拉拢Autonomy公司今后,将其软件与惠普的硬件平台结束了整合, 构成为了一套完整的大数据解决筹划。张楠先容说,在存储方面,惠普拥有像StoreAll这样的大数据存储平台。借助HP StoreAll硬件平台,用户除可以或许或者实现海量数据的存储和高速数据访问以外,还能实现高级的数据检索功能,对特别文件结束快速定位。同时,结合HP Autonomy软件的特征,惠普还引入了模糊盘问、智能语义库等概念,可以或许或者帮助企业用户经过过程存储底层为基层业务带来所需的大数据业务价值。
如今,闪存不但在大数据领域,并且在Tier 1存储市场非常占据着非常紧张的地位。对付大数据平台来说,闪存可用来提升存储的存取速度,降低I/O的相应时间等。针对那些I/O压力非常明白的大数据平台, SSD可以或许或者发挥其效果, 提升存储的全部性能。但是,SSD并不是万能的。因为大部分的数据都是非结构化的,而非结构化数据对I/O的相应哀求远远没有对带宽的需要大,所以,让用户花数倍的价格购买SSD存储在目前来看还是比较艰难的。从目前环境看,引入闪存的大数据解决筹划还不是很普遍。
惠普在大数据方面拉拢了两个软件公司Vertica与Autonomy,尔后将它们的软件与原有的硬件平台结束整合,针对结构化和非结构化的数据都可以或许或者供应针对性的解决筹划。惠普在将大数据软件与存储硬件结合上也结束了考试考试,其中一个成功的例子就是HP StoreAll大数据存储平台。HP StoreAll具备以下特点:横向扩展,最大可以或许或者扩展到16TB;集成HP Autonomy搜索引擎,可以或许或者快速搜索,实实际时大数据的价值;内置对OpenStack的支撑,可快速支配;支撑文件和对象典范的数据存储。
NetApp:统一架构 无限扩展
如今,企业若想获得成功,就必须想方设法应对具备前所未有的复杂性、高性能的海量数据,并只管即便地管理这些数据,从中发掘更大的商业价值。
对付国内用户来说,不论企业的规模和数据量大小如何,利用大数据的关键在于,企业可否把大数据作为一个真正的对象,去表示企业的差异化,从而提升竞争力。随着越来越聪慧的企业信息化的发展,IT再也不是束缚企业发展的瓶颈,而是真正地融入了企业本身的业务中。越来越多的公司将大数据成功地利用于企业的商业情势。比喻,在西洋,许多企业已经着手将大量成本投放在大数据领域。反观国内,在金融领域,有为数不少的企业经过过程大数据的分析对象来分析金融的走势,实现风险管理,结束信用卡的追踪等。别的,像零售、制造、电信等行业也已在考试考试利用大数据分析对象为企业营销和决定筹划供应支撑。
不论企业如今可否正在利用大数据对象,企业都应全面地考虑本身未来发展的需要,决定一个厂家的平台与之配合发展,这可以或许或者有效避免因数据和利用迁移带来的麻烦。
在大数据方面,NetApp可以或许或者帮助企业实现数据管理,应对业务寻衅的极限,将以数据为导向的洞察转化为有效行动。若想将数据转化为商机,仅仅提升管理能力是不足的,需要完整转变数据和业务之间的联系情势。NetApp可以或许或者帮助企业用户持续管理数据,迅速控制意料以外的新商机,永久保存统统数据,并在灵活、凋零的存储平台之上打造属于企业本身的大数据解决筹划。
NetApp供应了可高效处理、分析、管理和访问大规模数据的大数据解决筹划。NetApp的解决筹划组合可划分为分析、带宽和内容三个紧张用例,这被称之为大数据的“ABC”基本身分。
具体来看,分析(Analysis)是指针对极大数据集的高效分析。NetApp分析解决筹划就是帮助用户深入理解和利用数字世界,将数据转化为高质量的信息,和供应对付业务的更深入见地,从而帮助企业做出更好的决定筹划。
带宽(Bandwidth)是指适用于数据密集型工作负载的性能。此类解决筹划着重于为速度非常快的工作负载供应更高的性能。高带宽利用包含高性能打算(能以极快的速度实行复杂的分析)、用于监控和任务筹划的高性能视频流、媒体和娱乐领域中的视频剪辑和播放。
内容(Content)是指无限的安全数据存储。此类解决筹划着重于满足可扩展的安全数据存储需要。内容解决筹划必须支撑存储的无限扩展能力,以便企业可以或许或者根据需要存储随便任性多的数据,并能在需要时找到所需的数据。
NetApp致力于经过过程一系列解决筹划来供应高性能的运算和大数据的利用。2013年11月,NetApp再次更新了E系列家眷产品,推出E2700和E5500。该系列产品采用可轻松扩展的筹划,适用于哀求99.999%的可靠性且牢固、高性能的工作负载。
用户在采购大数据存储产品时,需要把稳以下五个方面的成就:大数据存储必须具备向上扩展与向外扩展的能力;架构必须是针对工作负载结束优化的,具备实时处理能力;具备整合的数据掩护功能;担保7×24小时运行不中断,可在线结束容量扩展,实行数据迁移等;可以或许或者实现做事的自动化。
NetApp的技能优势集中体如今其统一存储平台上,从入门级产品到企业级产品,全部基于统一个体系架构和操作体系,不但支配和利用便利,并且进级和扩展非常大略。如今,NetApp拉拢LSI Engenio,其中一个紧张的原因起因就是为了大数据。2013年,NetApp赓续更新E系列产品线,推出E2700和E5500等。E5500可以或许或者支撑高IOPS稠浊工作负载和数据库、高性能文件体系和带宽密集型流等利用,可确保数据的高可用性、完整性和安全性。
曙光XData:高度集成 贴近行业
对付大数据存储,目前业界没有一个通用的定义。曙光信息产业股份有限公司总裁助理兼存储产品线产品总监惠润海从曙光大数据平台和解决筹划角度,归纳综合出大数据存储的紧张特征。
首先,大数据存储必须支撑全典范数据, 包含结构化、半结构化和非结构数据,实现统一数据支撑。
其次,存储性能上,一方面,大数据存储要支撑海量数据,并且要在担保数据可靠性的基础之上,实现容量与性能的线性扩展;另一方面,为了实现大数据的价值,批处理和实时处理两种措施都需要高性能的数据访问获得能力。
最后,在体系达到一定规模今后,体系的易用性和可管感性也是不可或缺的。
从利用角度来说,目前中国用户在大数据存储利用中最急迫的需要,是如何真正实现用户数据的价值,如何驱动业务发展,实现决定筹划和经营。“从体系构建层面说,要实现数据高性价比的存储和管理,同时满足数据做事的干系需要。”惠润海表示。
针对用户对大数据存储的需要, 曙光推出了像大数据一体机这样的全典范数据分析型产品,同时还基于该产品构建了基于行业的解决筹划,以帮助用户实现大数据落地。
“除此以外, 我们还供应了大数据统一数据中心解决筹划, 涵盖了像主攻事物处理的DS900、DS800,和针对文件存储的Parastor等存储产品。我们基于这些存储产品构建了大数据经营管理平台。”惠润海先容说,“曙光的优势不但在于可以或许或者供应全面的产品支撑,更紧张的是可以或许或者供应数据生命周期过程做事支撑。目前,我们供应的免费维保刻日为5年。”
曙光开拓了针对不同行业和利用场景的大数据存储解决筹划。以金融行业为例,目前国内四大行的利用体系每年产生的非结构化数据量已达到PB级,结构化数据也以百TB计。面对如此大量的数据,如何存储、管理、利用和盘活它们呢?惠润海感到,只需经过过程商业智能和高级分析利用解决筹划能力将数据的价值最大程度地发挥出来。
针对金融行业用户的需要,曙光开拓的XData大数据解决筹划利用优化的大数据处理技能,对文件管理、历史数据盘问和数据分析类利用等结束深入研讨,为数据爆炸式增长带来的海量数据存储及分析利用供应高可靠的解决筹划。
曙光金融行业XData大数据解决筹划采用曙光自主研发的SN-MPP并行数据库,同时结合大数据处理实际标准Hadoop,并充分考虑了多方面的数据收集,加入ETL对象和连接驱动器,供应了类SQL的接口,还和现有金融业务体系结束对接。
针对金融行业历史数据,XData大数据解决筹划在筹划筹划上紧张考虑了数据的安全性、历史数据高效导入、快速访问与分析报表。曙光金融行业大数据解决筹划立足于基础平台培植,同时其实贴合金融行业用户需要,供应了优质的软硬一体化解决筹划,为用户一揽子解决了支配、业务移植开拓等技能艰难,帮助用户跨过利用门槛。
曙光不但要像Parastor这样的大型并行处理存储体系,并且推出了业内流行的大数据一体机XData,给用户供应了多种决定。XData大数据一体机将软硬件性能最大化,同时降低了全部拥有成本,延伸了项目周期, 减少了项目风险。曙光针对不同行业的特定需要,推出了定制化的大数据解决筹划,覆盖金融、电信、交通、医疗、教诲、军工、卫星遥感等领域,经过过程本身大数据平台上丰富的接口,与各行业的利用相集成,供应高效和个性化的数据分析做事,发掘数据价值。
想知道更多关于IT行业的信息吗?想远远不如行动,行动起来,一起加入光环大数据,一起进入IT行业,跟着光环大数据的脚步,一起走进如今的互联网信息时代,带给你不一样的色彩生活——【深圳大数据培训】