为了帮助制造企业在混合多云环境下更好地管理数据,在e-works于1月22日举办的“工业互联网技术与应用”专题研讨会上,IBM带来了“海量数据上云,跟我混”的主题分享。IBM系统部数据与AI存储及数据保护现代化业务总监周立旸、IBM系统部技术经理刘鑫围绕混合多云环境下数据湖现代化面临的挑战与应对,以及Spectrum Scale在驱动存算分离的现代化数据湖方面的优势等内容进行了深入解读。
与此同时,IBM也分享了帮助百度智能云降低数据存储成本,应对数据安全与合规,实现数据在不同业务群组中无缝流动,以及帮助某AI独角兽企业,构建统一的横跨混合多云环境的高性能数据湖,实现数据湖整合及数据成本降低、AI训练效率提升的具体案例。以下是内容回顾。
当数据湖遇上混合云 需实现企业数据湖的现代化
周立旸指出,数据湖是当前企业数字化转型的重点领域。这是因为,一方面越来越多的企业发现,数据是企业的生产力,通过数据湖建设可获得更大业务价值,且据预计,未来五年数据湖会以高速成长比例发展;另一方面,数据湖对于AI而言是必不可少的前提条件,AI的普及进一步推动了企业数据湖的需求。此外,随着用户数据量越来越多,企业在上市时间、性能和运营效率等方面也会面临越来越大的挑战,这也依赖于数据湖的建设来解决。
然而,随着越来越多的企业的基础架构向混合云转型,需要在云环境中也运行业务分析系统,数据湖也面临来自数据管理成本与效率方面的越来越多的挑战:在数据分析应用经历关系型数据库、数据仓库/决策支持系统的建设之后,以Hadoop为代表的企业数据湖建设与应用越来越广泛,与此同时,计算和数据融合的架构,在应用本身及面向未来云基础架构的支持方面遭遇瓶颈,企业希望将计算与存储数据分离,并且让数据湖的架构能够适合多云、混合云架构的发展,满足企业基础架构未来灵活性和对成本控制的要求。因此,这就需要在整个企业范围内实现数据湖的现代化。
IBM与Cloudera的战略合作
帮助客户实现更大价值
Cloudera是业界领先的Hadoop发布版本的提供商,多年来在数据湖应用方面走在业界前列,且在2019年完成了对同是业界领先Hadoop厂商的Hortonworks的收购与合并,可以说已成为业界排名第一的Hadoop发布版本提供商。
而在几年前,IBM就与Hortonworks有着深度合作,在以前的Hortonworks的发布版本中,都会支持IBM 包括Spectrum Scale、 ESS(Elastic Storage System)在内的数据存储平台,作为数据湖的基础架构。而如今IBM也已与Cloudera 达成战略合作,共同为企业数据平台提供基于开源的集成产品和服务的生态系统,以在构建数据湖时加速实现价值。
随着双方深化战略合作,Cloudera当前和未来的Hadoop发布版本,同样也会支持IBM软件定义的数据平台,帮助用户实现更大价值。这具体包括:
①更快的分析,更少的占地空间;
②将计算和存储分离,根据需求独立灵活扩展;
③并行架构既支持企业内部数据中心的性能、容量扩展,也能满足混合云战略下与公有云、私有云结合,与容器技术结合,实现基础架构扩展的需求,带来近乎无限的扩展能力;
④全局命名空间实现数据湖的整合;
⑤采用IBM企业级软件定义的数据存储平台作为底层数据存储平台,原生支持高可用性、容灾、数据同步等各种企业级数据管理能力。
IBM为大数据分析提供优化的存储平台
对所有的大数据分析的用户而言,无论是现在已经有混合云战略,还是在数据中心内单一集群,IBM Spectrum Scale都可以带来优势。一是,采用IBM的Spectrum Scale或者ESS,不仅可以以高速并行纠删码的方式来实现数据保护,仅需30%数据保护开销,也能为应用提供更高的访问性能,性能比传统HDFS快15%,可用容量提高一倍。二是,通过IBM Spectrum Scale的多协议访问支持,客户无需将数据在多套不同业务系统、多套存储里进行拷贝,也无须考虑如何保证数据的准确性、一致性,用一份数据即可满足不同业务系统对于数据访问的要求,而且可自动分层到磁带或云,节约70%以上成本。
如今,来自医疗、金融、制造业等领域的众多全球知名客户,如匹兹堡大学医学中心(UPMC)、西班牙国际银行(Santander)、南非第一国家银行(FNB)、通用汽车、福特等,都通过整合数据湖,将更快、更具优势、更有效率的IBM软件定义存储,作为Hadoop大数据存储平台。
除此之外,在企业级数据管理能力方面,IBM Spectrum Scale相较于开源HDFS架构也更具优势,可提供同步/异步容灾、数据备份/归档性能、局域策略的数据自动分层、不同类型的配额管理、审计日志和目录监控等企业级管理能力,为客户构建企业级的数据平台。
在IBM Spectrum Scale与Cloudera大数据平台相结合的应用场景上,目前主要可提供HDFS存储、HDFS存储分层/整合、HDFS备份、数据摄取、新一代工作负载数据容灾等6大应用场景,但周立旸也强调,这些仅是IBM软件定义存储与Cloudera主要关注的应用场景,但应用场景并不仅仅限于此。
周立旸还指出,除了IBM Spectrum Scale这一软件定义存储的方式之外,IBM也可提供高效、软硬一体的集成化大数据存储,即 Elastic Storage System(ESS),来最大化可用性、性能、领先的数据管理功能以及经济性。ESS目前有两款不同型号,一款是ESS 3000,基于全NVMe闪存,非常高速高效;另一款是ESS 5000,基于磁盘,同样可提供非常高的容量与性能。企业通过将两款产品组合,也能让自身数据平台满足不同业务应用需求及业务发展需要,而且,一体化设备在部署及扩容方式上也提供了更大便利性,软硬件都能得到IBM的企业级服务与支持。对Cloudera大数据平台的数据存储而言,IBM ESS是更加完善、优化、简便的一体化存储平台。
总的来说,AI和大数据存储一直是IBM发展的重点。而且,在大数据平台的应用方面,结合IBM Spectrum Scale和ESS,以及IBM其它的一些诸如数据归档备份的管理软件,可以帮助企业打造既满足各种各样应用需求,也满足混合云的不同部署需求的企业级大数据平台,为客户带来更高的应用价值。
性能王者,一专多能
Spectrum Scale
驱动存算分离的现代化数据湖
IBM大中华区系统部技术经理刘鑫指出,Spectrum Scale是IBM构建现代化数据湖的核心平台。从上世纪90年代起,到刚刚发布的5.1版本,IBM Spectrum Scale(曾用名General Parallel File System,GPFS)已经是一款拥有20多年历史,业界首屈一指的分布式并行系统。
多年来,IBM Spectrum Scale在高性能运算领域数据共享解决方案方面,一直处于统治地位,在世界上很多超级计算机中都有采用;而且它也在不断演进,以应对更广泛领域内的数据挑战,适配不同行业、不同场景对数据基础架构的要求。如今,IBM Spectrum Scale堪称是一专多能的性能王者,在驱动存算分离的现代化数据湖方面具有显著优势,且已经部署在各个不同行业的超过4000个客户的生产环境当中,为客户提供卓越的性能体验,以及丰富、先进的数据管理能力。
从前端对数据湖应用场景的知识来看,Spectrum Scale完全能够整合企业内各种不同的数据环境,形成真正包罗万象、海纳百川的数据湖。具体而言,Spectrum Scale可提供透明的HDFS协议封装,无缝替换传统的HDFS架构,消除性能瓶颈,建立存算分离的MapReduce环境,支持HBase、Hive和Spark等应用,以及支持更多的数据仓库、NoSQL数据库等分析的应用(如SAS、Cassandra、MongoDB)。
Spectrum Scale还支持通用的Posix、NFS、SMB这些文件访问接口以及基于s3的对象访问接口,可以用来整合企业内的NAS和对象存储等环境。另外,Spectrum Scale还可以支持OpenStack环境中的Cinder、Manila、Swift等等几种主流的数据访问接口以及KuBernetes容器环境的CSI接口。
从后端存储资源和介质管理能力来看,Spectrum Scale能够管理包括SSD、机械硬盘、磁带以及对象存储、云存储等等不同特点的存储介质,同时Spectrum Scale具备非常灵活的部署选择,既可以软件定义的方式部署,安装在X86服务器、Power服务器以及IBM的LinuxOne上,管理内置硬盘或者利用外置磁盘阵列的资源来构建数据湖的存储服务;也可采用一体机的方式交付给客户,提供更加快捷的服务上线速度。不仅如此,Spectrum Scale还可以部署在公有云上,利用公有云的存储服务建立Spectrum Scale集群,提供高性能的数据和能力。
Spectrum Scale的先进之处在于,无论使用什么样的存储介质(内置硬盘、存储阵列、磁带或者对象存储等),无论采用怎样的部署方式(软件定义、一体机,部署在公有云或私有云),所有的这些存储资源和存储环境都可以被整合到统一的数据湖的命名空间中,为业务应用、分析应用提供高性能的数据访问。数据会在混合多云的环境中被随需调度,满足数据访问的响应要求,提高数据的访问效率,减少不必要的数据传输和降低不必要的存储资源的占用,减少应用的等待时间。
作为企业级的数据平台,Spectrum Scale还提供强大的压缩、加密、审计日志等多种能力,既支持纠删码、副本等不同的冗余模式,也支持快照、双活和容灾能力,有效保证数据的可用性和可靠性。Spectrum Scale还可以结合IBM的Spectrum Protect,提供并行的数据备份;结合IBM的Spectrum Discover,来满足数据治理的要求。
Spectrum Scale三大独特优势
应对混合云数据湖挑战
随着企业的IT逐渐转型到混合云模式,数据环境越来越复杂,数据湖的规模越来越大,很多客户都面临着数据竖井、数据成本与数据安全3个主要挑战。而IBM与Clouldera共同构建的现代化数据湖方案,则可以有效应对企业在混合多云架构下建设数据湖的这些挑战。
这也得益于Spectrum Scale的三大优势:一是强大的容量和性能的扩展能力,可帮助企业建立高达YB级的具有统一命名空间的数据湖,消除数据竖井,整合企业的数据资源,无缝衔接企业的数据管道,节省存储资源和网络带宽资源,极大提高数据分析效率。二是能引入丰富的介质选择和部署形态选择,不同的介质和部署方式间,可以透明、自动地进行数据调度和迁移,满足企业数据访问要求的同时,极大降低数据成本。三是提供强大的快照、双活、容灾、并行备份、审计等数据保护与合规能力,完全可满足企业对数据湖的高可用、高可靠以及业务连续性要求。
以百度智能云为例,在新冠疫情暴发后,随着云计算等线上业务迎来爆发式增长,百度智能云团队也面临巨大数据存储压力,这就要求数据存储需更加具有弹性,而通过引入了IBM磁带存储及Spectrum Scale软件定义存储解决方案,在整个疫情期间,百度智能云在存储弹性上有了非常大的增强。
具体而言,一是增强了云对象存储功能。百度智能云在云计算领域,最重要的存储产品是对象存储,并将对象存储分为了高性能存储、标准存储、低频存储和冷存储,这些都是基于磁盘的,但有的客户需要更高性价比、更便宜的存储空间,保存时间更长,而通过将IBM的归档存储引入到百度智能云的下一阶梯的存储产品当中,也补齐了百度智能云存储产品矩阵的最后一块“积木”。二是降低了整体使用成本。百度智能云通过与IBM合作,在9个月时间里使用10万盘磁带存储了900多PB的数据,在整体使用成本上降低了84%-85%。三是适用于多种业务场景。IBM的归档存储技术可适用于百度智能云的云计算服务的多种业务场景,比如视频UGC、PGC内容转码前的数据、互联网上若干年前的日志数据、石油勘探行业数据、医疗影像与基因测序数据等,都可以放在归档存储上。
而且,在应对数据合规与数据安全问题上,IBM的归档存储的方案,也为百度智能云在整个对象存储中提供了WORM(Write Once Read Many,即一次写入多次读取技术)策略。在实现百度智能云不同业务群组间的数据无缝流动上,基于IBM的Spectrum Scale解决方案,也使得整个数据在各个孤岛之间形成了管道,可以无缝流通,为百度智能云整个业务本身的数据打通和数据融合,提供了非常大的帮助。
实际上,通过采用IBM的存储解决方案,受益的不仅仅是百度智能云,还有某AI独角兽企业。该独角兽企业不仅引入了依托于Spectrum Scale构建的统一的横跨混合多云环境的高性能的数据湖,替代了原来部署在公有云上和IDC里的基于HDFS和其他开源存储技术所搭建的众多小的存储集群,还同样引入了磁带来存储冷数据,有效地实现数据湖的整合和数据成本的降低;此外,还充分利用了Spectrum Scale的AFM技术,在混合多元环境里实现跨云的数据随需调度,让所需要的数据跟着企业的计算资源走,无论是公有云还是私有云,哪里的GPU需要数据,数据就会自动调度到哪里,极大地节省了云存储和网络带宽的资源,同时也提高了AI训练的效率。
四大理由 选择IBM与Cloudera 构建存储分离混合云数据湖
刘鑫指出,选择与IBM与Cloudera构建基于混合云的存算分离的现代化数据湖有四大理由与优势:
一是,想在哪算,就在哪算,在哪算都快。无论是公有云、私有云,IBM和Cloudera的先进技术,都可以帮助企业在哪算都快,更快地发掘数据价值,更好地让数据服务于企业发展。
二是,想存什么,就存什么,存什么都放心。企业不必担心意外故障或者人为错误、黑客攻击所造成的数据丢失、数据损坏、数据泄露,可充分保护数据安全。
三是,想怎么存,就怎么存,怎么存都好用。无论应用使用怎样的方式访问数据,都可以及时找到数据,都能够方便地被使用并发挥它的价值。
四是,想存多少,就存多少,存的越多省的越多。让所有的需要的数据都能够存下来,且存在符合它价值的位置上,合理利用每一种存储资源,最大化发挥每一份存储空间的价值,让企业不用再因为数据成本而纠结。
点击“阅读原文”,进入专题页面,即可观看研讨会直播回放,同时您也可了解更多更详细的IBM存储产品与解决方案。如有疑问,欢迎致电IBM专家:400 6692 039!
原文始发于微信公众号(数字化企业):海量数据上云,跟我“混”!