大数据、云计算、物联网、移动通讯……每天都产生了大量的数据,我们都处于数据爆炸的环绕之中。
在过去几年间,海量复杂结构数据的存储、清洗、处理、查询和基本的分析功能在开放架构开源平台上都一一得以实现。但是,如何利用新的技术和方案,以更快的大数据分析速度以及更精准的分析结果,从这些多年积累下来的复杂的、历史数据中挖掘出其中蕴藏的巨大的价值,并提供实时准确的信息服务来辅助和支持更为高效的商业决策,同时还要参考投资回报以及能源消耗等各方面的因素,都是企业管理者非常关心的问题。
以RISC架构小型机外接光纤存储的传统架构,眼下遇到了很大的挑战,如管理复杂、成本昂贵。因此,越来越多的企业将RISC架构迁移到更具有性价比的开放的、标准化的IA服务器平台上,甚至将硬件、软件以及分析软件全集成在一起,提供相近于以往的服务。一个典型的做法是,在诸如ERP、CRM等核心业务处理方面,采用英特尔至强E7处理器这样高可用、高稳定性的平台来对数据进行实时快捷分析处理;而在数据进一步抽取、梳理、存档后再进行深度挖掘分析时,采用至强E5处理器作为可弹性扩充的基础平台更具投资性。
为降低数据的存储、处理流程的功耗,英特尔还在系统可管理性方面做了很多平台化的工作,最后通过台式机或终端、平板甚至手机形成各种各样的智能可视化报告。英特尔从性能、可扩展性方面涵盖了整个业务过程数据处理的全生命周期。
再好的平台要发挥作用,也需要各类软件运行于其上。一般情况下,英特尔都作为幕后英雄甘愿默默地在后台支持各种业务的运行。而日前,英特尔与SAP联手走向了台前,展示了双方架构师团队在英特尔中国公司总部的云创新中心成功搭建的一个基于英特尔架构的SAP HANA与Hadoop联合应用的平台。
满足传统行业苛刻需求
一瓶瓶装水的成本不到两角钱,但零售价接近2元,其中物流占据大部分空间。如何将成本再降低一些?
农夫山泉在全国设有数十家生产厂,瓶装水每天从60个分销中心源源不断地运到5000个分销商,最后出售到消费者的手里。但由于销售报表数据都有一天的滞后期,实时物流无法掌握,各家分销商的货架细节更难知情。通过大数据应用,农夫山泉大大压缩了原先的业务数据获得周期,原先需要24小时后才能获取的物流及销售信息在两小时内即可知悉,这样,销售部门便可在最恰当的时候将瓶装水准确地派送到指定的分销商甚至零售商的货架上,实现了物流管理的精细化,而且节省了油费,从而大大提升了公司的赢利能力。中粮可口可乐公司也有类似的成功经验。
另一个故事是,铁路网上订票系统(12306)以前也存在大量的问题,最突出的是高峰时段网站访问停机,春运高峰时网站一天的点击量多达14亿次,从查询到买到一张票至少要点击500次鼠标,令出行者不胜烦恼。但现在,这些意外的现象已经大大减少。
支持解决上述问题的就是基于英特尔至强处理器的服务器平台上应用包括基于内存的数据库和商业智能技术在内的SAP新型数据库技术的。铁路网上订票系统便是采取了诸如利用Nosql技术等办法迅速扩展了前端并发,实现了支持每秒钟2.6万个以上的并发操作,购票过程顺利了许多。
8月21日,英特尔与SAP展示了经过一年多努力达成的一个真实的、可落地的,通过大数据作为价值挖掘的手段来给用户创造价值的、端到端的大数据解决方案。英特尔与SAP结合彼此在计算力和数据分析应用上的优势,共同打造了这个大数据实时分析平台,以应对企业用户对实时分析的迫切需求。该平台基于具备高性能和高能效,并提供计算、存储和I/O均衡优势的英特尔架构开放硬件平台,实现了SAP对结构化、非结构化和半结构化的数据源进行技术处理和Hadoop可扩展的业务挖掘分析,并形成多样的用户报告,在国内完成整体的测试并且可以交付用户测试。
通常,类似的解决方案或者平台工作都是在美国搭建、测试完成后由各国予以应用,而这次,国内走在了前面,英特尔数据有限公司数据中心及云计算业务的产品总监贺晓东感到特别自豪。
这样一个测试平台和环境能给用户带来什么好处?贺晓东介绍说,首先是降低了项目实施的风险、缩短了项目实施的时间,减少了前期硬件成本的投入,而来自英特尔和SAP的专业架构师参与制定优化方案和测试计划,势必大大增强了用户的信心。项目实施后的成功案例更是让企业动心。因此,很多特大型企业用户表达开展合作的意愿就不足为怪了。SAP中国数据库和技术平台部售前总监/数据管理技术首席架构师宋一平告诉记者,国航客票订票系统也将在该平台上开展新的应用。
全新测试平台支撑业务顺利运行
英特尔云创新中心解决方案的架构师程从超介绍了这个端到端解决方案。他强调,在大数据领域,没有最好的产品,最关键的是适合业务的需求。只要把产品的功能发挥到了该用的地方就是好的方案;用户也不要指望一个产品能解决企业内所有的问题。他举例说,一谈到大数据,所有人都会提及Hadoop,但Hadoop并不能能满足所有的业务需求,不能替换传统核心业务系统Scale-up数据和scale-out数据。此外,让企业级应用与开源工具有机结合起来发挥各自的优势,所形成的解决方案更具有竞争性。
结合上述因素,程从超在英特尔云创新中心用十台服务器搭建了这个端对端的平台,为方便管理,计算平台和存储平台统一用Cloudera来实现,用了9台双路的E5 2680来做Hadoop scale-out服务器。SAP HANA安装在一个4路的E7 4890 v2的平台上,配置450GHz内存和6块SSD的硬盘。用某个省2011年两天共40亿条移动记录来模拟一个运营商系统分析平台,将详单数据加载到Cloudera Hadoop平台上,同时通过Cloudera MapReduce进行汇总,把这个详单形成轻度汇总的数据加载到HANA里面,通过传统的BO和开源的spring结合起来访问。
程从超在这个平台上模拟了三个场景:一是以开源平台实现基于HANA对任意纬度组合快速查询,二是架构9台服务器展现HBase的Scale-out架构和单键查询的快速响应能力和拓展架构,三是通过一个移动设备访问后台APP移动办公平台,以实时访问后台ERP及初步分析的结果。
演示表明,不同纬度的查询结果能以秒级的速度展示出来,完全保证了即席查询,而且完全实现了移动的应用,使用非常方便。既能更好地给客户服务,更可为企业创造更多的利润。
5月份就基本成型的这个平台更适合于传统行业的应用。电信就是最典型的大数据应用,该平台可支撑电信业务运营支持系统(BOSS)的性能分析,更可用于传统企业的ERP应用,提供实时的商业智能(BI)。程从超告诉记者,Hadoop加HANA的测试环境正是基于能源和制造行业这两个行业庞大的模拟数据上搭建成功的。
两强联手合作20载
英特尔与SAP的合作从20多年前的传统数据分析时代沿袭到如今的大数据分析时代。在HANA产品研发之初,英特尔德国公司就成立了一支专门的团队,以保证用户在采用HANA时内存实时数据分析解决方案时用到的是最优的解决方案,当然,也包括硬件平台的解决方案。
此次基于英特尔架构硬件平台和SAP领先的内存计算和分析技术构建的大数据实时分析平台,就是这种协作创新凝聚的结晶。英特尔与SAP还将继续致力于大数据解决方案的研发与拓展,并将一些关键的大数据革新技术贡献到Hadoop开源社区及相应生态圈内部的大数据合作伙伴,推动大数据技术的落地与数据分析领域的进一步发展。
与英特尔的合作,完美验证了SAP HANA与英特尔最新芯片在中国的落地问题,并且在这个基础上培养了能源、电信、制造、采掘等不同行业的客户,让客户在这个尚未公开发布的架构和平台上进一步验证,为深化传统的应用和拓展新的应用打下基础,最终“包装”成一个端到端解决方案的测试平台,为客户带来无论是商务和技术方面的实惠,更重要的是能将成功经验在更多的行业加以推广和应用。
英特尔是一家领先的以开放见长的高科技公司,与SAP的合作意味着英特尔还将会与更多的伙伴及用户携手,更多地走向前台围绕开放架构大数据解决方案的开发开展更为广泛的合作,以产出更多多样化、差异化的创新成果,确保每个行业和领域都能在大数据时代获益。