万物互联,是英特尔目前关注的关键技术发展趋势之一,它生成的网络不仅在规模上空前庞大,也将时时刻刻不间断地产出海量数据信息,保守估计每年增速达到31%。据思科预测,至2020年全球将有500亿台设备实现互联,产生总计为ZB级的数据。
大数据的价值在于,对这些数据进行及时分析、处理,使它们转化为商业洞察力和知识,从而做出更好的商业决策。
在6月17日举行的中第十三届中国国际软件和信息服务交易会期间,英特尔公司软件与服务事业部大数据技术中心全球总经理马子雅女士就大数据的发展方向,英特尔在数据分析领域与开源社区、产业合作伙伴、高校之间的合作举措及其最新进展进行了介绍。
大数据应用的五大方向
新技术的研究要注意正确的方向。前些年“Mahout”曾经是非常热门的项目,可如今已经无人问津。根据英特尔的在开源领域所积累的丰富工作经验,马子雅认为目前大数据研究领域的五个重点方向:
一是分析。包括机器学习、人工智能等分析这和应用。分析领域及其数据、安全性、与云计算的结合等,是值得重视的发展方 向。
二是Spark。Spark利用对内存直接进行运算,在特定情况下的运行速度可以达到Hadoop的数据处理模块MapReduce的上百倍。
三是SQL。因为最终应用程序都要编写程序,而软件开发社区的程序员基本上都了解SQL语言,无需重新学习。
四是存储。硬件、网络技术和存储技术的快速发展,已经不再像以往那样要求,人们开始关注分布式内存系统(HDFS)。
五是云实现,把大数据跟云计算更好地结合在一起。
马子雅擅长的领域是软件。在回答如何从软件角度来理解大数据的应用时,她表示,大数据的应用软件非常重要,其实很多用户并不在乎硬件,不在乎用什么样的Hadoop或者是Spark产品。所以软件在一定程度上决定了Spark及Hadoop在内的整个生态系统的未来走向,也决定了硬件会如何更好的发展。
英特尔公司软件与服务事业部大数据技术中心全球总经理马子雅:大数据将保持强劲的发展势头。中国市场是大数据市场最重要的组成部分,让我们同心协力在英特尔平台上实现大数据的合作共赢。
英特尔的研究成绩
英特尔在大数据方面已经进行了很长时间的研究和开发。早年前,英特尔开发了自有产品IDH,去年年初调整策略,改为战略投资方式,携手更多的合作伙伴更好地开展大数据应用工作。
这些工作集中在三个方面。
一是实现大数据在英特尔平台上的优化。以往数据处理时几乎要花去一半时间进行数据保护,优化后数据保护的速度提高17倍以上。
二是加强与开源社区的合作。英特尔开源社区的团队有23人,对于开源社区软件代码贡献率在全球排到第四,在中国是最领先的,一些特别重要的模块,比如数据处理模块、安全性模块以及云计算模块,目前在全球都排到前二位。从年初到现已经组织了四次交流,跟中国同行更多合作和交流。
三是加强整合分析应用领域的合作,使更多分析应用程序在英特尔平台上运行更快越好。如国内的腾讯、优酷、京东、奇虎甚至华为。这些互联网公司的某些应用程序运算时间非常长,英特尔提供了非常具体的建议,帮助他们更好地调优Spark集群性能,最终运行时间降低了一倍以上。
在国外有这样一个典型的案例,英特尔与“福克斯基金会”合作,与一家研究帕金森(Parkinson)综合症的医疗机构协作,把监控设备跟踪在100个病人的身上,让医生实时观察到病人连续的医疗数据,从而提供及时周到的医疗措施。在国内,类似的项目正在洽谈过程中。
英特尔开展大数据研究的目的,是希望任何大数据解决方案都能在英特尔平台上取得完美的用户体验。
营造完善的生态圈,促进大数据应用
在硬件方面因为业界的顶尖优势奠定了英特尔市场的主导地位。在一些地区,基于英特尔处理器的服务器产品市场份额已经达到94%,有的地区甚至达到98%,因此,英特尔为大数据开发领域打造的生态系统环境中,聚集了一系列主要的合作伙伴。
围绕开源的Spark与Hadoop的生态系统,Cloudera是英特尔最重要的一个伙伴之一,另有DataBricks、AMPLab等。在中国,英特尔与北大、清华、上海交大、复旦和南京大学等高校之间的合作比较多,一起编撰教材、从事研究和培训。
比较中美大数据的不同,马子雅表示,目前中国做大数据做得最热的是那些互联网企业,它们本身就有大量的数据需要处理。国外更多的是传统产业,比如医疗和银行行业跟大数据的结合。
“当更多的互联网公司摸索出了大数据的经验之后,慢慢地会渗透到传统产业中去,促进其传统产业更好的来应用。”马子雅相信大数据在中国的市场应用前景非常广泛。
英特尔正在携手更多合作伙伴,提供更强大、可靠的大数据技术,对爆发性增长的数据进行全面地感知、收集、管理、分析乃至共享,将其高效解析成高精度、高价值、可流通的信息,推进“互联网+”进程——更好、更快地利用信息通信和互联网技术,帮助企业实现业务上的跨界变革和创新。