世界已经进入数据爆炸的时代,那些能在数据之间发现联系并将其转化为商业机会的公司,不仅能在瞬间制服亡命的歹徒,还将赚得盆满钵满。
印度议会大厦,当一位袭击者准备掏出手枪时,监控系统已经提前做出预警,就在他掏出手枪的那一刻,安保人员及时出现,将其制服,避免了一场恐慌—这是现实,不是《盗梦空间》或《骇客帝国》描述的虚幻世界,也不是汤姆·克鲁斯的《碟中谍》系列或美国热播剧《24小时》中的人造场景。
在以色列NICE公司,其开发的分析系统每天都要处理各种各样的突发状况,通过搜集、分析来自监控摄像头、感应器实时采集的数据,发现你的“意图”,判断监控视频中出现的“反常”举动,做出预警。这不是天方夜谭,它已经应用在中国浦东机场、印度议会大厦、新加坡地铁等大型交通枢纽或公共设施。
随着互联网、物联网以及存储技术的不断演进,文字、音乐、视频甚至动作都在被数据化,真实的世界正在全面数据化的进程中。根据IDC的数据显示,就在今年,全球新增的数据量将达到1.8ZB(或1.8万亿GB),这相当于中国每个人每分钟发送3条微博且连续6,217年不间断。
世界已经进入数据爆炸时代,而信息产生、获取、管理和存储成本也在下降,2011年该成本是2005年的1/6。而在数据管理领域,过去以结构化数据为主,而未来,非结构化数据将占据主流。非结构化数据是指那些不方便用数据库二维逻辑表来表现的数据,比如办公文档、图片、音视频等。
随着互联网进入2.0时代以及社交网站的崛起,Facebook、Foursquare、Twitter等社交网站都成为最新的数据源。这些社交网站产生的内容数量不断增加,增长速度将达到每年40%-60%。无一例外,这些数据都是非结构化数据。
但随之而来的问题是,如何处理急速膨胀的数据?尤其是非结构化数据。哪些“摩萨德”的信息进信息有用?如何从看似无联系的数据中找到关联?那些能够帮助企业获取、搜索、发现和分析非结构化数据的工具将是一片蓝海,孕育着巨大的市场机会。
NICE公司正在做这样的尝试,它已经从安防领域开始,将自己对非结构化数据的挖掘能力向金融以及更宽阔的商业领域扩展。NICE公司的创始人以及大部分工程师,来自以色列情报机关“摩萨德”,它的数据挖掘和分析技术也脱胎于。以色列所处的地缘和政治环境,决定了在安防领域它必须具有强悍的身躯和聪明的大脑,以抵御来自外部的风险。
NICE公司的软件工具可以对音频、视频以及网页浏览行为等不同渠道行分析,通过对这些看似离散的信息进行深度挖掘,从而为金融、零售等行业,提供有价值的客户信息,在这背后是复杂的数学模型和一系列的运算。以前,这些复杂数据的分析仅用于导弹轨迹或者深奥的科学实验,但现在随着数据爆炸,这种大数据分析正用于生活很多方面,比如为商业客户提供及时的客户分析结果,以判断客户意图,从而提供最适合的建议,促成消费。或者在金融领域,防范金融风险。
对于已经成立25年的NICE公司,广阔的前景正在眼前展开。NICE公司可以提供从结构化到非结构化数据的捕捉和分析,应用主要集中在三个领域:呼叫中心、金融以及安防。
NICE公司的优势在于,它提供的技术是一种跨渠道的方式,可以将同一个用户所使用的不同渠道的信息通过捕获,集中在一起进行综合分析。在中国最近成长速度迅猛的电子商务品牌“凡客诚品”,就是NICE在商业领域的客户之一,NICE的工具帮助凡客诚品的客户服务部门挖掘潜在的商业机会。而随着越来越多的商业客户开始重视数据挖掘,这种能够在结构化和非结构化数据中发现价值的企业,将会大行其道。
另一家同样在大数据存储和挖掘领域拥有独特竞争力的公司是SGI。它的CEO马克· 巴雷内切亚(Mark J. Barrenechea)最近收到了理论物理学家斯蒂芬·威廉·霍金先生的生日聚会邀请函。作为SGI 的重要客户之一,SGI的高性能计算设备和软件正在霍金的实验室卖力工作,帮助这位著名且神秘的理论物理学家推演600亿年前宇宙起源的那一刻究竟发生了什么。
SGI是一家专注于高性能计算的科技公司。除了帮助霍金研究深奥的宇宙起源问题之外,它超强的图形计算能力还曾经为《泰坦尼克》、《指环王》等大制作电影提供技术支持,不过,SGI还研究计算机建模,如薯片的包装过程:传送带保持何种速度时薯片不会弄碎而且能被成功包装。
SGI是一家专注于高性能计算的公司,在它的客户中包括NASA、中国气象局、科学院等全球知名的科研机构。高性能计算由于数据量大,需要高性能计算和存储设备,而SGI的专长就在于此。
2011 财年SGI收入创下新纪录,GAAP收入62.96亿美元,同比增长56%,其增长速度几乎是整个行业的3倍,在美国经济衰退的今天,SGI的表现非常抢眼。
就在几个月前,马克· 巴雷内切亚来到中国。在他的中国之行中,除了拜访中国气象局等传统的高性能计算客户,他还特别拜访了几家著名网络公司。实际上,在数据爆炸的今天,来自互联网的非结构化数据已经占据了越来越多的存储空间。SGI同样看到了非结构化数据领域的巨大商机。
SGI可以提供建模与模拟、云计算、高性能计算到大数据处理的从存储设备到软件的一体化解决方案,可以进行从计算流体动力学、结构力学、计算化学等等任一复杂的数学运算,而在非结构化数据泛滥的今天,SGI的计算能力正当其时。
实际上, 重组前兼并SGI公司的Rackable Systems是最早使用hadoop这个工具处理非结构化数据的公司之一,“比如新浪微博,如果是在四年前根本做不了数据挖掘,因为没有工具。”马克· 巴雷内切亚说。
在过去几十年,以SQL、Oracle为代表的“关系数据库”发展到顶点,存储的前提是数据之间要有联系,比如姓名、年龄,但互联网的兴起,令非结构化数据泛滥,非结构化数据不以关系唯一相关,它可以有很多关系,或者没有关系,而通过一系列计算,找出其中的联系,这就是数据挖掘的价值。
“这是一个重大突破,十亿个数据放在那,看不到关系,然后建立出关系来,这就是现在新的发展和突破要用到大量硬件和分析软件的一个机会。”马克· 巴雷内切亚强调,“现实世界中可能80% 都是非结构化数据,只有20%是结构化的。现在知道的这些知名的公司,像百度、卓越、腾讯微博、Facebook、新浪微博,他们创立的全是非结构化数据,可能是SAP的100倍。”马克· 巴雷内切亚继续说,因此“非结构化数据的创建、分析和挖掘的价值是巨大的”。
SGI把整个市场分成两大领域:商务计算和技术计算。在商务计算市场不乏IBM、HP这样级别的竞争者,目前市场规模大约在300多亿美元。而SGI更具优势的技术计算市场,比如航空工业公司制造飞机所做的CID的设计,气象局、卫星气象中心,要从卫星获取资料,进行分析,预报气象等需要建立复杂数学模型和算法的领域,这是SGI的优势所在。“我们是一个数学家的公司。”所以,SGI更关注于技术计算市场而非商务计算市场。
实际上,随着数据爆炸时代的来临,从薯片包装、F1赛车的设计到生物起源模拟,无不需要数学家建立运算公式,并通过计算设备强大的计算能力来实现,这将是一个数学家的时代。尤其网站制造的海量、分散的数据,也需要聪明的头脑从中找出规律,过去的工具、流程和参数设计并不是为了获取和评估非结构化数据,而新的工具以及新的数学模型建立,数学算法的改进,都将会为实现它的企业创造市场机会。