主持人:各位领导、各位来宾,大家上午好!为了促进中关村大数据产业的发展和生态系统的建设,推进中关村、硅谷云计算时代创新聚集地的协同发展,今天我们在这里举办中关村大数据日活动。首先请允许我向大家介绍出席中关村大数据日开幕大会的领导和来宾。
出席本次大会的市委市政府领导及有关部门和单位的领导有:市委付华副秘书长。海淀区韦俊副秘书长以及市科委、市经信委、经济技术开发区管委会等有关部门的负责同事。
还有宽带资本董事长田溯宁先生。红山资本中国基金及合伙创始人陈丹鹏先生以及中关村创投、中关村软件园以及北京云基地的负责同志。
出席本次大会的国内外著名的专家有:硅谷大数据前沿分析师Derrick Harris先生,香港城市大学教授祝建华先生,天云数据公司CEO雷涛先生。
让我们对各位领导和来宾的莅临表示热烈的欢迎和衷心的感谢!
参加本次开幕大会的还有80多位企业家和30多位新闻媒体的代表,一并欢迎你们。
各位来宾,全球正在迎来大数据时代,大数据已经成为最具经济价值的战略资源。中关村大数据产业链雏形已经初步的显现,并受到政府的高度关注。即将发布的中关村战略新兴产业集群创新引领工程中,已经提出了将大力推动大数据相关的海量数据挖掘处理,非结构化数据分析等技术的研发及大数据技术在金融、政务、医疗等行业的应用,作为重点任务。本次大会我们将见证三件大事,一是发布三支产业投资基金,他们是云天使基金,中云融汇基金,大数据实验室孵化基金。第二是为中关村云广场正式命名。三是中关村大数据产业联盟的成立。
首先,有请宽带资本田溯宁董事长介绍中关村大数据产业联盟和即将发布的三支产业投资基金的情况。有请田溯宁董事长。
田溯宁:谢谢各位!我们从今天看,中国跟世界越来越近了。如果说前一段时间邓峰我们还在谈今年美国硅谷投资的最主要的主题就是大数据,结果我们在今天12月13号不仅把大数据作为一天讨论的主题,而且我们有系列的大数据行动。一个是今天命名为中关村大数据日,这可能是全世界第一个。第二是利用这个机会我们成立了中关村大数据联盟,这个联盟也是在郭虹主任的主导之下,很快的时间发挥中国特色,两周之内形成了,还在不断的完善过程中。第三,利用这个机会把三支相关的基金,跟大数据有关的基金成立起来。所以,今天上午利用效率比较高,用不到半个小时的时间把这几个事情都给办了。
第一,我介绍一下中关村大数据产业联盟。这个产业联盟由百度、用友软件、中国联通、联想、北航、北京大学、阿里巴巴、腾讯、TCL、龙福成立的,目前我做第一任的召集人。联盟的核心使命是把不同的数据怎么集中在一起,互联网公司的数据、运营商的数据,其他各种各样公司的数据。今天一天的探讨中我们可以看到数据正在成为21世纪最重要的战略资产,就像石油、矿山对于工业革命一样。我们希望通过这样的联盟把数据能够聚集在一起,能够交流各个方面的心得和所得。这里还谈一些使命,建立生态系统,建立行业自律。通过宣传和教育能够推广大数据,大数据联盟落户在中关村,在中关村管委会的领导下。
第二,跟大家介绍一下云天使基金。云天使基金,我们三位是一起策划的,时间6个月左右,由北极光的邓峰、沈丹鹏,这两位都是中国风险投资的拓荒者,非常的成功,培育过中国近百家高科技企业,也有数十家上市公司。这几家加上金沙江,龙福地产我们成立了天使基金。所有的法律文件都做完,已经开始投资项目先期的选择工作。一会儿请丹鹏和邓峰到这儿跟大家讲两句。另外两支基金一个是中关村创业投资发展公司投资创立的中云融汇,目标2.5亿,主要投资于云产业和大数据成长中的基金。第三支基金是大数据实验室的孵化基金,更加早期。在这里云基地成立大数据实验室,主要是拿出一部分虚拟计算的资源,5000服务器和一部分的数据,希望邀请全国最有创意的年轻人,把他们的想法能够在这个实验室孵化出来,主要是各种各样的算法。我们今天也为他们配套第一期1000万人民币,稍微少了一些,但是是孵化器这么一个基金,一起来成立。
在揭幕仪式之前,我想请我的两个搭档合伙人云天使基金的合伙人邓峰和丹鹏说一下他们对云天使基金的看法,以及未来怎么运行。
邓峰:大家早上好,真的没准备,我简单说说我对云天使基金的一些看法。有时候大家说云是雾里来雾里去,搞不清楚。其实就是两个机会,一个机会是把资源放到公司以外,放到IDC,提高你的效率,用多少交多少钱,同时增强可靠性。就像水龙头一打开才算电费。另一块是今天讲的大数据,这是过去没有的。因为云的出现,使得手机、互联网等等数据,你每天在什么地方,干什么事,几点,数据以某种方式记录下来,存在哪儿。通过数据可以分享很多东西。淘宝刚刚开了一个时光倒流,淘宝一开始8年以来什么时间什么价格买了什么东西,寄给了谁。大家想想时间多么的厉害,可以把你的人生都记载下来。每一个人都集中下来,可以创造很多很多的机会,来预测你需要什么。金融服务和财务服务等等方面很多地方都需要,大数据就是利用各种存在的,特别是移动互联网带来的数据的机会,可以造成很多的创业机会。这在今天来讲可以给很多创业提供新的机会。
数据的云的东西,特别是移动,会给出小公司从小到大成长起来的机会。呼吁一下,以前讲的各种垄断,信息的垄断、资源的垄断,在未来我们通过云基金也尝试怎么防止数据垄断,因为竞争可能就是竞争谁的数据,数据越来越变成壁垒。我觉得丹鹏、溯宁以后如果真的出现数据垄断,这真的是一件更危险的事,咱们的基金可能做的就是这件事。时间紧张,别的就不多说了,谢谢大家!
丹鹏:过去几年跟溯宁、跟邓峰一直在探索云方面的投资,云天使基金特别有意义,因为它抓住了两个非常重要的方面。首先,过去十几年在中国的风险投资行业里面,应该讲信息是最重要的一个行业。但是我们在这个行业里看到的一些主要的投资机会,以前都是在一些B2C的互联网领域里或者无线互联网领域里,由于云这样一种新的技术以及商业模式的出现,今天我们所给予的机会更多的出现在一些企业级的应用方面。我认为这对中国来讲是特别有意义的,而且因为这样一种商业模式和这样一种技术,可能能够产生一批新的为企业提供服务的企业。所以,今天我们做的基金是特别有意义的。恐怕在未来的几年里,大数据和云计算的技术公司会成为整个中国信息科技里面最重要的一个投资方向。
第二,我们是一个云天使投资基金,所以我们关注的是早期的企业,这个特别有意义。我们中国十多年来创业的环境越来越好,但总体来讲关注早期,关注在初创期的资金相对来讲还比较少,尤其是靠技术建立自己的产品壁垒。如果有我们这样的基金,在非常的早期,在企业家最需要钱的时候,能够雪中送炭,给他们提供帮助,我相信它会带来巨大的社会意义。谢谢大家!
田溯宁:前两天我跟周涛教授交流,我受到非常多的启发。如果用历史来看,工业革命非常重要的一个时候就是化学出了,化学元素周期表的出现,人们炼出了各种各样的塑料,发现了阿司匹林这样的药品,使人类的文明更进了一步。今天数据正在成为新时代的化学,未来希望通过我们的投资培育出现这个时代的阿司匹林的发现者,这个时代门捷列夫的数据周期表。我们正在处在建设中国梦的一个伟大的时代,所以我们也非常兴奋跟大家一起分享今天大数据日可能揭开中国梦未来创新创业之梦的一个开始。谢谢各位!
主持人:感谢田总,感谢沈丹鹏,感谢邓峰。刚才他们三位,思想者,跟大家分享了一些非常好的思想的闪光点。接下来开始我们的揭牌仪式活动,下面有请红山资本的沈丹鹏先生,北极光的邓峰先生,宽带资本的田溯宁先生,中关村软件园的周旺先生,北京云基地的罗曼女士为三支产业基金一并揭牌。有请。
谢谢各位,我们相信三支产业投资基金的成立,将更加激发中关村的创造活力,进一步的推动中关村云计算和大数据领域的创新创业活动。
接下来我想跟大家说一下,大家今天来到会场的时候,肯定看到了会场外面的上方象征着软件的光盘。当今的技术发展,已经使我们的软件服务能够通过云计算来实现,为了迎接大数据和云计算时代的到来,中关村管委会特地与软件园共同协商,将软件广场命名为中关村云广场。希望在这里我们能够聚集更多的高端要素,加快中关村大数据和云计算产业的引领发展。下面请海淀区韦俊区长,中关村发展集团张兴盛副总经理为中关村云广场揭牌。有请。
下面启动大数据产业联名的水晶球。有请付华副秘书长,中关村管委会、市经信委相关负责的同志,宽带资本的田溯宁先生来共同的启动中关村大数据产业联盟的水晶球。
相信中关村大数据产业联盟将成为中关村大数据产业飞速发展的重要力量。下面有请付华副秘书长为本次开幕式跟大数据活动日的活动做重要讲话,有请付华副秘书长。
付华:尊敬的为来宾,大家上午好!很高兴参加今天中关村大数据日活动。在全球信息产业快速变革的大背景下,举办这个活动非常有意义,希望通过本次活动加强国际国内的交流与合作,加快吸引产业投资,推动中关村乃至全球大数据产业飞速发展。在此,我受市委常委陈钢同志委托,对中关村大数据日活动表示热烈祝贺。
随着信息社会数据的海量增长,云计算、移动互联网和物联网等新一代信息迅速广泛应用,大数据正快速崛起为企业和社会重要的战略资源。大数据时代已经来临,国际社会的各个层面、各个领域都不断加强对大数据的重视,硅谷等地已经兴起各类创新企业、组织和投资机构,推动大数据在个人生活、各个行业中的应用。我国的大数据产业初具基础,面临难得的机遇。作为国内互联网产业的发源地和创新高地,中关村在大数据领域具有良好的发展潜力,正不断涌现出大数据领域的优秀企业。中关村的大数据日这个活动的举办,为中关村与硅谷两个全球大数据时代创新聚集地的协同发展搭建了良好的合作平台。
今天我们见证了中关村大数据产业联盟的成立,三支产业投资基金的揭牌以及中关村云广场的正式命名。这都体现了以企业为主体,市场为导向,产学研相结合的技术创新体系的构建,为中关村大数据产业的发展营造了良好的创新创业环境。下一步中关村还要继续加强加快促进大数据产业的发展和生态系统的建立。对此,代表陈钢同志提三点希望。
第一,希望中关村加强与国内外的技术人才交流,增进与国际国内企业的横向合作,构建具有持续竞争力的产业生态圈。
第二,希望中关村大数据产业联盟能够聚集产业链上下游企业,促进产学研合作,积极参与国际标准的制定,加快专利的积累,发挥示范区企业整体资源优势。提升中关村的产业主导能力。
第三,希望投资机构充分利用政府针对战略性新兴产业的扶持政策,积极参与中关村大数据产业投资,特别是早期项目的投资,共同促进中关村的企业做大做强。
最后,预祝中关村大数据日各项活动圆满成功,预祝中关村大数据产业联盟各家工作进展顺利,预祝产业投资基金取得丰硕成果。谢谢!
主持人:感谢付华副秘书长,非常感谢各位领导的关心和指导。中关村大数据日开幕大会即将结束,下面是中关村大数据日各项的论坛马上就要正式开始了。让我们在这儿预祝各项活动取得圆满的成功。开幕式到此结束。
下面有请天云数据公司CEO雷涛先生,中国联通研究院的黄文良院长,宽带资本的董事长田溯宁先生到台上来颁发大数据最佳实践奖。
看到我们能够把这么大规模的集群和达到5PB,每天每日300亿条的处理,这在传统的架构是不可能想象的规模。首先我们把这么大规模的分布式系统投入到实际生产中,我们觉得黄院长取得大数据实践奖是当之无愧的。请黄院长谈两句,这个系统架构跟传统架构的差异,革新从哪里体现出来。
黄文良:我们基本在处理上网的记录和上网日志流程每天是600到700亿条,现在总的存储是4.5个PB,一个月在几万亿条里面,我们检索相关的信息,基本上能在一秒之内展示出来。我们从事大数据也不是为了解决生产的问题,我们2010年开始研究大数据的问题。简单的说整个集群有300个数据的结点,每个月有15个PB的存储。我们是分布式计算的受益者,也是非结构化数据库的受益者,也是开源软件的受益者。因为有了大数据,中国联通终于在移动互联网时代,运营商管道之外,该做什么,该怎么做找到了解决方案。谢谢大家!
主持人:下面有请Derrick Harris,刚才听到中国的大数据实践,大家也都清楚,大数据的内容在产业圈里一直是以名称、名词出现的,更多的大家都是在谈一些概念。其实这些概念已经在国内,像一些大型的企业已经有很多实践基础的。同时我们也看到大数据是不是只是IT范畴,是不是只是一些技术型的进步。有请Derrick Harris,Derrick Harris是GigaOM的分析师,GigaOM在北美是非常著名的最前沿的能够引领技术方向的中立性组织机构。Derrick Harris是专门研究大数据行业分析的,他今年的很多预测都是非常准确的,把整个行业的命脉给大家做了一个预告。刚刚有记者问到底大数据家庭化之后除了搜索之外还能做什么,一会儿Derrick Harris会跟大家分享更多在大数据方面落地的公司,他们在做什么。
Derrick Harris:其实我不是一个非常好的擅长去做PPT的,但是对在北美和大数据相关的公司是有一些比较深入研究的。数据是无所不在的,数据是可以从我们的应用系统,从我们社交的系统获得的,政府也是打开了它的一些端口,把它的数据提供给大众。数据管理的问题已经被解决了,有很多工具解决数据存储和数据分析的问题。比如说Facebook,有他自己的一些处理方法。同时用NoSQL方式也可以解决另外一些数据处理的问题。
使用数据有两种方法。一个是商业的智能分析,所有的供应商他们都是可以做数据分析的。从应用系统和平台的角度,也有一些供应商提供这些平台,让用户利用这个平台来进行数据分析和使用。模式识别以前都是在实验室里,现在更多的因为大数据的平台走到了前台,走到了大数据的应用场景里。通过低轨道卫星的影像图片可以实时的传送,用Hadoog架构实时的分析可以做很多的应用。
对大型的地理数据库进行存储,跟踪GPS的定位,看看你在餐馆、咖啡馆停留了多长时间,可以做一些预测,这些信息给到App的开发者,有更深刻的意图去理解到底这个应用在哪里被使用了。
还有一个例子是Google前CIO出来做的一个项目,他做的项目是来做信用评估的。在北美放个人债是要偿还比较高的利息,IT公司转做金融,不像标准的信用卡信用评估,是通过互联网数据测人与人之间关系的连接。使用的7万个变量,通过这些变量的捕捉可以把放贷的准确率提升到54%的坏账率。
这家公司的做法很有意思,他是服务于视频或者语音谈话的。比如我们在聊天的时候用无线的方式去做视频和语言谈话,他来递送内容。预测你将要谈的内容,实时推送,10秒钟之后你将要谈到哪些话题,将相应的信息推送到你的谈话过程中,相当于你的谈话内容中可以有针对性的数字白板。
如果您参加了我们昨天在云基地举办的论坛里就能了解到,Decide是做购买决定建议的网站。他通过历史数据的分析和预测,比如你买笔记本的时候他告诉你现在就买还是两个月之后再买。他通过历史数据和价格的评估分析,可以告诉你是不是适合买商品的时间。如果告诉你现在就买,结果两个星期后这个产品下降了2%他会给你补上中间的差额。
很多前期的工作,专家们机器学习和人机互动的UI统一打包在产品系列里,降低数据分析的流程,更为易用一些。
从刚才这么多的例子中我们学习到了什么。第一,数据本身是一个资源,但它不是一个结果。用户想看到的是结果,而不是想看到数据,也不想去做数据分析的工作。第二,让我们做这个工作如何变得更容易。第三,怎么去找到新的信号源。再展望一下后面还有什么创新的领域,有三块。第一,产品的生产。产生的都是持续的生产,直到收到一个很糟糕的信号,这个产品不被用户接受了。怎么样通过我们信息反馈的数据影响到生产,持续的改变生产制造和产品输出的能力。第二,更为智能的设备,这些设备彼此相互互联,智能的传感器也好,随时佩戴的终端设备也好,他们会不断的收集和形成智能。第三是社交媒体,是业绩驱动最明显的领域。像治安怎么从行为中发现异常点,通过行为的异常点找到我们需要解决的内容,需要帮助的对象,这些都是我看到的未来可能通过数据实现创新的一些方向和领域。
主持人:感谢Derrick Harris精彩的演讲。刚才分享了一下北美一些数据的应用场景,一些新型的不是大型的公司,一些很精小的小型的初创企业,在北美非常吸引人眼球的企业。去年和2012年4月在北美纽约大数据的大会,这些企业恰恰成为了明星,把大型的传统IT厂商的光芒给遮盖了。真正拥有数据的企业是怎么思考的,下面的论坛有请国内一些拥有数据,站在数据王国上企业的老总们以及CIO们,展开这么一场讨论。基于我们这样一个数据,我们的思考,我们企业变革和创新的道路应该怎么去前进。有请各位CIO老总上台。
在新的大数据变革里我们发现有三方的力量在凸显,科研走到了前台,周涛是一个物理科学家,他从数据算法的角度怎么看待大数据。谢老师他是产业结构的角度看待大数据。有请三位企业老总,光大银行的副总陈总,柳总是主管联通信息化建设的总经理,还有国网信通关信息化的总经理。
几位入座的嘉宾分别代表着不同的声音,我代表的是IT的声音,把IT平台的工具和技术推广给各位在座的用户,同时我们科研怎么跟IT合在一起也请周教授谈一下。第一个问题问一下思想领袖谢文老师,今年的大数据是最热的,谈的内容也是最多的。大数据论坛里谈的最多的是四个V,容量、多样性、速度、价值。作为一个数据基地描述是不是能够大数据涵盖整个大数据的范畴?这一块也引发了我们的很多思考,我们不能说每一个用户看到四个V以后就想怎么用大数据,拿四个V去套我是不是有这些大数据了。可以看看刚才北美的案例,我们要重新思考一下是不是以IT为主导去引导大数据产业。谢老师在他的博客上连续发表了十篇关于大数据的文章,对于产业的理解请谢老师简单回答一下。
谢文:刚走进会场附近,气场似曾相识,燕归来,有点像98年、99年互联网在中国启动的时候。
历史上有相似性,在谈大数据的时候要把历史时空定一下。有很多IT厂家,做硬件的,做设备的,喜欢把这个事当做完成时来看。全齐备了,系统全有了。还有的人是当进行时看,算法啊,软件啊。我是从将来时来看,我们坐在这儿的有6个人,未必有2个人能给出同样的大数据的定义。每个人都在从不同的角度试图去理解大数据,所以这是非常早的一个时期。从信息化进程来看,我们经历了两个阶段,现在进入第三个阶段。
第一个阶段是计算机时代,计算机时代第一拨最慷慨激昂的,恐龙式的企业还活着的是机器制造商。然后你会发现计算机时代谁赢了?微软赢了,软件是真正的核心。互联网时代谁赢了?97年、98年到2012年,一开始出来的都是北电、爱立信,当然中国出了两个公司华为、中兴,主要是设备。慢慢的北电倒闭了,八大电器设备提供商就剩5个了,5个今年都是巨亏,最后谁赢了?Google了,百度赢了,腾讯赢了,服务提供商是互联网时代的核心。大数据时代我估计会重演这个历史,第一拨热情的,自己现有设备的更新换代,包装说大数据这个比较性感的标签,一忽悠,好几个买家就开买,几百亿、几千亿进去了。这一拨很快就会过去。第二拨谁说我这儿有高招,一个黑盒子,你把数据往里扔,那边出来都是金子,估计持续3、4年,也就滑坡了。最终的赢者一定是基于大数据的产品和商业模式。这些产品和商业模式都是现在也许我们无法想象或者不知道从哪儿开始想的。
我曾经在一篇文章里写过,说历史的巧合把时间点确认一下,1996年雅虎上市,当时Google还没有成立。2004年,Google上市,这个时候Facebook还没有成立。又过了8年,Facebook上市,下一个什么时候上市还没看到。本身这几个公司市值都曾经到过几千亿,也曾经主宰过产业的主流服务。比如Google2004年上市,到今天仍然是让大家望之畏的主导产业的公司,Facebook虽然有点乱了,但潜力还没有挖掘完。我个人认为明年才是中国大数据的元年,美国可能是去年,我们差了三年的时间。这是我最简单的理解,谢谢!
主持人:在大数据进来之前,可能两年以后我们会有一个梦想,但是企业已经行动了,因为必然要面临数据的一些问题。3G到来之后出现了三个数量级别的变化,从GB级别的新增数据到每天要处理TB级别的新增数据,这是一个必然的挑战。面对这些以后,发现现有的IT结构支撑是不是就能够满足我们现在的需求呢?我们也想请柳总去谈一下。原来像我们做JAVA时代的时候更多的是怎么去做应用,很多问题就出现了,现在出局对不上,ERP的数据和财务的数据是冲突的,数据是副产品。我们在做IT架构的时候,就有了新的思路,怎么设计IT架构。作为掌握整个联通数据化信息建设的总体设计师,请柳总谈一下想法,面对大数据,我们从管理经营的角度该去设计一个什么样的系统,能够落地。
柳博亮:我把联通的情况简单的说一下,今天开会探讨的很多问题,很多都是面向未来的。落实到具体实施部门的时候必须是面对现实的。我们是2年前从运营商的角度做数据中心建设,到现在数据的产生量光是上网记录查询这一项,每天实际上的存储记录,刚才黄院长介绍的是5个PB我们做了压缩存储,实际的产生量在6个T左右。即便这样每年2个P到3个P存储量的增长。这么大数据量的增长如何管理,对企业来说挑战是非常非常大的。我特别同意刚才谢老师的说法,对大数据的定义,我一直在跟给我们服务的厂商说,你们谁能帮我说清楚如何定义中国联通的大数据,确切的说到现在我们没有答案。如果连大数据的定义都说不清楚,给我将来处理这些大数据,全生命周期处理大数据的时候,我如何设计这个架构,面临着巨大的难题。尤其是有些数据是一些流程化软件运行产生的结果,而有些又是数据驱动流程发生变化。在这种情况下,我还想再提出一个疑问,大数据时代的到来,这些流程的变化对我们传统的面向应用过程问题的解决,会不会也产生影响。换句话说,我们过去整个应用的架构设计是面向业务处理过程,面向流程来决定的架构,未来会不会面向数据变化或者说数据状态变迁影响我的整个架构设计。
刚才主持人给我提出这个问题,我觉得大现在为止我没有答案。所以,也想借今天这个机会把我们在企业里做数据方面遇到的困惑拿出来供大家参考。我看到的更多的在业界讲的内容是什么?是假如我已经有一个大数据,我如何发现它的价值。但是对企业来说,我面对的问题是哪些是我的大数据,我如何采集这些大数据,我如何管理存放这些大数据,我如何保证这些数据的生命周期。举个最简单的例子,刚才我们说的每天产生的5个P的数据,我们现在处理压缩了1/10,保留的时间最多只能是4个月。我们如何把这个数据的保存周期尽可能的加长,再从中发现它更多的价值,以及后续的这些处理我们怎么去发挥它的价值,这些方面都是企业面临的问题。面对这些问题,从企业的角度来说,真的像谢老师说的,我目前不能轻易哪个厂商给我的解决方案。不是说别人用什么我就建什么,这对我将来整体的影响会尽可能的小。退一步说,别人不用,我自己在用,这就是中国联通的想法。谢谢!
主持人:柳总提的这个问题我们在线下也交流,也在思考,发现主动权在用户手里。任何一个工具厂商能够提交的只是一个阶段的工具,数据产品本身的变化周期,刚才柳总描述的5个PB的数据只是我们存下来的日志型的数据,随着日志型的数据我们会反过来看用户背后所面对的互联网的内部信息。这就出现了一个新的问题,这么多数据怎么能够从一个原料被加工成我们所需要的知识,怎么能够更聪明的去使用这些数据呢,工具厂商就没有答案了,工具厂商只能给你去处理。这些思路我们需要一些更聪明的方式去做处理,什么是聪明的方式?我们需要更聪明的外脑。这些科学家们无疑在这个时候变得更重要,请周教授,最年轻的聪明人帮我们解答一下我们怎么聪明的去解决数据,怎么把石油变成汽油放在汽车里。
周涛:首先给大家讲讲我自己的观点,怎么通过科学研究的力量在大数据时代里发挥出来,和企业的现实结合起来。首先大家看到了一个趋势,我们回过头看几十年前或者一百年前,一个特别聪明的人通过他的科研成果要想改变这个世界,他所付出的努力很大,可能几十年的时间才能做到。但是现在一个特别聪明的人,他改变世界的时间已经变得非常的快,可能5年、10年,他的科研成果就能给我们带来巨大的改变。要想通过一个科学家用他的成果改变我们的产业,需要在两个做好准备。一方面是产业方面,生态环境的准备。另外一方面是数据环境的准备。我在两方面分别说一下。
第一,我想介绍一下数据环境的问题,这也涉及到大数据的理解。大数据不等于数据大,恰恰相反的是中国有句古话叫做我们要举重若轻,四两拨千斤。什么时候到了所谓的大数据时代?我们能够像处理小数据一样去处理大数据,但我们所处理的实际上是很大的数据。
一个普通的科研团队4、5个人他们很聪明,但是他可能处理像柳老师刚才讲的联通这么大的数据,也不可能说做Hadoop这样数据库的人,他觉得好的架构或者好的接口给到一个学者来说是很困难的。我们希望业界或者包括一些科研技术人员通过一定的努力,我们能够把这些大数据封装起来,把它的逻辑接口展现给学术界。让学术界以自由熟悉的方式,在一般的终端或者普通的编程思路中处理一部分大数据,使大数据变成某种意义上的似乎是小数据。这种数据环境给我们准备好的话,我们就有可能帮助学者加快在这些全新的独特的数据上进行创新和价值挖掘。这也是大数据实验室一直力图做的,也正在尝试的一件事情。
第二,产业环境的问题。对于高校产学研结合,这个问题尤其的迫切。在座的有一些是来做政府的,有一些来自业界的,也有一些来自高校的。高校的老师很多都是经过很多年的训练,他们也非常聪明,他们有很多算法,实际上如果稍微的加工一些可能有很好的应用。我这里不是说高校一定要走到企业中去,一定要抓住企业迫切面对面的需求,其实恰恰相反。很多老师正是因为做太多企业项目,而自己废掉了。为什么这样说?因为这些东西原则上是一个企业的高级工程师做的,高校老师应该去研究他所认为最优美最有价值的东西,而不是去研究某一个特定企业在特定短时间内的需求。只有他做这些看起来和需求还有点距离的研究,才有可能突然跳出来一个大的东西来,这些才可能有一定的指导作用。企业界需要做什么事情,包括一些私募基金,包括一些投资人,需要走到高校的一线去看高校最聪明的头脑在做什么事情,帮助他们找到可能的商业化应用,也帮助他们做好金融运营方面的准备。这样才能使一个高校的老师很自由的流到业界去,做他的贡献。
当这两点都准备好了,我相信中国的大数据一定也能从高校诞生出类似像比尔盖茨等震惊世界的杰作。谢谢!
主持人:看看下面一个问题,周教授提出了我们要就绪这些数据治理和市场环境。柳总刚才也谈到了在IT架构里出现了不同阶段的产品,在产业结构的重塑上我们也提出了一个观点,从实验室的角度看到,这可能是一个经济形态的变化。从2B、2C到了2D,前两种不用解释太多了,即服务的转移过程就是面向大企业的过程。2C有一个问题是只能靠广告,只能靠用户注意力,只有一个盈利出口。今天我们发现数据产品的出现,本身的出口越来越多,不一定靠广告来盈利。比如刚才讲的小额信贷,靠行为分析来做个性化的评估。数据的产品化越来越明显,它也跨行业出现了,从一个IT公司跑到金融公司。所以我下面的问题是问客户的,从用户的角度,从柳总、费总以及光大的老总,我们去看一下基于现有的数据池,这个产品或者做内部支撑帮我去优化,或者可以衍生出一个新的金融模式。这个问题留给企业老总们思考一下,是不是能够给我们定义出企业自己的数据产品,以数据产品的形态去挖掘出我们新的业务。
陈敏:作为一间银行,我们服务于用户,为用户提供更高价值的服务是银行的根本,通过对客户的服务带来银行自身的发展和利益创造。先不说大数据,其实我们已经有很多的海量数据,这些数据里面如何捕捉有价值的信息,把它反过来再服务我们的用户。银行这么多年一直在做数据的分析、探查和应用的探索。像银行自己运营效率提升的管理,对客户的个性化服务方面,在风险管理等等方面,我们都开始在尝试利用我们强大的数据做分析,来应用。
今天的话题是大数据,我们在想还是怎么面对我们的用户,面对我们的客户。第一,客户最关注的是我到一个银行的网点,他能够快速的把他要处理的业务办理完,借助这个短的时间跟银行接触的过程中,能够获得银行为他提供什么更好的服务或者什么更好的产品推介。如果这个客户是我们以前的老客户或者是银行的老客户,我们会根据你跟银行以往交易的行为、应用的情况,识别出你是我们什么样的客户。同时,客户进到银行以后,比如说我们借助摄像、摄影吸收到的所有活动行动的信息流、影像流,分析出来在一间银行网点哪些是客户经常活动场景,这样结合银行推出的产品,结合客户行动的信息,我们来做快速的业务服务分流的决策。客户进来我们也会识别出来,我们会做出什么样的人能够服务于,给客户更好的感知。
从银行自身我们也可以通过用户在你的网络上或者在你的微信上等等,捕捉银行推出的所有的产品相关性关键词语,看客户对产品的意见或者你的投诉,我们来有力的改进银行自己内部一些产品的完善。说大数据技术是一方面,更多的是这些数据如何更好的去运用,特别是如何更好的服务客户。这是我们未来想的更多的地方。
主持人:谢谢陈总,您刚刚提到我们开始使用外部数据基于关键词去了解我们客户的意见和投诉,是基于哪些信号源对客户感知。
陈敏:假如说未来我们跟电信厂商合作,跟互联网络上很多的电子商务的厂商,社交媒体里面相关的信息未来都可以成为你获得提供这些服务信息的价值。背后就带来这些信息如何很好有利的获取,获得有价值的信息,有技术层面,有大数据运营的机制层面等等都需要考虑。
主持人:下面再看看刘总。
刘建明:我认为包括电力系统,包括银行,将来是一个社会数据。数据之间是具有相关性的,这些相关性用好就是真正的大数据时代。说到大数据时代我还有一个想法,上次一个论坛提到了什么是大数据时代,刚才谢老师说定义。我个人认为只是我们现在进入一个数据的大时代,对电力系统来说,当初我就跟他们说了,实际上我们把小数据用好,把我们现在这些数据能够分析好用好就非常不容易了。牵扯到电力系统的安全,牵扯到电力系统的用电数据。大数据今后发展到什么情况,数据产品是什么情况,我自己认为拿应用来出数据。数据越来越多,应用还是在那个地方,一除比值越来越小,我们各个软件公司、硬件公司希望这个比值越来越大,所以我们需要这么一个大数据时代。这是我个人的一个理解。
咱们的数据越来越多,以前数据的利用率在电力系统达到10%,现在可能也就5%,以后数据越来越多,有可能就3%、4%,非常可怕。比如刚才讲到的小数据,是我们电力系统安全稳定运行的基础。我们使用的是内外网的隔离。现在Google,还有思科等等这些公司,涉足职能电网,想在智能电网上买电卖电,做的就是用户的数据。他掌握了大量的用户数据,所以它实际上就是一个社会化的数据。比如电信、联通、银行、石油、水、电力、燃气、交通、医疗这些数据实际上是有相关性的。把数据相关性做好,除以以前的数据,比值越来越大,这是我们以后发展的目标。电力系统自己做了很多的分析,我以前也是做这方面工作的。今后随着智能电网的发展就是老百姓的数据,像在北京安装了智能电表,这些电表采数据。现在有很多种方法,一种是每个月一个数据一个点,一种每天一个点,还有每天15分钟一个点,这些点和老百姓的应用,家庭的家用电器都直接相关,空调、热水器、微波炉等等数据。再和电量结合在一起,我们用的数据给老百姓谋福利,这时候我们把数据大的价值体现出来了。
当然还和中国的强大,和中国梦在一起,那个我还不知道在什么地方,可能是我们第三个产品。我就不说了。
主持人:在研讨会上听到你们基层干部反馈出来的智能电表,很恐怖,我们看了数字吓了一跳。装了智能电表之后10万人口试验型的项目400T数据量。再补充一个第三个产品,当时也很惊讶。1月份的时候浙江省发电的指数下降9%,这是一个很典型的经济滑坡的信号,这是经济学家愿意购买的一个指数型的数据。
刘建明:没有大数据的时候就是这样,但电量的增长和国家的GDP是有关系的。这些工作我们一直在做分析,我说的是这些应用我们原来就有,但随着数据的增大,这些应用不变,这些产品不变,比值小。如果比值增大,就是大数据时代我们需要做的工作。
主持人:教育作为知识传播的最基础和最前沿的一个行业,大数据在我们教育行业里会落地成一个什么样的方式?有哪些数据型的产品影响着我们下一代和知识中心的节奏?
:谢谢!首先我要说我非常感谢大会的组织者让我有机会来学习,这不是客气,在教育里我们长期从事教育信息化的业务。今天走到这儿,我第一次听说大数据的概念。这反映教育在信息化的过程里,通常我们自己讲是最落后的地方,是受益最小的一个地方。
国家对教育信息化比较重视,刘延东国务委员9月5号的会议上讲过,说教育信息化是我们作为提高教育水平和提高国家竞争力的战略选择,提到一个很高的地位。数据来讲,其实教育需要很多数据,教育的整个过程中也产生非常多的数据,但是数据都流走了。任何一个老师,或者任何一个国家的决策者都希望在宏观上科学的决策,对每个学生来讲我们能够给他们提供个性化的学习环境。在国家的教育发展纲要里专门提到,要创造适合每个学生的教育。这是一个理想,但是我们做不到,为什么做不到?我们没有依据。依据是什么?我们也意识到是在教育过程中产生的数据。
前一段时间我们部长讲,说现在计算机、投影机、平板电脑在我们的教育中应用,在他看来这个只叫电子产品在教学中的应用,这不叫信息化。信息化的核心可能是这样,我们通过用数据或用信息去描述教育的进程、状态或者结果,然后又把这些信息拿出来指导我们去控制进程、状态和结果,过程中使我们能够很好的受益。
刚才主持人讲你们需要什么样的产品,从用户的角度来讲我们大概分三个层次。第一,我们是需要把我们的信息,教学过程中,包括教育环境中产生的信息有效收集,怎么把有效的数据收集起来,没有数据的收集肯定谈不上后面的工作。第二,把有效的数据收集起来,根据教育教学内在的需求,它的规律把这些数据进行有效的处理。第三,通过社会各方面的力量,把数据的处理怎么跟教学结合起来。这个工作做好了,我们的教育才能在这个时代里产生变革。
主持人:请周教授补充。
周涛:我简单的补充两句,我看了这个题目很亲切,今年达沃斯论坛的时候我们跟哈佛也写过这样一个文章。这是个很大的题目,其中涉及到数据市场,数据题目的定义。我这里讲一个特小的特征,我们认为2D新时代的数据产品跟原来的产品最不一样的是它要经历一个很大的变革过程。以前我们看到的数据产品往往是这个企业有什么需求,从而根据这个需求或者产品产生的数据,用这个数据再改进我现有的一些业务。我们现在讲了大数据的时代,是讲数据的交叉使用,原来产生的数据拿来做其他的事情。举个例子,刚才两位讲到了国家电网可以做一个宏观指数,这个点上不再是解决电网自身的问题,而解决的是国家经济的问题。
举一个银行的例子。比如说现在有很多微博上的关注关系,发现你在微博上通过你的排序,排名很高的人集合了很多线下的人,的确他的政治、经济、实力影响力非常强。你可以更快的放你的信用卡。
我们在手机上整理了6000多款理财的应用,这个应用打开了频率和活性。我们基本上可以知道哪些人在手机上已经应用了基金的理财,你们可以用这个进行推广。这是把外面的数据拿来解决你的问题。怎么样用你的数据解决外部的问题,比如高端的客户存款500万、1000万以上,这些可能是你的黄金客户,你们可以给他一个设备,让他和你的服务同步起来。不仅同步银行自己的基金理财,还可以同步很多高端的奢侈品、礼品,高端的场所、会员卡等等。用你们银行金卡的业务,可以提供免费或者更好的服务。这样就把银行的数据拿来做一些高端的电子商务或者从线上到线下。线下。
陈敏:未来的数据倡导的是一种共享,大家相互既成为数据的提供者,也成为未来数据的使用者。
刘建明:我看到数据堂就是这么做的。
主持人:下一个问题是想顺着周涛的思路去谈,如果我有一个产品了,你愿不愿意把这个数据产品拿出来跟别人去交换。价值是很潜在的,刚才周教授也提了怎么用互联网的数据服务于金融,其实我更愿意把在座的各位做联姻,能不能用运营商的数据来服务金融。运营商的数据成本是最高的,作为发信用卡去评估一个人的社会资本,运营商真实的电话网络数据一定最准确的服务于金融行业,来做小额信贷。中国最讲究的是关系,关系在运营商层面描述的是最客观和最精准的,你的成功不是你拥有什么,而是你认识什么。
如果你把刚才我们定义出来的数据产品拿出来的话,你最顾虑的是什么,从产业的角度谢老师也可以谈一下,这种数据要交流的话需要什么方式,市场的仲裁机构是不是有政府这些有公信力形态的部门来做仲裁。
谢文:刚刚各位的发言给了我很多的空间去想,咱们还是回到最基本的问题,什么是大数据。大家普遍的假装接受的,其实未必是真接受的4V。简单的说大数据就是一种信息资产,这种信息资产可能体积大、种类多。田总一听资产眼睛就亮了,我们在做投资、在做估值的时候,这个资产指的就是钱。我们能不能区分种类来估计它的潜在价值,把有价值的留下,没有价值的扔掉,但这也有危险,你认为今天没有价值的可能明天有价值。这是一条思路。
另外一条思路是把大数据定义成价值观各方法论,没有说什么东西,说你要考虑相关性,不要考虑因果关系。这两种定义都好,也许可以叫做宏观大数据或者微观大数据。这就回到2D的问题,我们试着解决一下。比如这个问题提出,我个人认为这个问题本身就不该在大数据时代讨论。什么叫2B,什么叫2C,这是互联网时代形成的商业模式的称呼。我们全部的基础是利用我们的数据资产在这上面做服务,它和我们传统时代,包括互联网时代,包括我们刚才谈的很多例子有本质的差别,在于我们做产品利用数据提高销售率,降低销售成本,可以有100种套餐,有25种卡的发行,但是它仍然是我有一个产品,然后我们拿数据露点缝。如果我们有足够的数据,能不能一个人有一个特定的产品,精准到人。我知道现在银行给VIP服务,500万以上或者1000万以上,我们给你贴身的理财办法。有没有办法你就有一块钱,找到银行开户了,我就给你理财,因为我有足够的数据。
这就回到了刚才介绍的,其实是在一个最困难的领域,现在完全个人化、个性化,由能够实时更新,恰恰是我们认为不可能的——制造业。根据你的脊椎弯曲度做一把椅子,理论上可不可以?可以,成本太高。如果我们有的话,就可以给每个人打造自己的专用椅,它的成本是非常低的。依此类推,无论是教育,无论是电信,无论是银行,都可以按照这个思路,甚至都不提出大数据的产品,每个数据可以量身订作他的解决方案,这就是一种生态性质的、互动性质的,随时随地自我调整。这个时候就不要再用所谓B2C、B2B。我们有了极快的机器,极快就是一条个性化、个人化实时定制,这是一个总的方向。在这个领域最容易挣到钱,特别的清楚。比较间接的,比较虚一点的,你还要跟很多传统思维、传统架构、传统利益分配去斗争,反而比较难。
主持人:谢老师提到了大数据的一个很显著的特征。单看一个行业的力量是很难的,所以这也是为什么我们要把数据变成产品可以去定价、可以去交易,这样可以让运营商有一个通用的交互价值。柳总,如果可以互换的话,您更愿意拿出什么去交换?
柳博亮:我们现在能拿到的数据,一个是通话详单,反映出了用户的社交网络,甚至可以分析出哪两个是朋友、亲人、恋人。第二个特别详细的数据是上网记录,内部在一起讨论的时候可以分析出很多东西,可以给很多行业应用。但是当我们把这些数据项外提供的时候,一个最大的顾虑就是隐私问题。我不能提供个体的数据,我可以提供一个群体和趋势性的数据。不能自己想怎么用就怎么用,因此大数据时代的隐私问题确实是需要考虑的。
陈敏:我们现在说的是数据产品,如果是把它放到一个市场去交易、去买卖,从我个人了解,目前咱们国家把数据作为产品来交易,法律层面还没有完全出来。银行在服务客户的时候,比如人民银行牵头做的征信系统,其实有大量的数据都是各个银行在服务客户中,不管是贷款,还是发卡,有很多征信数据。这个征信数据可以理解为一个大家都去共享的数据,在金融系统,大家在服务客户过程中可以去调用其他银行在服务客户中的征信状况、贷款情况等等,这都是单向的交易行为。对客户的服务来说,应该说任何一个行业不能掌握对客户服务的全部,因为客户的一个业务行为发生银行只是其中一个很小的角色,我们也希望获得其他行业的数据。反过来就有了柳总的担心,银行掌握的数据不能随便的对外,要保护客户的隐私。即使数据提供出来,但以什么样的方式?引来的交易市场,市场的生态环境是什么,现在有没有很好的有序的良性的机制建立起来,后面大家才有可能在这个平台提供数据。数据提供出去之后,真的能很好的被使用者很好的利用。如果不安全有效的运用,数据提供的价值也就没办法体现出来了。
银行期望要什么数据?大概来说还是客户在其他各种环境,不管是网络上的,还是跟我们电信或者其他的领域的交易行为。用户在各个渠道,在消费行为,他的关系圈,都是我们未来希望拿来为客户提供差异化服务的数据。
主持人:陈总提到的方向也是现在大数据很热的一个领域,把以人为中心方方面面的数据围绕消费者能够统一出来。刚才国网的刘总也提到,您之前的数据产品是给国家统计局的。我们这么多企业,包括券商、期货公司其实非常想知道这个数据,但是没有渠道获取。发电量等这些宏观的数据涉及到隐私,这样的数据能不能做成产品提供出来,或者以交易的形式让其他的机构以有偿的形式获取到。
刘建明:发电量我们一直是公布的。我们最近专门研究过,到2020年人均翻一番。我们现在是12亿的装机,到2020年是20亿的装机,等于是从现在开始一年一个亿,国家电网公司已经预测过,也都公布了。昨天中央电视台直播的四川锦苏(音)到江苏苏南送电,全世界最大的直流正负百千伏的送电,距离也最长,为了解决华东的用电。我们自己也是进行了大量的数据分析,前几年专门是给华东送电,现在华东送点是最紧张