耳常闻“大数据”,眼常看“大数据”,可就是不知如何用“大数据”!对于国内互联网创业者,要是能在这“信息大爆炸”的年头,从海量的“垃圾”信息当中嗅出点端倪,找出个切入点,少不说能成为行业的佼佼者,一不小心还真有可能就会引领中国的未来呢!
要在国内找出个像样的“大数据”初创公司,并非易事,但正是有这样的空白存在,才让人看到机遇。当然,在国内,妄图在政府身上应用大数据是很需要勇气的,但是,在私有企业、科研等领域上着手寻求突破,在国外已经有不少先例。
下面,本文对在“大数据”领域中具有一定代表性的10大初创企业进行盘点,看看对应的创始人和团队都是如何取得成功的;希望能使读者在如何获得大量数据,确保数据质量、相关性以及如何提高处理能力和技术,并使最终应用走向商业化等一系列问题上有所启发。
别以为“大数据”只是企业里的流行词;作为一种技术创新,它其实已经在我们生活中产生不少影响。
通过联合分析犯罪数据和社会身份信息,警察数次成功预防犯罪事件发生。在硅谷里,一小撮的科学家通过对遗传学数据的掌控,成功发现某些疾病的早期症状,用以预防疾病发生。
但是,对于那些相信“大数据”这种趋势的企业所有者和饱受煎磨的IT高官来说,面对市场上种类繁多的“大数据”服务,他们无不感到眼花缭乱,难以下手。
因此,我们将此范围缩窄,筛选出在“大数据”领域中具有鲜明独创性的10家企业(排名不分先后)。榜单中的企业都涵盖了不同的应用范畴,例如数据科学、商业智能、数据可视化和数据分析等等。同时,榜单中还有一些初创企业是跨越了多个不同范畴的,尤其值得借鉴。
下面,一起揭晓我们的榜单,看看这些“大数据”公司在挖掘数据价值方面都有什么过人之处吧。
第10位:用数据提供服务——Metamarkets
Metamarket今年表现相当不俗。这家初创企业,通过分析新闻网站和公司的推文、网上支付和注册登录等数据,帮助客户更好地理解“为什么客户会取消他们的会员资格?”或者“用户的浏览习惯都是何种轨迹的?”如此之类的问题。今年年初,投资者就争相对这家成立于三藩市的公司进行投资,目前已经有2300万美元注入。除了融得不少风投资金外,该公司的上榜理由还包括下面这些。
拒绝Twitter收购,勇气可嘉:时任Metamarkets的首席技术官Michael Driscoll之所以拒绝收购,因为他十分明确该公司自己的愿景——发展壮大。
顾客群中有“大咖”:光顾该公司的客户名单中,赫然显示着《金融时报》和美国在线公司(AOL)等数字媒体公司,它们都希望从以往的广告投放中洞察出新价值点。“对于顾客,我们学会了用更加有共鸣的方式去介绍产品,而不是用那些生僻的技术词汇。说到底,‘大数据’及其技术并非介绍的重点,重点是是如何帮助人们更好地去工作,”Driscoll说。现在,他已经成为Metamarket的首席执行官。
有话直说的CEO:Driscoll说,我们需要重新审视那些老是围绕着Hadoop的各种喧闹。Hadoop是开放源码并行运算编程工具和分散式档案系统,Twitter等知名公司都用它存储自身每天高达太字节(TB)容量的推文。他说:“它只是一种服务,并不是解决方案。”Driscoll表示他更佩服的是Aaron Levie——云存储初创公司Box的CEO,20岁出头。同时,他还表示,现时公司最需要的合伙人,是那些天生就是推销的料、同时又聪明的人。
技术设计一定要方便用户使用:Metamarkets提供的是一套“软件即服务”的应用,客户只需在几天就能安装和运行。客户的数据容量增长了,它也会随之适应。
第9位:数据可视化——Tableau
Tableau是一家数据可视化初创公司,它几乎每次都出现在“大数据”初创企业的推荐名单中。尽管这样,它四年来都没进行过一次融资。Tableau专注于将数据可视化应用在地图上,这样的企业为数不多。下面看看Tableau的上榜理由。
不再需要风险投资的公司:Tableau最近的一次融资是在2008年,当时融得1000万美元。从那以后,该公司就不再需要融资,因为它已经步入盈利的正轨了。
该公司改变着我们阅读数字媒体的方式:Tableau大受媒体从业人员欢迎,因为Tableau能够在他们写稿子的时候,提供更加新颖的数据表达方式。任何人都可以免费使用Tableau来创作美轮美奂的图表和地图,不需要任何编程知识。《华尔街日本》和《赫芬顿邮报》的记者都使用它。
数据就在咫尺之间:在很多方面,“大数据”对任何人都是有其所用的——而不仅仅是给企业赚钱用的。非营利机构,诸如美国政府监管机构California Common Sense(目前是Tableau客户),通过使用Tableau的软件对党派的大量数据进行分析,揭露了诈骗和政客言行不一等现象,在投票前为选民提供了基于数据的信息参考。
伤心欲绝吧,Google:“我们的使命就是帮助人们看到并且理解数据,跟Google的使命也有重合吧,”Tableau公司的共同创业者兼首席执行官Christian Chabot说。
第8位:用Hadoop为企业增值——Cloudera
在存储和处理海量数据方面,NoSQL表现不错。HBase是Hadoop的NoSQL数据库——其在“大数据”圈子里的谈论度是最高的。(有趣的是:由Doug Cutting发明的开源项目Hadoop,该名字是根据他儿子的大象绒毛玩具而取的。)在Hadoop不断成长之际,一家名为Cloudera的公司出现了,并在公司级领域上拔得头筹。该企业的产品都是基于Hadoop的技术。下面就是Cloudera的上榜理由。
公司的创立者相当耀眼:Cloudera公司的首席科学家Jeff Hammerbacher,经常被候选为最具潜力的年轻企业家。这位23岁的数学天才,在Facebook还在襁褓之中的时候就加入了该公司。在社交网络中,Hammerbacher曾用Hadoop分析用户习惯,得出深刻的见解。之后,他就创立了Cloudera,通过这种技术,为企业创造价值收益。Cloudera早期的顾问还包括了Hadoop项目的创立者Doug Cutting和Mike Cafarella。
该公司正用“大数据”改善人类健康:在医疗健康行业里,基于数据驱动的观察很有用处;而Cloudera正在此行业中注入创新动力。Hammerbacher不但对此深感有兴趣,而且已经是医疗保健催化器组织Rock Health的一名顾问。除此之外,Cloudera的CEO Mike Olson表示,他最喜欢的客户之一是Explorys Medical。该客户通过在数据库中收集大量的病人信息,然后分析出关于治疗、护理质量以及何种疗法疗效最好等的新见解。“这是个很严肃的‘大数据’问题,数据种类和数量相当多,有药方、影像、医生笔录、疾病的文献等等,”Oslon说:“这些信息都可以分享给那些追求改善治疗质量的医生。”
全副武装,整装待发:这家成立于旧金山海湾的初创公司已融资7600万美元。
第7位:“大数据”分析——ParAccel
在数据圈子里,ParAccel是出了名的“孤独的狼”,但某些观察者认为这种“单打巡回赛”般的阶段很快就会结束。现在,ParAccel正以初创企业的步伐大力推动创新。去年,ParAccel将其分析数据库交到美国执法机关手上的时候,就让人大吃一惊。通过使用踝带和其它资源,ParAccel追踪了15,000前犯罪人的行为——并成功警报官员预防了犯罪时间的发生。如下就是ParAccel的上榜理由:
斗志轩昂,拒绝收购:当ParAccel的主要竞争对手(Vertica、Netezza等等)都被诸如HP和IBM这样的大腕买下时,ParAccel表示它会保持自主运营。据该公司介绍,小公司的好处就是,可以根据每单交易来进行灵活定价。
“预防犯罪”先锋:去年,ParAccel联手SecureAlert,利用踝带,他们对最近释放的前罪犯进行数据测量。SecureAlert通过使用ParAccel的分析工具,成功识别了可疑行为的若干模式,并给有关当局予以警示。这情景不禁让人想起电影《少数派报告》里面的“预警人”的角色:实际上,ParAccel在接受彭博社采访时就表示说,这是现实社会中真真实实的“预警人”。
ParAccel反驳Hadoop神话:ParAccel的CEO Chuck Berger说,太多的初创企业陷入了如下错误的逻辑:“大数据 = 非结构化数据 = Hadoop。”他解释说:“没错,对非结构化数据和半结构化数据的利用是呈现了爆炸式增长;但是,要注意到,在结构化数据的使用上,也出现了指数式的增长。”
对CEO Berger来说,Larry Ellison就是英雄:Berger采访时说,能够在Apple公司与Steve Jobs
共事倍感幸运,但同样令他深受启发的还有Larry Ellison(Oracle的CEO),因为后者能者攻克“复杂数据库”的各种难题。谈及Ellison,Berger说:“他白手起家,同时也确立了如今广受认可的‘桌面筹码’等原则,并从一开始就成功与类似IBM之类的巨人相竞争,相当令人佩服。”
第6位:商业智能——QlikTech
QlikTech公司旗下的产品是Qlikview;这款自助服务的商业智能工具,可应用于众多领域中,如科研和艺术等等。该公司在上世纪90年代于瑞典成立,幸免于互联网泡沫,并于2010年进行首次公开募股(IPO)。现时,该公司拥有26,000户顾客,市值估计搞到20亿美元。今时今日的QlikTech,在“大数据”方面又有什么可取之处呢?
正与Google合作,将“大数据”软件付诸程序员手里:Google最新发布的Goggle BigQuery,可使程序员在无需硬件和软件的前提下,就可对大量数据进行观察分析。而在分析数据方面,QlikTech功不可没。同时,它还开发了一个仪表板工具,可消化上百万行的数据并使之可视。
太多初创企业只抱着“搞起来了,自有人会来光顾”思想:“问题的关键是,想用‘大数据’创业,业务专长必须有,同时技术也必须保证是尖端的;因为这些都是普通商业用户所缺乏的,”QlikTech的副总Jeff Boehm说。公司的使命是帮助非技术型的用户在其日常工作中轻松使用数据。
该公司CEO是第二位在NASDAQ IPO上“按下按钮”的瑞典人:该公司CEO Lars Björk在接受《连线》杂志采访时说到,他不敢相信公司的上市是真的,他那时还狠狠捏了自己几下。“昔日瑞典一家小小的公司如今遍布时报广场的广告版上——那真是难以置信。”同时,他还趁机建议年轻的创业者要保持谦虚:“千万不要表现得以为自己什么都懂一样。”
第5位:数据科学——Kaggle
Kaggle想“把数据科学搞成体育运动”;同时还举行竞赛,将世界上最厉害的研究人员和统计员汇聚一堂,并相互比拼。此想法的背后是:如果能请到世界上最聪明的头脑,通过相互合作或相互竞争的方式,写出关于“大数据”的复杂算法和先进解决方案,用以进一步帮助人们认知社会,这是应该会挺奏效的。但是,激励因素呢?也行就是“名、利,还有好玩”。下面是Kaggle的上榜利理由。
该公司的发现让你难以想象:大多数的企业公司,对其所在的充满行话的避风港中,他们是不敢轻易逾越半步的;然而,Kaggle却敢于打破常规、引爆未来。由Hewlett基金会赞助,Kaggle主办的论文评分竞赛显示,跟一般的阅卷评分员相比,用算法编写的评分程序同样可以在论文评分中达到相当的可靠性。为此,《纽约时报》还进行了相关的报道,并表示高度称赞。
竞赛目的:令你意识到,原来算法能如此智能:另在一场同样由Kaggle主办(在线私隐基金会赞助)的比赛中,研究人员发现,人们可以利用Twitter去发现精神病发作前的一些症状。而前不久,该公司还通过分析化合物的分子结构,帮助化学制药公司默克成功预测化合物的毒性。
公司的创始人超级醒目,且风度迷人:这位28岁的CEO Anthony Goldbloom诚实可信,值得大众信赖。跟大多数的创始人不同,他承认融资“是他做过的最困难的事情之一,”同时他还说到,现时还是“大数据”发展的早期阶段。最大的挑战是,他解释说:“市场要真正对‘大数据’有成熟的认识,而不能只看到其外表的喧闹。”
第4位:主攻商业圈——GoodData
在成立之初,GoodDat公司就对其客户许下承诺:要帮助客户从数据中“榨出”金钱。该公司有一点十分有趣,就是它会绕过客户的IT主管,直接将业务推向给商务用户(销售、市场营销和商务开发等人员)。走这一招需要很大勇气,但事实证明,GoodData走对了——该公司在其第三轮融资中募得来自安德森·霍洛维茨基金2500万的注资。
疯狂势头不可挡:该公司有超过6,000家顾客,包括了团购网站Groupon,Zendesk和Mint.com等。在今年的第二季度,业务预订同比增长了280%之多。去年采访到其CEO Roman Stanek的时候,他就表示,公司去年的营业收入猛增了600%。
有意回避IT部门:“发明创造要渗透到企业里,唯一的方式是通过商业用户,”Stanek电话采访时说到。该公司提供的基于云端的分析服务,可以给商业用户带来可操作的仪表板、指标和性能报告、数据存储、数据分析和协同工具等等。
艰难时期铸造坚实企业:在2007年某一天,这家初创公司曾向投资银行雷曼兄弟募资;但同是那一天,雷曼兄弟倒闭了。“我想,真是这样的艰难时间,所以才打造了这样的坚实企业,”Stanek最后说。
第3位:电商数据——TellApart
TellApart上榜理由不仅是因为其如下的营销行为:它从Oaklan购到一个集装箱,然后让著名涂鸦艺术家Apex在上面大书“大数据”字样。同时还因为,这家由前Google人Josh McFarland和Mark Avzenshtat创立的TellApart,现已与多家的电子商务公司进行合作。该公司能够帮助电商公司分析客户的浏览习惯,锁定潜在的客户,从而让电商企业赚得更大的利润。在风险投资中,该公司已获得1775万美元。
TellApart已成功帮客户增加收入:“我们的有着过硬的系统,可以处理好客户的各种大数据问题,像Nordstrom百货公司和Bed Bath & Beyond家庭用品和床上用品连锁公司这样的大头都毫无困难。也正因如此,我们获得了很好的回报,”该公司CEO McFarland说。同时该公司还与相对规模较小的细分网上零售商eBags和Bellacor等合作。
TellApart希望大家尽情与“大数据”拥抱:TellApart公司表示,基于人力而洞察出的商业规则现实已经显得不够用了。“创造能够自学习的算法系统,这才是我们利用数据的唯一出路,”McFarland说。
该公司可使Facebook广告跟顾客更相关:TellApart发现,如果买家最近在电商网站Shoebuy(客户之一)浏览过某一产品,同时在Facebook上看到同类型产品广告的话,买家会更有可能(100倍之多)点击该广告,并购买该产品。在Facebook Exchange广告竞价平台上,对于买家真正感兴趣的Vans鞋,TellApart可以从广告中精确配对出来。对Shoebuy公司而言,12%的买家网站点击率——这已选选高于公司的预定的底线了。
创始人离开Google,获Larry Page的祝福:McFarland接受采访时说,其实之前,在某次乘机间隙,他有将类似的想法告诉过的前任老板Page的。Page说:“这想法很好。但是,Google可能搞不来。”
第2位:社交媒体数据——DataSift
Facebook的“赞”、Twitter的推文像雨后春笋般出现;诸如此类的社交化反馈,对公司品牌而言,无疑是宝贵的财富。云公司DataSift正在此宝藏上掘金,其技术能够处理大量的社交网络数据,并进行相应的分析。这对品牌公司在处理突发事故的公众意见有很大帮助;同时,这也能帮助客户掌控那些针对目标市场进行营销的效果反馈。该公司已获得1500万美元的融资。
公司获Twitter通行证,令人垂涎:许多社交媒体监视公司时刻都在“倾听”着Twitter上各种对话,以图从中获取分析出一些新见解。但DataSift在此可以更进一步,因为它是少数能够“动用”Twitter历史推文进行分析的企业之一。假设说,如果DataSift想对比一下,公众对今年伦敦夏季奥运会新闻和赛事的反应与2008的有何不同,它是完全可以做到的。
DataSift创办人终止TweetMeme:笔者对DataSift的未来还是挺看好的,起码肯定会超越TweetMeme的成绩。因为当时开发TweetMeme的人现在就是DataSift的技术主管,Nick Halstead。但不得不提,终止TweetMeme如此受欢迎的社交媒体工具是相当要胆识的。据DataSift的创办人说,他们之所以结束TweetMeme,是因为DataSift的前景一片光明,其已拥有超过10,000名用户。TweetMeme一直深受程序员的欢迎,上个月得知此消息后,他们纷纷表示悼念。
CEO Rob Bailey对“大数据”大趋势大谈特淡:“我认为,‘大数据’这个术语就是个废话。首先,从电脑出现的那一天,大数据的问题就随之而生了。太多公司只关注如何管理大容量的大数据,但却没有真正聚焦到终端解决方案上,无法在此类问题上给顾客提供个满意的答复。”Bailey说。
第1位:前途无量的初创企业——Datahero
背负“数据民主化”使命的Datahero,致力于使每个人都能轻易理解并可视数据,目前已融资100万美元。很多公司都在用“数据民主化”术语,但没几家是真正有专业技术能够将之付诸实践的。Datahero的创立者Chris Neumann来头不小,他是Aster Data早期决定自立门户的员工之一。
公司人才济济:除了Neumann是Aster Data Systems的早期工程师外,团队里的首席产品官Jeff Zabel同样受人关注。他原来供职于BMW公司,负责用户界面的设计(例如在界面嵌入诸如Pandora的第三方应用程序)。
为了吸引潜在投资者,创立者们“无所不用其极”:Neumann接受采访时说,在用Skype与Foundry Group的Brad Feld初次通话介绍公司状况时,Feld为了测试算法的速度,将自己的健康档案数据发给他们,要求他们快速弄出可视化数据。当然,他们反馈也确实相对快。就这样,他们获得了公司的首笔资金。
直言对手就是Excel:对于入门级的分析师,这将会是一个好消息:因为有了Datahero,他们也许以后再也不用连续几个小时弯腰驼背地处理电子表格了。“这可能听起来有点奇怪,但我们主攻的对手确实是Microsoft Excel,”该公司创始人Neumann说。
将设计带入企业级产品中:据Neumann介绍,他的合伙人Zabels 在设计时十分注重“以用户为中心”——这对于只专注于企业级的产品而言,是比较罕见的。Zabel是世界有名的斯坦福设计学院(“d.school”)的校友之一;他始终抱有这样的坚信:“科技必须推动设计发展,而设计必须驱动技术进步。”