你有没有想过搜索引擎是如何在您还没有输完你要搜的关键词之前完整的猜出你想要键入的内容,或者提供相关查询搜索建议的?也许你已经注意到,Facebook或LinkedIn向您推荐的人是根据与您有一定联系的人员?这便是Hadoop集群在几分之一秒内处理大量数据的两个例子。
Hadoop由Apache软件基金会创建,是一个开源的产品,可运行在普通硬件上。建立一个Hadoop集群最昂贵的部分涉及到计算和存储资源。服务器虚拟化可以帮助降低成本,使得受预算约束的企业也可以进行大数据分析。
诸如VMware这样的虚拟化厂商,特别专注于更好地在Hadoop环境利用虚拟工作负载。VMware的最新开源项目——Serengeti就是这样的产品。在推出Serengeti之前,VMware曾经发布过一些令人印象深刻的基准测试结果,显示在虚拟Hadoop环境的情况下,表现优于物理环境。
很容易找到如何利用任何流行的虚拟机管理程序部署虚拟化Hadoop的信息。事实上,Apache软件基金会已经公布了相关的文章介绍Hadoop环境中虚拟化的优点和缺点。其中一大好处是,虚拟化Hadoop使得中小型企业能够更容易的进行大数据分析,因为它减少了计算和存储所需的硬件。
通过使用基于Hadoop的数据分析,中小企业可以提升服务价值。例如,一家公司可以提供与服务相匹配的来自多个供应商的日志文件以便快速识别和解决系统错误。另一个使用基于Hadoop的数据分析的例子是,市场营销部门可以监控到公司的网上贸易杂志、网上博客、社交媒体和其他店铺名称,然后根据这些相关联的实例进行变化。
Hadoop已经证明其是一款有价值的、功能强大的数据分析工具。大型企业已经充分利用益处很多年了。现在,利用虚拟化的数据分析工具,如Hadoop,中小企业进行大数据分析与成为可能了。
企业内部数据的增长是惊人的,而与此同时,网上发布信息数据的增长速率更是让人叹为观止。在未来五年内,企业将面临的挑战是如何充分的利用数据,以找到其中的价值所在。