Hadoop已经成为技术发展趋势 据估计,到2015年,全世界一半以上的数据将涉及Hadoop--围绕这个开源平台的生态系统日益庞大,这有力地印证了这个惊人的数字。
然而,有些人表示,虽然Hadoop是眼下热闹非凡的大数据领域最热话题,但它肯定不是可以解决数据中心和数据管理方面所有难题的灵丹妙药。考虑到这一点,我们暂且不想猜测这个平台未来会如何,也不想猜测彻底改变各种数据密集型解决方案的开源技术未来会如何,而是关注让Hadoop越来越火的实际应用案例。
毫无疑问,现在有几个出众的例子,表明Hadoop及相关开源技术(Hive和HBase等)在如何重塑大数据公司考虑基础设施的角度。
虽然我们会通过在今年Hadoop Wrld大会之前撰写的一系列文章,继续专门介绍Hadoop并非解决之道的应用案例,但是不妨阐明几个引人注目的、大规模Hadoop部署案例,它们在重塑依赖大数据的公司,这些公司从事社交媒体、旅游和一般商品和服务等行业。
电子港湾(eBay)的Hadoop环境 先来介绍你在电子商务兴起时期最先开始听到的一家公司:电子港湾(eBay)。
案例之一:电子港湾的Hadoop环境
电子港湾公司分析平台开发小组的Anil Madan讨论了这家拍卖行业的巨擘在如何充分发挥Hadoop平台的强大功能,充分利用每天潮水般涌入的8TB至10TB数据。
虽然电子港湾只是几年前才开始向生产型Hadoop环境转移,但它却是早在2007年就率先开始试用Hadoop的大规模互联网公司之一,当时它使用一个小型集群来处理机器学习和搜索相关性方面的问题。
这些涉及的是少量数据;Madan表示,但是就这个试验项目而言很有用;不过随着数据日益增加、用户活动日益频繁,电子港湾想充分利用几个部门和整个用户群当中的数据。
电子港湾的第一个大型Hadoop集群是500个节点组成的Athena,这个专门建造的生产型平台可以满足电子港湾内部几个部门的要求。该集群只用了不到三个月就建成了,开始高速处理预测模型、解决实时问题;后来不断扩大规模,以满足其他要求。
Madan表示,该集群现由电子港湾的许多小组使用,既用于日常生产作业,又用于一次性作业。小组使用Hadoop的公平调度器(Fair Scheduler)来管理资源分配、为各小组定义作业池、赋予权重、限制每个用户和小组的并行作业,并且设定抢占超时和延迟调度。
虽然Madan经常在台上畅谈Hadoop具有的实际价值,他也经常提到工作小组在扩建电子港湾基础设施时面临、继续竭力克服的几个主要挑战。下面列出了与Hadoop有关的一系列挑战:
可扩展性
就现有版本而言,主服务器NameNde存在可扩展性问题。由于集群的文件系统不断扩大,它占用的内存空间也随之扩大,因为它把整个元数据保存在内存中。1PB的存储容量大概需要1GB的内存容量。几种切实可行的解决方案是分层命名空间分区,或者结合使用Zkeeper和HBase,实现元数据管理。
可用性
NameNde的可用性对生产型工作负载来说至关重要。开源社区正致力于冷备份(cld standby)、暖备份(warm standby)和热备份(ht standby)这几个选项,比如检查点(Checkpint)节点和备份(Backup)节点;从辅助NameNde切换avatar的Avatar节点;以及日志元数据复制技术。我们正在评估这些方案,以建立我们的生产型集群。
数据发现
在天生不支持数据结构的系统上支持数据监管、发现和模式管理。一个新项目准备把Hive的元数据存储区和wl合并成一个新系统,名为Hwl。我们旨在努力把该系统连接到我们的分析平台中,那样我们的用户很容易跨不同的数据系统发现数据。
数据移动
我们正在努力开发发布/订阅数据移动工具,以便跨我们不同的子系统,如数据仓库和Hadoop分布式文件系统(HDFS),支持数据拷贝和调和。
策略
通过配额(目前的Hadoop配额需要做一些改进)进行存储容量管理,能够制定良好的保留、归档和备份等策略。我们正根据集群的工作负载和特点,跨不同的集群努力定义这些策略。
度量指标、度量指标、度量指标
我们正在开发成熟可靠的工具,以便生成度量指标,用于度量数据来源、使用情况、预算编制和利用率。一些Hadoop企业服务器体现的现有度量指标有的不够全面,有的只是临时的,很难看清楚集群使用模式。
通用电气借助Hadoop分析用户情感 案例之二:通用电气借助Hadoop分析用户的情感
据通用电气公司(GE)Hadoop技术部的产品经理Linden Hillenbrand声称,情感分析很棘手--它不仅仅是个技术挑战,还是个业务挑战。
在通用电气公司,数字媒体小组和Hadoop小组通力合作,为高度依赖高级情感分析功能的营销部门开发了一款交互式应用软件。
此举目的在于,让营销小组能够通过我们开展的各项活动,评估外界对通用电气所持的看法(正面看法、中立看法或负面看法)。Hadoop负责支持该应用软件的情感分析部分,这部分对Hadoop来说是一种高度密集的文本挖掘应用环境。
他声称,利用 Hadoop应对技术层面的这些挑战带来了重大改进。
为了强调这一点,Hillenbrand提到了公司在情感分析方面采取的独特NSQL方法,这一方法带来了80%的准确率,也是Hadoop这个核心平台的基础,确保公司未来在数据挖掘方面求得发展。正如下图表明的那样,通用电气在利用数据挖掘以及新平台带来一种新的洞察力方面有了大幅改进。
Hillenbrand表示,就通用电气在内部对Hadoop未来的展望而言,情感分析项目取得了双重成功。它不仅为这家《财富》50强公司的营销小组提供了更准确的结果,还为这家公司的下一代深度数据挖掘、分析和可视化等项目奠定了基础。
旅游行业的典型应用案例 案例之三:旅游行业的典型应用案例
rbitz Wrldwide旗下的全球消费者旅游品牌每天要处理数以百万计的搜索和交易。
通过关系数据库等传统系统,存储和处理这类活动生成的越来越庞大的数据量变得越来越难,因而这家公司求助于Hadoop,帮助消除部分复杂性。
这家公司的首席软件工程师Jnathan Seidman和另一名工程师Ramesh Venkataramiah一向乐于讨论这家旅游网站的基础设施如何加以管理。他们俩在最近面向多位听众的一次交流中讨论了Hive的作用,尤其是对一些关键搜索功能所起的作用。
Hadoop和Hive帮助这家在线旅游中心处理各项事务:改进让游客可以迅速筛选和分类酒店的功能,到查看更宏观内部趋势的功能,不一而足。据这两位工程师声称,rbitz的大数据问题让它成为运用Hadoop的"典型"。他们俩表示,面对很分散的服务网络--这些服务每天生成数百GB大小的当天日志,处理每天数百万的这些搜索和交易,这绝非易事。
在上面的幻灯片中,他们俩演示了如何利用Hadoop和Hive来处理数据;可能更重要的是,演示了什么使得这家公司的特定问题最适合用Hadoop来处理(因为需要提醒的是一点,并非所有业务都有Hadoop的用武之地。)
Facebook更新Hadoop的状态