黑马程序员技术交流社区
标题:
年交易额1800亿美元,揭秘PayPal成功背后的三大热门技术
[打印本页]
作者:
朱神必
时间:
2014-3-12 15:51
标题:
年交易额1800亿美元,揭秘PayPal成功背后的三大热门技术
摘要:图挖掘、NLP算法、机器学习,PayPal幕后俨然是个数据科学家的世界。利用图挖掘,发现交易背后的隐藏价值;利用文本挖掘,了解用户偏好;还有大量用Python和Java编写的机器学习算法,可以用来挖掘更加复杂的数据。
【编者按】作为全球在线支付平台,PayPal,其方便、快捷的支付方式深受用户追捧,近几年PayPal致力于通过数据分析为用户创造更多价值,在2013年,实现年交易额1800亿美元、年交易数量30亿笔,PayPal的成功和它在业务上的不断创新是分不开的,但其背后强大的数据技术同样让人艳羡,Datanami主编Alex Woodie为我们带来了精彩分析。
CSDN推荐:欢迎免费订阅《Hadoop与大数据周刊》获取更多Hadoop技术文献、大数据技术分析、企业实战经验,生态圈发展趋势。
以下为译文:
PayPal作为一个成功的第三方支付平台,掌握了大量的用户数据,其便捷的支付方式也为PayPal赢得了大量电商的支持,尤其是对于资源有限的小商户。几年前,PayPal发起了一个基于Hadoop的数据挖掘项目,运用多种数据分析手段将自身打造成一个更加可靠的服务性支付平台,帮助商户变得更加精明,此项目取得了巨大的成功。
PayPal成功的背后
PayPal已发展成为一个价值60亿美元的电子商务交易界巨头。2013年,该公司帮助买家和卖家完成的交易额达1800亿美元,涉及商品和服务等各种交易达30亿次,拥有1.43亿个活跃用户,而实际上,这些成就背后的数据才是真正价值源泉。
该公司处于电子商务的十字路口,这给了它独特视角去研究人们在线购买的习惯。PayPal可以了解到人们买了什么、从哪买、具体的交易方式、用的是什么设备,这些信息形成了一个数据宝库。PayPal数据技术团队中的一个数据科学家Vamshi Ambati告诉我们PayPal正在尝试利用这些庞大数据为用户和商家创造更多价值。
最近,Ambati在Hadoop创新峰会上向我们介绍了他的团队关注的三个主要领域——图挖掘、文本分析和机器学习,并分享了一些经验和见解。
图挖掘
PayPal通过图挖掘帮助数据科学家和营销人员直观地标识数据中出现的一切明显趋势,分析出其中有价值的信息。Ambati说:“我们尝试从图中提取变量,或者发现某种模式,并利用这些变量和模式建立预测模型和分析模型。”
图挖掘中的图指的是描述某种关系的图形,类似于图论中的图,图在对复杂结构的建模过程中变得越来越要,这些复杂结构包括电路、图像、生物网络还有Web等等。从大量的数据中提取信息,建立图表或者其它的图形结构,便于直观的分析,以挖掘有价值的信息。多用于社会网络分析和关系型数据分析。
随着大量结构化数据分析需求的增加,图挖掘在数据挖掘中的地位越来越重要。
PayPal使用英特尔的图建模器并基于Hadoop、Apache Giraph和GraphLab算法构建图,出于不同的目的会构建不同的图。例如,一个融合了社交媒体信息与交易数据的图有助于将社会媒体活动与交易活动联系起来,而分析交易数据中的用户点击流将有助于了解用户的购买倾向。
PayPal还利用图分析为商户提供排名和推荐服务,该公司为其商户提供潜在消费者图,使商户了解有多少消费者在两个节点之间存在共同点,“还可以帮助商户了解与竞争对手之间的差别,了解与同行相比自身具有哪些竞争优势。”
检测欺诈是图处理的最大用例。公司配置图中节点,对消费者登录商家帐户的设备作出响应。如果一个消费者使用了不同的IP地址或手机帐户登录,PayPal就需要提高警惕,防止用户账户中的钱被盗走。“我们也要了解是否存在诈骗团体的存在,往往图中的一个节点存在欺诈行为,同时还会伴随着3到4个节点的交易或者现金存取行为,这种情况很有可能是团体诈骗,通过图分析,我们可以将他们一网打尽。”
NLP文本挖掘
PayPal基于Hadoop的文本挖掘系统是公司内各种数据科学活动的关键组成部分,这些数据科学活动包括预测建模、情绪分析、影响力评级、简历排名还有主题建模和聚类分析。Ambati说:“如果没有仪表盘程序,这些文本本身不存在任何额外的价值,不过这些文本可以与我们的其他数据结合起来使用,而且有一些公司或许会需要这些数据进行更多的预测建模。”
该公司使用NLP(自然语言处理)算法从交易过程的谈话数据中提取有价值的信息,提高商户交易的成功率。
然而PayPal没有采用Netflix那种直接的推荐方式。Netflix通过四或五星级评级标识用户的偏好,然后采用商品推荐系统向用户推荐商品。但Ambati指出,事实上,用户购买某种商品并不能说明用户喜欢这个商品,Netflix的方式存在问题。
“当消费者浏览商户的商品时,我们事实上并不知道消费者是否对商户有好感,因为有可能消费者只是对品牌或者商品感兴趣,所以我们进行文本挖掘,分析产品信息以了解消费者是否对某种品牌感兴趣,然后再进行商品推荐。”
机器学习
很多的数据PayPal采用图处理和NLP挖掘,这两种常用的方式也将成为公司第三个核心数据分析的基础,所谓的第三个核心指的是数据挖掘与机器学习算法。PayPal的数据挖掘系统很大程度上建立在用Python和Java编写的机器学习算法上,它们都运行于Hadoop平台上,用于挖掘复杂的数据模型并得到有用的信息。
为商户构建预测模型是一个常见的用例,PayPal利用大量数据研究消费者的购买习惯——这些数据远比eBay的小商户积累得多。得益于PayPal的数据科学团队,商户可以利用PayPal大量数据存储库和专门知识获得竞争优势。
PayPal还将构建一个商户预测模型来帮助他们确定哪些客户有可能会流失、哪些客户会拖欠、哪些客户会再次购买。“作为商户,你可能对你的客户不是特别了解,但PayPal掌握了大量有关消费者的信息。仔细想想,其实PayPal并没有消费者,它的顾客是商户,商户的顾客是消费者,因此PayPal间接的拥有消费者。我们通过商户跟消费者打交道,所以我们希望能够为商户提供这些功能,以帮助改善消费者的用户体验。”
PayPal正在研究YARN,而且试图利用Spark和Storm,它还和明尼苏达大学一起研究“深度学习”。该公司花了相当多的时间为eBay建立推荐引擎,Ambari说:“如果你看到了邀请你去eBay购物的广告,这很有可能就是我们做的。”
原文链接:How PayPal Makes Merchants Smarter through Data Mining(编译/毛梦琪 审校/魏伟)
以“云计算大数据 推动智慧中国”为主题的第六届中国云计算大会将于5月20-23日在北京国家会议中心隆重举办。产业观察、技术培训、主题论坛、行业研讨,内容丰富,干货十足。票价优惠,马上报名!
欢迎光临 黑马程序员技术交流社区 (http://bbs.itheima.com/)
黑马程序员IT技术论坛 X3.2