黑马程序员技术交流社区

标题: 转发_谷歌开源Cloud Dataflow Java SDK [打印本页]

作者: zhiyi 时间: 2014-12-31 09:13
标题: 转发_谷歌开源Cloud Dataflow Java SDK
源网址：http://code.csdn.net/news/2823274

谷歌开源Cloud Dataflow Java SDK

2014-12-24 09:52
InfoQ
作者谢丽

开源谷歌 java stack overflow 数据存储云服务
今年早些时候，谷歌宣布了Cloud Dataflow，一个批量或实时处理海量数据的服务和SDK。现在，他们开源了Dataflow Java SDK，使开发人员可以看到它的实现方式，并合理使用该SDK开发运行在本地或其它云上的服务。

今年早些时候，谷歌宣布了 Cloud Dataflow，一个批量或实时处理海量数据的服务和 SDK。现在，他们开源了 Dataflow Java SDK，使开发人员可以看到它的实现方式，并合理使用该 SDK 开发运行在本地或其它云上的服务。

Dataflow 是一项云服务，使用了由 FlumeJava 和 MillWheel 演变而来的技术，前者是一个用于创建数据并行管道的 Java 库，后者是一个用于构建容错流处理应用的框架，在谷歌内部有数百名开发人员在使用它们。Dataflow 是语言无关的，但谷歌提供了一个 Java SDK，使开发人员为它创建应用更简单。

管道是 Dataflow 使用的一个关键概念，它由一组“读取输入数据源、转换数据、输出结果的操作”组成。数据组织在大小有限或无限的集合中，并提交给多个“转换（transformations）”，由它们执行计算，即操作输入集合、生成输出集合。“管道执行器（pipeline runner）”是管道的执行环境。该 SDK提供了三种类型的执行器：用于本地计算机的 DirectPipelineRunner，用于谷歌云平台的DataflowPipelineRunner，还有同样用于谷歌云的 BlockingDataflowPipelineRunner，但它会在执行状态中打印日志消息。

管道可以很简单，转换一个接一个地线性执行，或者也可以是一个复杂的有向图，转换路径先分支后合并。一个管道不能与另一个管道共享数据或转换。管道异步执行，而且为了优化整个处理过程的效率，数据流服务可以决定部分转换的执行顺序。

Dataflow 应用可以部署在谷歌云平台上，后者可以提供所需的所有基础设施，其中包括提供运行代码的虚拟机、数据存储或者用于数据处理的 BigQuery 机制。但开发人员也可以将这些应用部署在不同的执行环境中，既可以在本地，也可以在其它云上，只要创建了相同的服务即可。

Dataflow SDK 中包含了示例。谷歌已经创建了一个 Stack Overflow 标签来回答开发人员的问题。（英文：Dataflow Java SDK，转自InfoQ）

欢迎光临黑马程序员技术交流社区 (http://bbs.itheima.com/)

黑马程序员IT技术论坛 X3.2