A股上市公司传智教育(股票代码 003032)旗下技术交流社区北京昌平校区

 找回密码
 加入黑马

QQ登录

只需一步,快速开始

一、整合说明#
Storm 官方对 Kafka 的整合分为两个版本,官方说明文档分别如下:
这里我服务端安装的 Kafka 版本为 2.2.0(Released Mar 22, 2019) ,按照官方 0.10.x+ 的整合文档进行整合,不适用于 0.8.x 版本的 Kafka。
二、写入数据到Kafka#2.1 项目结构#
2.2 项目主要依赖#Copy
<properties>    <storm.version>1.2.2</storm.version>    <kafka.version>2.2.0</kafka.version></properties><dependencies>    <dependency>        <groupId>org.apache.storm</groupId>        <artifactId>storm-core</artifactId>        <version>${storm.version}</version>    </dependency>    <dependency>        <groupId>org.apache.storm</groupId>        <artifactId>storm-kafka-client</artifactId>        <version>${storm.version}</version>    </dependency>    <dependency>        <groupId>org.apache.kafka</groupId>        <artifactId>kafka-clients</artifactId>        <version>${kafka.version}</version>    </dependency></dependencies>2.3 DataSourceSpout#Copy
/** * 产生词频样本的数据源 */public class DataSourceSpout extends BaseRichSpout {    private List<String> list = Arrays.asList("Spark", "Hadoop", "HBase", "Storm", "Flink", "Hive");    private SpoutOutputCollector spoutOutputCollector;    @Override    public void open(Map map, TopologyContext topologyContext, SpoutOutputCollector spoutOutputCollector) {        this.spoutOutputCollector = spoutOutputCollector;    }    @Override    public void nextTuple() {        // 模拟产生数据        String lineData = productData();        spoutOutputCollector.emit(new Values(lineData));        Utils.sleep(1000);    }    @Override    public void declareOutputFields(OutputFieldsDeclarer outputFieldsDeclarer) {        outputFieldsDeclarer.declare(new Fields("line"));    }    /**     * 模拟数据     */    private String productData() {        Collections.shuffle(list);        Random random = new Random();        int endIndex = random.nextInt(list.size()) % (list.size()) + 1;        return StringUtils.join(list.toArray(), "\t", 0, endIndex);    }}
产生的模拟数据格式如下:
Copy
Spark   HBaseHive    Flink   Storm   Hadoop  HBase   SparkFlinkHBase   StormHBase   Hadoop  Hive    FlinkHBase   Flink   Hive    StormHive    Flink   HadoopHBase   HiveHadoop  Spark   HBase   Storm2.4 WritingToKafkaApp#Copy
/** * 写入数据到 Kafka 中 */public class WritingToKafkaApp {    private static final String BOOTSTRAP_SERVERS = "hadoop001:9092";    private static final String TOPIC_NAME = "storm-topic";    public static void main(String[] args) {        TopologyBuilder builder = new TopologyBuilder();        // 定义 Kafka 生产者属性        Properties props = new Properties();        /*         * 指定 broker 的地址清单,清单里不需要包含所有的 broker 地址,生产者会从给定的 broker 里查找其他 broker 的信息。         * 不过建议至少要提供两个 broker 的信息作为容错。         */        props.put("bootstrap.servers", BOOTSTRAP_SERVERS);        /*         * acks 参数指定了必须要有多少个分区副本收到消息,生产者才会认为消息写入是成功的。         * acks=0 : 生产者在成功写入消息之前不会等待任何来自服务器的响应。         * acks=1 : 只要集群的首领节点收到消息,生产者就会收到一个来自服务器成功响应。         * acks=all : 只有当所有参与复制的节点全部收到消息时,生产者才会收到一个来自服务器的成功响应。         */        props.put("acks", "1");        props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");        props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");        KafkaBolt bolt = new KafkaBolt<String, String>()                .withProducerProperties(props)                .withTopicSelector(new DefaultTopicSelector(TOPIC_NAME))                .withTupleToKafkaMapper(new FieldNameBasedTupleToKafkaMapper<>());        builder.setSpout("sourceSpout", new DataSourceSpout(), 1);        builder.setBolt("kafkaBolt", bolt, 1).shuffleGrouping("sourceSpout");        if (args.length > 0 && args[0].equals("cluster")) {            try {                StormSubmitter.submitTopology("ClusterWritingToKafkaApp", new Config(), builder.createTopology());            } catch (AlreadyAliveException | InvalidTopologyException | AuthorizationException e) {                e.printStackTrace();            }        } else {            LocalCluster cluster = new LocalCluster();            cluster.submitTopology("LocalWritingToKafkaApp",                    new Config(), builder.createTopology());        }    }}2.5 测试准备工作#
进行测试前需要启动 Kakfa:
1. 启动Kakfa#
Kafka 的运行依赖于 zookeeper,需要预先启动,可以启动 Kafka 内置的 zookeeper,也可以启动自己安装的:
Copy
# zookeeper启动命令bin/zkServer.sh start# 内置zookeeper启动命令bin/zookeeper-server-start.sh config/zookeeper.properties
启动单节点 kafka 用于测试:
Copy
# bin/kafka-server-start.sh config/server.properties2. 创建topic#Copy
# 创建用于测试主题bin/kafka-topics.sh --create --bootstrap-server hadoop001:9092 --replication-factor 1 --partitions 1 --topic storm-topic# 查看所有主题 bin/kafka-topics.sh --list --bootstrap-server hadoop001:90923. 启动消费者#
启动一个消费者用于观察写入情况,启动命令如下:
Copy
# bin/kafka-console-consumer.sh --bootstrap-server hadoop001:9092 --topic storm-topic --from-beginning2.6 测试#
可以用直接使用本地模式运行,也可以打包后提交到服务器集群运行。本仓库提供的源码默认采用 maven-shade-plugin 进行打包,打包命令如下:
Copy
# mvn clean package -D maven.test.skip=true
启动后,消费者监听情况如下:
三、从Kafka中读取数据#3.1 项目结构#
3.2 ReadingFromKafkaApp#Copy
/** * 从 Kafka 中读取数据 */public class ReadingFromKafkaApp {    private static final String BOOTSTRAP_SERVERS = "hadoop001:9092";    private static final String TOPIC_NAME = "storm-topic";    public static void main(String[] args) {        final TopologyBuilder builder = new TopologyBuilder();        builder.setSpout("kafka_spout", new KafkaSpout<>(getKafkaSpoutConfig(BOOTSTRAP_SERVERS, TOPIC_NAME)), 1);        builder.setBolt("bolt", new LogConsoleBolt()).shuffleGrouping("kafka_spout");        // 如果外部传参 cluster 则代表线上环境启动,否则代表本地启动        if (args.length > 0 && args[0].equals("cluster")) {            try {                StormSubmitter.submitTopology("ClusterReadingFromKafkaApp", new Config(), builder.createTopology());            } catch (AlreadyAliveException | InvalidTopologyException | AuthorizationException e) {                e.printStackTrace();            }        } else {            LocalCluster cluster = new LocalCluster();            cluster.submitTopology("LocalReadingFromKafkaApp",                    new Config(), builder.createTopology());        }    }    private static KafkaSpoutConfig<String, String> getKafkaSpoutConfig(String bootstrapServers, String topic) {        return KafkaSpoutConfig.builder(bootstrapServers, topic)                // 除了分组 ID,以下配置都是可选的。分组 ID 必须指定,否则会抛出 InvalidGroupIdException 异常                .setProp(ConsumerConfig.GROUP_ID_CONFIG, "kafkaSpoutTestGroup")                // 定义重试策略                .setRetry(getRetryService())                // 定时提交偏移量的时间间隔,默认是 15s                .setOffsetCommitPeriodMs(10_000)                .build();    }    // 定义重试策略    private static KafkaSpoutRetryService getRetryService() {        return new KafkaSpoutRetryExponentialBackoff(TimeInterval.microSeconds(500),                TimeInterval.milliSeconds(2), Integer.MAX_VALUE, TimeInterval.seconds(10));    }}3.3 LogConsoleBolt#Copy
/** * 打印从 Kafka 中获取的数据 */public class LogConsoleBolt extends BaseRichBolt {    private OutputCollector collector;    public void prepare(Map stormConf, TopologyContext context, OutputCollector collector) {        this.collector=collector;    }    public void execute(Tuple input) {        try {            String value = input.getStringByField("value");            System.out.println("received from kafka : "+ value);            // 必须 ack,否则会重复消费 kafka 中的消息            collector.ack(input);        }catch (Exception e){            e.printStackTrace();            collector.fail(input);        }    }    public void declareOutputFields(OutputFieldsDeclarer declarer) {    }}
这里从 value 字段中获取 kafka 输出的值数据。
在开发中,我们可以通过继承 RecordTranslator 接口定义了 Kafka 中 Record 与输出流之间的映射关系,可以在构建 KafkaSpoutConfig 的时候通过构造器或者 setRecordTranslator() 方法传入,并最后传递给具体的 KafkaSpout。
默认情况下使用内置的 DefaultRecordTranslator,其源码如下,FIELDS 中 定义了 tuple 中所有可用的字段:主题,分区,偏移量,消息键,值。
Copy
public class DefaultRecordTranslator<K, V> implements RecordTranslator<K, V> {    private static final long serialVersionUID = -5782462870112305750L;    public static final Fields FIELDS = new Fields("topic", "partition", "offset", "key", "value");    @Override    public List<Object> apply(ConsumerRecord<K, V> record) {        return new Values(record.topic(),                record.partition(),                record.offset(),                record.key(),                record.value());    }    @Override    public Fields getFieldsFor(String stream) {        return FIELDS;    }    @Override    public List<String> streams() {        return DEFAULT_STREAM;    }}3.4 启动测试#
这里启动一个生产者用于发送测试数据,启动命令如下:
Copy
# bin/kafka-console-producer.sh --broker-list hadoop001:9092 --topic storm-topic
本地运行的项目接收到从 Kafka 发送过来的数据:

用例源码下载地址:storm-kafka-integration

2 个回复

倒序浏览
有任何问题欢迎在评论区留言
回复 使用道具 举报
或者添加学姐微信
DKA-2018
回复 使用道具 举报
您需要登录后才可以回帖 登录 | 加入黑马