kafka - 文章中心

2023-05-31 09:03:29

Kafka 本质上是⼀个消息队列。与zeromq不同的是，Kafka是一个独立的框架而不是一个库。这里主要介绍其原理，至于具体的安装等操作不做介绍，只是提示一下，第一次运行时，先设置前台运行，看会不会报错。 1. 架构注意下图没有画上zookeeper，请自行脑补。kafka需要连接到zookeeper，来完成注册发现等集群操作。broker都是由zookeeper管理。 &nb

分类：人工智能&大数据 | 阅读(1105) | 评论(0)

Kafka+Spark Streaming+Redis实时计算

2016-02-24 21:55:57

基于Spark通用计算平台，可以很好地扩展各种计算类型的应用，尤其是Spark提供了内建的计算库支持，像Spark Streaming、Spark SQL、MLlib、GraphX，这些内建库都提供了高级抽象，可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。我们的应用场景是分析用户使用手机App的行为，描述如下所示：手机客户端会收集用户的行为事件（我们以点击事件为例），将数据

分类：Spark | 阅读(3303) | 评论(0)

Kafka+SparkStreaming实现实时统计

2016-02-24 10:53:41

Flume+Kafka+SparkStreaming已经发展为一个比较成熟的实时日志收集与计算架构，利用Kafka，即可以支持将用于离线分析的数据流到HDFS，又可以同时支撑多个消费者实时消费数据，包括SparkStreaming。实时统计需求以60秒为间隔，统计60秒内的pv,ip数,uv 最终结果包括：时间点：pv：ips：uv 原始日志格式 2015-11-11T14:59:59|~|xxx

分类：Spark | 阅读(3509) | 评论(0)

Kafka集群partition replication 分析

2015-10-10 11:05:52

1. Kafka集群partition replication默认自动分配分析下面以一个Kafka集群中4个Broker举例，创建1个topic包含4个Partition，2 Replication；数据Producer流动如图所示： (1) (2)当集群中新增2节点，Partition增加到6个时分布情况如下：副本分配逻辑规则如下：在Kafka集群中，

分类：人工智能&大数据 | 阅读(2525) | 评论(0)

Kafka 配置文件参数说明

2015-10-10 10:29:05

1. Broker主要配置每个kafka broker中配置文件server.properties默认必须配置的属性如下： broker.id=0 num.network.threads=2 num.io.threads=8 socket.send.buffer.bytes=1048576 socket.receive.buffer.bytes=1048576 socket.request.max.bytes=

分类：人工智能&大数据 | 阅读(3901) | 评论(0)

Kafka文件存储机制

2015-10-10 09:23:13

Kafka文件存储机制基础知识就不说了，详见 Kafka基本知识及安装配置 Kafka部分名词解释如下： Broker：消息中间件处理结点，一个Kafka节点就是一个broker，多个broker可以组成一个Kafka集群。 Topic：一类消息，例如page view日志、click日志等都可以以topic的形式存在，Kafka集群能够同时负责多个topic的分发。

分类：人工智能&大数据 | 阅读(2195) | 评论(0)

Apache Kafka详解

2015-09-29 16:32:02

Apache Kafka可以帮助你解决在发布/订阅架构中遇到消费数百万消息的问题。 Kafka是一个实时消息传输的解决方案，可处理大量实时信息，并把这些信息快速路由到各种消费者。Kafka提供了信息生产者和消费者之间的无缝集成，无需对生产者的信息进行阻塞，也无需告诉生产者那些消费者的位置。 Apache Kafka是一个开源、分布式的消息发布/订阅系统，其主要设计特性如下： 1）消息持久化要从大数据中获

分类：人工智能&大数据 | 阅读(2713) | 评论(0)