Wikipedia将Kafka定义为“由 Scala编写的Apache软件基金会开发的开源消息代理项目 ,并且是一个分布式的发布-订阅消息系统。
特征 | 描述 |
---|---|
高吞吐量 | 使用适度的硬件支持数百万条消息 |
可扩展性 | 高度可扩展的分布式系统,无停机 |
复写 | 消息在整个群集中复制,以为多个订户提供支持,并在发生故障时平衡使用方 |
持久性 | 提供对消息到磁盘的持久性的支持 |
流处理 | 与Apache Spark&Storm等实时流应用程序一起使用 |
数据丢失 | 具有正确配置的Kafka可以确保零数据丢失 |
Kafka的四个主要组成部分是:
分区中包含的消息被分配一个唯一的ID号,称为偏移号。偏移量的作用是唯一标识分区中的每个消息。
消费者群体是Kafka独有的概念。每个Kafka消费者群体都由一个或多个共同组成一组订阅主题的消费者组成。
Kafka使用Zookeeper来存储特定使用者组针对特定主题和分区使用的消息的偏移量。
不可以,不能绕过Zookeeper并直接连接到Kafka服务器。如果由于某种原因ZooKeeper关闭,您将无法处理任何客户端请求。
Kafka中的每个分区都有一个充当领导者角色的服务器,没有一个或多个充当追随者的服务器。领导者执行对分区的所有读写请求的任务,而跟随者的作用是被动复制领导者。如果领导者失败,一名跟随者将担任领导者的角色。这样可以确保服务器的负载平衡。
副本实际上是一个节点列表,这些节点将复制特定分区的日志,而不管它们是否扮演领导者的角色。另一方面,ISR代表同步副本。它实质上是一组同步到领导者的消息副本。
复制可确保发布的消息不会丢失,并且在发生任何机器错误,程序错误或频繁的软件升级时都可以使用。
这意味着跟随者无法获取与领导者积累的数据一样快的数据。
由于Kafka使用ZooKeeper,因此必须初始化ZooKeeper服务器,然后启动Kafka服务器。
在生产者中,分区键的作用是指示消息的目标分区。默认情况下,基于散列的分区程序用于确定给定键的分区ID。或者,用户也可以使用自定义分区。
当生产者尝试以代理无法处理的速度发送消息时,通常会发生QueueFullException。由于生产者没有阻止,用户将需要添加足够的代理来协作处理增加的负载。
Kafka的Producer API的作用是包装两个生产者– Kafka.producer.SyncProducer和Kafka.producer.async.AsyncProducer。目标是通过单个API向客户端公开所有生产者功能。
即使两者都用于实时处理,Kafka仍可扩展并确保消息的持久性。
参与评论
手机查看
返回顶部