learn.lianglianglee.com/专栏/分布式技术原理与实战45讲-完/35 消息队列选型：Kafka 如何实现高性能？.md.html

<!DOCTYPE html>

<!-- saved from url=(0046)https://kaiiiz.github.io/hexo-theme-book-demo/ -->

<html xmlns="http://www.w3.org/1999/xhtml">

<head>

    <head>

        <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

        <meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=1.0, user-scalable=no">

        <link rel="icon" href="/static/favicon.png">

        <title>35 消息队列选型：Kafka 如何实现高性能？.md.html</title>

        <!-- Spectre.css framework -->

        <link rel="stylesheet" href="/static/index.css">

        <!-- theme css & js -->

        <meta name="generator" content="Hexo 4.2.0">

    </head>


<body>


<div class="book-container">

    <div class="book-sidebar">

        <div class="book-brand">

            <a href="/">

                <img src="/static/favicon.png">

                <span>技术文章摘抄</span>

            </a>

        </div>

        <div class="book-menu uncollapsible">

            <ul class="uncollapsible">

                <li><a href="/" class="current-tab">首页</a></li>

            </ul>


            <ul class="uncollapsible">

                <li><a href="../">上一级</a></li>

            </ul>


            <ul class="uncollapsible">

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/00 开篇词：搭建分布式知识体系，挑战高薪 Offer.md">00 开篇词：搭建分布式知识体系，挑战高薪 Offer.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/01 如何证明分布式系统的 CAP 理论？.md">01 如何证明分布式系统的 CAP 理论？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/02 不同数据一致性模型有哪些应用？.md">02 不同数据一致性模型有哪些应用？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/03 如何透彻理解 Paxos 算法？.md">03 如何透彻理解 Paxos 算法？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/04 ZooKeeper 如何保证数据一致性？.md">04 ZooKeeper 如何保证数据一致性？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/05 共识问题：区块链如何确认记账权？.md">05 共识问题：区块链如何确认记账权？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/06 如何准备一线互联网公司面试？.md">06 如何准备一线互联网公司面试？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/07 分布式事务有哪些解决方案？.md">07 分布式事务有哪些解决方案？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/08 对比两阶段提交，三阶段协议有哪些改进？.md">08 对比两阶段提交，三阶段协议有哪些改进？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/09 MySQL 数据库如何实现 XA 规范？.md">09 MySQL 数据库如何实现 XA 规范？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/10 如何在业务中体现 TCC 事务模型？.md">10 如何在业务中体现 TCC 事务模型？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/11 分布式锁有哪些应用场景和实现？.md">11 分布式锁有哪些应用场景和实现？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/12 如何使用 Redis 快速实现分布式锁？.md">12 如何使用 Redis 快速实现分布式锁？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/13 分布式事务考点梳理 + 高频面试题.md">13 分布式事务考点梳理 + 高频面试题.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/14 如何理解 RPC 远程服务调用？.md">14 如何理解 RPC 远程服务调用？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/15 为什么微服务需要 API 网关？.md">15 为什么微服务需要 API 网关？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/16 如何实现服务注册与发现？.md">16 如何实现服务注册与发现？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/17 如何实现分布式调用跟踪？.md">17 如何实现分布式调用跟踪？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/18 分布式下如何实现配置管理？.md">18 分布式下如何实现配置管理？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/19 容器化升级对服务有哪些影响？.md">19 容器化升级对服务有哪些影响？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/20 ServiceMesh：服务网格有哪些应用？.md">20 ServiceMesh：服务网格有哪些应用？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/21 Dubbo vs Spring Cloud：两大技术栈如何选型？.md">21 Dubbo vs Spring Cloud：两大技术栈如何选型？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/22 分布式服务考点梳理 + 高频面试题.md">22 分布式服务考点梳理 + 高频面试题.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/23 读写分离如何在业务中落地？.md">23 读写分离如何在业务中落地？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/24 为什么需要分库分表，如何实现？.md">24 为什么需要分库分表，如何实现？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/25 存储拆分后，如何解决唯一主键问题？.md">25 存储拆分后，如何解决唯一主键问题？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/26 分库分表以后，如何实现扩容？.md">26 分库分表以后，如何实现扩容？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/27 NoSQL 数据库有哪些典型应用？.md">27 NoSQL 数据库有哪些典型应用？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/28 ElasticSearch 是如何建立索引的？.md">28 ElasticSearch 是如何建立索引的？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/29 分布式存储考点梳理 + 高频面试题.md">29 分布式存储考点梳理 + 高频面试题.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/30 消息队列有哪些应用场景？.md">30 消息队列有哪些应用场景？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/31 集群消费和广播消费有什么区别？.md">31 集群消费和广播消费有什么区别？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/32 业务上需要顺序消费，怎么保证时序性？.md">32 业务上需要顺序消费，怎么保证时序性？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/33 消息幂等：如何保证消息不被重复消费？.md">33 消息幂等：如何保证消息不被重复消费？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/34 高可用：如何实现消息队列的 HA？.md">34 高可用：如何实现消息队列的 HA？.md.html</a>


                </li>

                <li>


                    <a class="current-tab" href="/专栏/分布式技术原理与实战45讲-完/35 消息队列选型：Kafka 如何实现高性能？.md">35 消息队列选型：Kafka 如何实现高性能？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/36 消息队列选型：RocketMQ 适用哪些场景？.md">36 消息队列选型：RocketMQ 适用哪些场景？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/37 消息队列考点梳理 + 高频面试题.md">37 消息队列考点梳理 + 高频面试题.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/38 不止业务缓存，分布式系统中还有哪些缓存？.md">38 不止业务缓存，分布式系统中还有哪些缓存？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/39 如何避免缓存穿透、缓存击穿、缓存雪崩？.md">39 如何避免缓存穿透、缓存击穿、缓存雪崩？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/40 经典问题：先更新数据库，还是先更新缓存？.md">40 经典问题：先更新数据库，还是先更新缓存？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/41 失效策略：缓存过期都有哪些策略？.md">41 失效策略：缓存过期都有哪些策略？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/42 负载均衡：一致性哈希解决了哪些问题？.md">42 负载均衡：一致性哈希解决了哪些问题？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/43 缓存高可用：缓存如何保证高可用？.md">43 缓存高可用：缓存如何保证高可用？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/44 分布式缓存考点梳理 + 高频面试题.md">44 分布式缓存考点梳理 + 高频面试题.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/45 从双十一看高可用的保障方式.md">45 从双十一看高可用的保障方式.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/46 高并发场景下如何实现系统限流？.md">46 高并发场景下如何实现系统限流？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/47 降级和熔断：如何增强服务稳定性？.md">47 降级和熔断：如何增强服务稳定性？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/48 如何选择适合业务的负载均衡策略？.md">48 如何选择适合业务的负载均衡策略？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/49 线上服务有哪些稳定性指标？.md">49 线上服务有哪些稳定性指标？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/50 分布式下有哪些好用的监控组件？.md">50 分布式下有哪些好用的监控组件？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/51 分布式下如何实现统一日志系统？.md">51 分布式下如何实现统一日志系统？.md.html</a>


                </li>

                <li>


                    <a href="/专栏/分布式技术原理与实战45讲-完/52 分布式路漫漫，厚积薄发才是王道.md">52 分布式路漫漫，厚积薄发才是王道.md.html</a>


                </li>

            </ul>


        </div>

    </div>


    <div class="sidebar-toggle" onclick="sidebar_toggle()" onmouseover="add_inner()" onmouseleave="remove_inner()">

        <div class="sidebar-toggle-inner"></div>

    </div>


    <script>

        function add_inner() {

            let inner = document.querySelector('.sidebar-toggle-inner')

            inner.classList.add('show')

        }


        function remove_inner() {

            let inner = document.querySelector('.sidebar-toggle-inner')

            inner.classList.remove('show')

        }


        function sidebar_toggle() {

            let sidebar_toggle = document.querySelector('.sidebar-toggle')

            let sidebar = document.querySelector('.book-sidebar')

            let content = document.querySelector('.off-canvas-content')

            if (sidebar_toggle.classList.contains('extend')) { // show

                sidebar_toggle.classList.remove('extend')

                sidebar.classList.remove('hide')

                content.classList.remove('extend')

            } else { // hide

                sidebar_toggle.classList.add('extend')

                sidebar.classList.add('hide')

                content.classList.add('extend')

            }

        }


function open_sidebar() {

    let sidebar = document.querySelector('.book-sidebar')

    let overlay = document.querySelector('.off-canvas-overlay')

    sidebar.classList.add('show')

    overlay.classList.add('show')

}

function hide_canvas() {

    let sidebar = document.querySelector('.book-sidebar')

    let overlay = document.querySelector('.off-canvas-overlay')

    sidebar.classList.remove('show')

    overlay.classList.remove('show')

}


    </script>


    <div class="off-canvas-content">

        <div class="columns">

            <div class="column col-12 col-lg-12">

                <div class="book-navbar">

                    <!-- For Responsive Layout -->

                    <header class="navbar">

                        <section class="navbar-section">

                            <a onclick="open_sidebar()">

                                <i class="icon icon-menu"></i>

                            </a>

                        </section>

                    </header>

                </div>

                <div class="book-content" style="max-width: 960px; margin: 0 auto;

    overflow-x: auto;

    overflow-y: hidden;">

                    <div class="book-post">

                        <p id="tip" align="center"></p>

                        <div><h1>35 消息队列选型：Kafka 如何实现高性能？</h1>

<p>在分布式消息模块的最后 2 个课时中，我将对消息队列中应用最广泛的 Kafka 和 RocketMQ 进行梳理，以便于你在应用中可以更好地进行消息队列选型。另外，这两款消息队列也是面试的高频考点。</p>

<p>所以，这一课时我们就一起来看一下，Kafka 是如何实现高性能的。</p>

<h3>Kafka 的高性能</h3>

<p>不知道你有没有了解过自己电脑的配置？</p>

<p>我们一般会认为高性能是和高配置联系在一起的，比如大内存比小内存快，8 核的机器比 4 核的机器快。我身边也有一些朋友是攒机爱好者，对各种硬件配置如数家珍。</p>

<p>对于服务器来说，家用电脑的性能与配置的关系也同样适用——价格更昂贵的服务器会有更好的性能——这并不是一件需要大张旗鼓去讲述的事情。但 Kafka 所实现的高性能不需要太高配置的机器，它使用普通服务器就能实现 TB 级别的传输性能。这一点也是 Kafka 对外宣传的一个特性，也正是因为这一点，Kafka 被广泛运用于大数据处理、流式计算、各类日志监控等需要处理海量数据的场景。</p>

<p>Kafka 实现高性能的手段，是面试中经常被问到的问题。下面我从 Kafka 的磁盘读写、批量优化、零拷贝等方面，对 Kafka 的高性能特性进行分析。</p>

<p>分析 Kafka 的高性能会涉及操作系统的一些知识，比如文件系统、PageCache等，作为大学计算机专业的必修课，这些概念就不展开了。如果你觉得这方面比较生疏，可以回顾下操作系统课程的相关知识，找一些经典教材来学习。</p>

<h3>磁盘顺序读写</h3>

<p>Kafka 消息是存储在磁盘上的，大家都知道，普通的机械磁盘读取是比较慢的，那 Kafka 文件在磁盘上，如何实现高性能的读写呢？</p>

<p>Kafka 对磁盘的应用，得益于消息队列的存储特性。与普通的关系型数据库、各类 NoSQL 数据库等不同，消息队列对外提供的主要方法是<strong>生产和消费</strong>，不涉及数据的 CRUD。所以在写入磁盘时，可以使用顺序追加的方式来避免低效的磁盘寻址。</p>

<p>我们知道，数据存储在硬盘上，而硬盘有机械硬盘和固态硬盘之分。机械硬盘成本低、容量大，但每次读写都会寻址，再写入数据（在机械硬盘上，寻址是一个物理动作，耗时最大）；SSD 固态硬盘性能很高，有着非常低的寻道时间和存取时间，但成本也特别高。</p>

<p>为了提高在机械硬盘上读写的速度，Kafka 使用了顺序读写。在一个分区内，Kafka 采用 append 的方式进行顺序写入，这样即使是普通的机械磁盘，也可以有很高的性能。</p>

<p>除了顺序读写，在提到磁盘写入的时候，还有一个问题避免不了，那就是何时进行刷盘。</p>

<p>在 Linux 系统中，当我们把数据写入文件系统之后，其实数据是存放在操作系统的 page cache 里面，并没有刷到磁盘上，如果服务器宕机，数据就丢失了。</p>

<p>写到磁盘的过程叫作 Flush。刷盘一般有两种方式，一种是依靠操作系统进行管理，定时刷盘，另一种则是同步刷盘，比如调用 fsync 等系统函数。</p>

<p>同步刷盘保证了数据的可靠性，但是会降低整体性能。Kafka 可以配置异步刷盘，不开启同步刷盘，异步刷盘不需要等写入磁盘后返回消息投递的 ACK，所以它提高了消息发送的吞吐量，降低了请求的延时，这也是 Kafka 磁盘高性能的一个原因。</p>

<h3>批量操作优化</h3>

<p>批量是一个常见的优化思路，比如大家熟悉的 Redis，就实现了 pipeline 管道批量操作。Kafka 在很多地方也应用了批量操作进行性能优化。</p>

<p>Kafka 的批量包括批量写入、批量发布等。它在消息投递时会将消息缓存起来，然后批量发送；同样，消费端在消费消息时，也不是一条一条处理的，而是批量进行拉取，提高了消息的处理速度。</p>

<p>除了批量以外，Kafka 的数据传输还可以配置压缩协议，比如 Gzip 和 Snappy 压缩协议。虽然在进行数据压缩时会消耗少量的 CPU 资源，但可以减少网络传输的数据大小、优化网络 IO、提升传输速率。</p>

<h3>Sendfile 零拷贝</h3>

<p>零拷贝是什么？它是操作系统文件读写的一种技术。</p>

<p>零拷贝不是不需要拷贝，而是减少不必要的拷贝次数，这里会涉及 Linux 用户态和内核态的区别。</p>

<p>用户进程是运行在用户空间的，不能直接操作内核缓冲区的数据。所以在用户进程进行系统调用的时候，会由用户态切换到内核态，待内核处理完之后再返回用户态。</p>

<p>传统的 IO 流程，需要先把数据拷贝到内核缓冲区，再从内核缓冲拷贝到用户空间，应用程序处理完成以后，再拷贝回内核缓冲区。这个过程中发生了多次数据拷贝。</p>

<p>为了减少不必要的拷贝，Kafka 依赖 Linux 内核提供的 Sendfile 系统调用。 在 Sendfile 方法中，数据在内核缓冲区完成输入和输出，不需要拷贝到用户空间处理，这也就避免了重复的数据拷贝。在具体的操作中，Kafka 把所有的消息都存放在单独的文件里，在消息投递时直接通过 Sendfile 方法发送文件，减少了上下文切换，因此大大提高了性能。</p>

<h3>MMAP 技术</h3>

<p>Kafka 是使用 Scala 语言开发的。Scala 运行在 Java 虚拟机上，也就是说 Kafka 节点运行需要 JVM 的支持，但是 Kafka 并不直接依赖 JVM 堆内存。如果 Kafka 所有的数据操作都在堆内存中进行，则会对堆内存造成非常大的压力，影响垃圾回收处理，增加 JVM 的停顿时间和整体延迟。</p>

<p>因此，除了 Sendfile 之外，还有一种零拷贝的实现技术，即 Memory Mapped Files。</p>

<p>Kafka 使用 Memory Mapped Files 完成内存映射，Memory Mapped Files 对文件的操作不是 write/read，而是直接对内存地址的操作。如果是调用文件的 read 操作，则把数据先读取到内核空间中，然后再复制到用户空间。 但 MMAP 可以将文件直接映射到用户态的内存空间，省去了用户空间到内核空间复制的开销，所以说 MMAP 也是一种零拷贝技术。</p>

<p>那 MMAP 和上面的 Sendfile 有什么区别呢？</p>

<p>MMAP 和 Sendfile 并没有本质上的区别，它们都是零拷贝的实现。零拷贝是一种技术思想，除了我们说到的这两种，还有DMA，以及缓冲区共享等方式，感兴趣的同学可以去扩展了解一下。</p>

<h3>总结</h3>

<p>这一课时讲解了 Kafka 如何实现高性能，介绍了顺序读写、批量优化、零拷贝等技术，对于大部分业务开发的同学，这部分知识了解即可。</p>

<p>Kafka 的高性能实现原理，在很多地方都有应用，比如 Netty 中也有零拷贝技术。Linux 中，一切皆文件，Netty 关注的是网络 IO 的传输，Kafka 等存储关注的是文件 IO 的传输，但在操作系统中都是 IO 操作，在优化手段上非常类似。</p>

<p>另外，上面提到的 Sendfile 可以大幅提升文件传输性能，在 Apache、Nginx 等 Web 服务器当中，都有相关的应用。感兴趣的同学可以了解下 Netty 等网络组件的性能优化方式，欢迎留言进行分享。</p>

</div>

                    </div>

                    <div>

                        <div style="float: left">

                            <a href="/专栏/分布式技术原理与实战45讲-完/34 高可用：如何实现消息队列的 HA？.md">上一页</a>

                        </div>

                        <div style="float: right">

                            <a href="/专栏/分布式技术原理与实战45讲-完/36 消息队列选型：RocketMQ 适用哪些场景？.md">下一页</a>

                        </div>

                    </div>


                </div>

            </div>

        </div>

    </div>


    <a class="off-canvas-overlay" onclick="hide_canvas()"></a>

</div>

<script defer src="https://static.cloudflareinsights.com/beacon.min.js/v652eace1692a40cfa3763df669d7439c1639079717194" integrity="sha512-Gi7xpJR8tSkrpF7aordPZQlW2DLtzUlZcumS8dMQjwDHEnw9I7ZLyiOj/6tZStRBGtGgN6ceN6cMH8z7etPGlw==" data-cf-beacon='{"rayId":"709976e5eb6c3cfa","version":"2021.12.0","r":1,"token":"1f5d475227ce4f0089a7cff1ab17c0f5","si":100}' crossorigin="anonymous"></script>

</body>

<!-- Global site tag (gtag.js) - Google Analytics -->

<script async src="https://www.googletagmanager.com/gtag/js?id=G-NPSEEVD756"></script>

<script>

    window.dataLayer = window.dataLayer || [];


    function gtag() {

        dataLayer.push(arguments);

    }


    gtag('js', new Date());

    gtag('config', 'G-NPSEEVD756');

    var path = window.location.pathname

    var cookie = getCookie("lastPath");

    console.log(path)

    if (path.replace("/", "") === "") {

        if (cookie.replace("/", "") !== "") {

            console.log(cookie)

            document.getElementById("tip").innerHTML = "<a href='" + cookie + "'>跳转到上次进度</a>"

        }

    } else {

        setCookie("lastPath", path)

    }


    function setCookie(cname, cvalue) {

        var d = new Date();

        d.setTime(d.getTime() + (180 * 24 * 60 * 60 * 1000));

        var expires = "expires=" + d.toGMTString();

        document.cookie = cname + "=" + cvalue + "; " + expires + ";path = /";

    }


    function getCookie(cname) {

        var name = cname + "=";

        var ca = document.cookie.split(';');

        for (var i = 0; i < ca.length; i++) {

            var c = ca[i].trim();

            if (c.indexOf(name) === 0) return c.substring(name.length, c.length);

        }

        return "";

    }


</script>


</html>