learn.lianglianglee.com/专栏/分布式技术原理与实战45讲-完/17 如何实现分布式调用跟踪？.md.html

<!DOCTYPE html>
<!-- saved from url=(0046)https://kaiiiz.github.io/hexo-theme-book-demo/ -->
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
    <head>
        <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
        <meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=1.0, user-scalable=no">
        <link rel="icon" href="/static/favicon.png">
        <title>17 如何实现分布式调用跟踪？.md.html</title>
        <!-- Spectre.css framework -->
        <link rel="stylesheet" href="/static/index.css">
        <!-- theme css & js -->
        <meta name="generator" content="Hexo 4.2.0">
    </head>
<body>
<div class="book-container">
    <div class="book-sidebar">
        <div class="book-brand">
            <a href="/">
                <img src="/static/favicon.png">
                <span>技术文章摘抄</span>
            </a>
        </div>
        <div class="book-menu uncollapsible">
            <ul class="uncollapsible">
                <li><a href="/" class="current-tab">首页</a></li>
            </ul>
            <ul class="uncollapsible">
                <li><a href="../">上一级</a></li>
            </ul>
            <ul class="uncollapsible">
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/00 开篇词：搭建分布式知识体系，挑战高薪 Offer.md.html">00 开篇词：搭建分布式知识体系，挑战高薪 Offer</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/01 如何证明分布式系统的 CAP 理论？.md.html">01 如何证明分布式系统的 CAP 理论？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/02 不同数据一致性模型有哪些应用？.md.html">02 不同数据一致性模型有哪些应用？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/03 如何透彻理解 Paxos 算法？.md.html">03 如何透彻理解 Paxos 算法？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/04 ZooKeeper 如何保证数据一致性？.md.html">04 ZooKeeper 如何保证数据一致性？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/05 共识问题：区块链如何确认记账权？.md.html">05 共识问题：区块链如何确认记账权？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/06 如何准备一线互联网公司面试？.md.html">06 如何准备一线互联网公司面试？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/07 分布式事务有哪些解决方案？.md.html">07 分布式事务有哪些解决方案？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/08 对比两阶段提交，三阶段协议有哪些改进？.md.html">08 对比两阶段提交，三阶段协议有哪些改进？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/09 MySQL 数据库如何实现 XA 规范？.md.html">09 MySQL 数据库如何实现 XA 规范？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/10 如何在业务中体现 TCC 事务模型？.md.html">10 如何在业务中体现 TCC 事务模型？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/11 分布式锁有哪些应用场景和实现？.md.html">11 分布式锁有哪些应用场景和实现？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/12 如何使用 Redis 快速实现分布式锁？.md.html">12 如何使用 Redis 快速实现分布式锁？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/13 分布式事务考点梳理 + 高频面试题.md.html">13 分布式事务考点梳理 + 高频面试题</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/14 如何理解 RPC 远程服务调用？.md.html">14 如何理解 RPC 远程服务调用？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/15 为什么微服务需要 API 网关？.md.html">15 为什么微服务需要 API 网关？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/16 如何实现服务注册与发现？.md.html">16 如何实现服务注册与发现？</a>
                </li>
                <li>
                    <a class="current-tab" href="/专栏/分布式技术原理与实战45讲-完/17 如何实现分布式调用跟踪？.md.html">17 如何实现分布式调用跟踪？</a>

                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/18 分布式下如何实现配置管理？.md.html">18 分布式下如何实现配置管理？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/19 容器化升级对服务有哪些影响？.md.html">19 容器化升级对服务有哪些影响？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/20 ServiceMesh：服务网格有哪些应用？.md.html">20 ServiceMesh：服务网格有哪些应用？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/21 Dubbo vs Spring Cloud：两大技术栈如何选型？.md.html">21 Dubbo vs Spring Cloud：两大技术栈如何选型？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/22 分布式服务考点梳理 + 高频面试题.md.html">22 分布式服务考点梳理 + 高频面试题</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/23 读写分离如何在业务中落地？.md.html">23 读写分离如何在业务中落地？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/24 为什么需要分库分表，如何实现？.md.html">24 为什么需要分库分表，如何实现？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/25 存储拆分后，如何解决唯一主键问题？.md.html">25 存储拆分后，如何解决唯一主键问题？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/26 分库分表以后，如何实现扩容？.md.html">26 分库分表以后，如何实现扩容？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/27 NoSQL 数据库有哪些典型应用？.md.html">27 NoSQL 数据库有哪些典型应用？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/28 ElasticSearch 是如何建立索引的？.md.html">28 ElasticSearch 是如何建立索引的？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/29 分布式存储考点梳理 + 高频面试题.md.html">29 分布式存储考点梳理 + 高频面试题</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/30 消息队列有哪些应用场景？.md.html">30 消息队列有哪些应用场景？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/31 集群消费和广播消费有什么区别？.md.html">31 集群消费和广播消费有什么区别？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/32 业务上需要顺序消费，怎么保证时序性？.md.html">32 业务上需要顺序消费，怎么保证时序性？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/33 消息幂等：如何保证消息不被重复消费？.md.html">33 消息幂等：如何保证消息不被重复消费？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/34 高可用：如何实现消息队列的 HA？.md.html">34 高可用：如何实现消息队列的 HA？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/35 消息队列选型：Kafka 如何实现高性能？.md.html">35 消息队列选型：Kafka 如何实现高性能？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/36 消息队列选型：RocketMQ 适用哪些场景？.md.html">36 消息队列选型：RocketMQ 适用哪些场景？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/37 消息队列考点梳理 + 高频面试题.md.html">37 消息队列考点梳理 + 高频面试题</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/38 不止业务缓存，分布式系统中还有哪些缓存？.md.html">38 不止业务缓存，分布式系统中还有哪些缓存？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/39 如何避免缓存穿透、缓存击穿、缓存雪崩？.md.html">39 如何避免缓存穿透、缓存击穿、缓存雪崩？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/40 经典问题：先更新数据库，还是先更新缓存？.md.html">40 经典问题：先更新数据库，还是先更新缓存？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/41 失效策略：缓存过期都有哪些策略？.md.html">41 失效策略：缓存过期都有哪些策略？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/42 负载均衡：一致性哈希解决了哪些问题？.md.html">42 负载均衡：一致性哈希解决了哪些问题？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/43 缓存高可用：缓存如何保证高可用？.md.html">43 缓存高可用：缓存如何保证高可用？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/44 分布式缓存考点梳理 + 高频面试题.md.html">44 分布式缓存考点梳理 + 高频面试题</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/45 从双十一看高可用的保障方式.md.html">45 从双十一看高可用的保障方式</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/46 高并发场景下如何实现系统限流？.md.html">46 高并发场景下如何实现系统限流？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/47 降级和熔断：如何增强服务稳定性？.md.html">47 降级和熔断：如何增强服务稳定性？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/48 如何选择适合业务的负载均衡策略？.md.html">48 如何选择适合业务的负载均衡策略？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/49 线上服务有哪些稳定性指标？.md.html">49 线上服务有哪些稳定性指标？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/50 分布式下有哪些好用的监控组件？.md.html">50 分布式下有哪些好用的监控组件？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/51 分布式下如何实现统一日志系统？.md.html">51 分布式下如何实现统一日志系统？</a>
                </li>
                <li>
                    <a href="/专栏/分布式技术原理与实战45讲-完/52 分布式路漫漫，厚积薄发才是王道.md.html">52 分布式路漫漫，厚积薄发才是王道</a>
                </li>
            </ul>
        </div>
    </div>
    <div class="sidebar-toggle" onclick="sidebar_toggle()" onmouseover="add_inner()" onmouseleave="remove_inner()">
        <div class="sidebar-toggle-inner"></div>
    </div>
    <script>
        function add_inner() {
            let inner = document.querySelector('.sidebar-toggle-inner')
            inner.classList.add('show')
        }
        function remove_inner() {
            let inner = document.querySelector('.sidebar-toggle-inner')
            inner.classList.remove('show')
        }
        function sidebar_toggle() {
            let sidebar_toggle = document.querySelector('.sidebar-toggle')
            let sidebar = document.querySelector('.book-sidebar')
            let content = document.querySelector('.off-canvas-content')
            if (sidebar_toggle.classList.contains('extend')) { // show
                sidebar_toggle.classList.remove('extend')
                sidebar.classList.remove('hide')
                content.classList.remove('extend')
            } else { // hide
                sidebar_toggle.classList.add('extend')
                sidebar.classList.add('hide')
                content.classList.add('extend')
            }
        }
function open_sidebar() {
    let sidebar = document.querySelector('.book-sidebar')
    let overlay = document.querySelector('.off-canvas-overlay')
    sidebar.classList.add('show')
    overlay.classList.add('show')
}
function hide_canvas() {
    let sidebar = document.querySelector('.book-sidebar')
    let overlay = document.querySelector('.off-canvas-overlay')
    sidebar.classList.remove('show')
    overlay.classList.remove('show')
}
    </script>
    <div class="off-canvas-content">
        <div class="columns">
            <div class="column col-12 col-lg-12">
                <div class="book-navbar">
                    <!-- For Responsive Layout -->
                    <header class="navbar">
                        <section class="navbar-section">
                            <a onclick="open_sidebar()">
                                <i class="icon icon-menu"></i>
                            </a>
                        </section>
                    </header>
                </div>
                <div class="book-content" style="max-width: 960px; margin: 0 auto;
    overflow-x: auto;
    overflow-y: hidden;">
                    <div class="book-post">
                        <p id="tip" align="center"></p>
                        <div><h1>17 如何实现分布式调用跟踪？</h1>
<p>分布式服务拆分以后，系统变得日趋复杂，业务的调用链也越来越长，如何快速定位线上故障，就需要依赖分布式调用跟踪技术。下面我们一起来看下分布式调用链相关的实现。</p>
<h3>为什么需要分布式调用跟踪</h3>
<p>随着分布式服务架构的流行，特别是微服务等设计理念在系统中的应用，系统架构变得越来越分散，如下图所示。</p>
<p><img src="assets/CgqCHl7M6YaAdXpcAAF2ShT9Ssc825.png" alt="png" /></p>
<p>可以看到，随着服务的拆分，系统的模块变得越来越多，不同的模块可能由不同的团队维护，一个请求可能会涉及几十个服务的协同处理， 牵扯到多个团队的业务系统。</p>
<p>假设现在某次服务调用失败，或者出现请求超时，需要定位具体是哪个服务引起的异常，哪个环节导致的超时，就需要去每个服务里查看日志，这样的处理效率是非常低的。</p>
<p>另外，系统拆分以后，缺乏一个自上而下全局的调用 ID，如何有效地进行相关的数据分析工作呢？比如电商的活动转化率、购买率、广告系统的点击链路等。如果没有一个统一的调用 ID 来记录，只依靠业务上的主键等是很难实现的，特别是对于一些大型网站系统，如淘宝、京东等，这些问题尤其突出。</p>
<h3>分布式调用跟踪的业务场景</h3>
<p><strong>分布式调用跟踪技术</strong>就是解决上面的业务问题，即通过调用链的方式，把一次请求调用过程完整的串联起来，这样就实现了对请求调用路径的监控。</p>
<p>分布式调用链其实就是将一次分布式请求还原成<strong>调用链路</strong>，显式的在后端查看一次分布式请求的调用情况，比如各个节点上的耗时、请求具体打到了哪台机器上、每个服务节点的请求状态等。</p>
<p>一般来说，分布式调用跟踪可以应用在以下的场景中。</p>
<ul>
<li><strong>故障快速定位</strong>：通过调用链跟踪，一次请求的逻辑轨迹可以完整清晰地展示出来。在开发的过程中，可以在业务日志中添加调用链 ID，还可以通过调用链结合业务日志快速定位错误信息。</li>
<li><strong>各个调用环节的性能分析</strong>：在调用链的各个环节分别添加调用时延，并分析系统的性能瓶颈，进行针对性的优化。</li>
<li><strong>各个调用环节的可用性，持久层依赖等</strong>：通过分析各个环节的平均时延、QPS 等信息，可以找到系统的薄弱环节，对一些模块做调整，比如数据冗余等。</li>
<li><strong>数据分析等</strong>：调用链是一条完整的业务日志，可以得到用户的行为路径，并汇总分析。</li>
</ul>
<h3>分布式调用跟踪实现原理</h3>
<p>分布式链路跟踪的技术实现，主要是参考 Google 的 Dapper 论文，分布式调用跟踪是一种全链路日志，主要的设计基于 Span 日志格式，下面简单介绍这个日志结构。</p>
<p>Dapper 用 Span 来表示一个服务调用开始和结束的时间，也就是时间区间，并记录了 Span 的名称以及每个 Span 的 ID 和父 ID，如果一个 Span 没有父 ID 则被称之为 Root Span。</p>
<p>一个请求到达应用后所调用的所有服务，以及所有服务组成的调用链就像是一个树结构，追踪这个调用链路得到的树结构称之为 <strong>Trace</strong>，所有的 Span 都挂在一个特定的 Trace 上，共用一个 TraceId。</p>
<p><img src="assets/CgqCHl7M6aGALudMAAG903WelvM769.png" alt="png" /></p>
<p>在一次 Trace 中，每个服务的每一次调用，就是一个 Span，每一个 Span 都有一个 ID 作为唯一标识。同样，每一次 Trace 都会生成一个 TraceId 在 Span 中作为追踪标识，另外再通过一个 parentSpanId，标明本次调用的发起者。</p>
<p>当 Span 有了上面三个标识后，就可以很清晰地将多个 Span 进行梳理串联，最终归纳出一条完整的跟踪链路。</p>
<p>确定了日志格式以后，接下来日志如何采集和解析，日志的采集和存储有许多开源的工具可以选择。一般来说，会使用离线 + 实时的方式去存储日志，主要是分布式日志采集的方式，典型的解决方案如 Flume 结合 Kafka 等 MQ，日志存储到 HBase 等存储中，接下来就可以根据需要进行相关的展示和分析。</p>
<h3>分布式调用跟踪的选型</h3>
<p>大的互联网公司都有自己的分布式跟踪系统，比如前面介绍的 Google 的 Dapper、Twitter 的 Zipkin、淘宝的鹰眼等。</p>
<h4>Google 的 Drapper</h4>
<p>Dapper 是 Google 生产环境下的分布式跟踪系统，没有对外开源，但是 Google 发表了“Dapper - a Large-Scale Distributed Systems Tracing Infrastructure”论文，介绍了他们的分布式系统跟踪技术，所以后来的 Zipkin 和鹰眼等都借鉴了 Dapper 的设计思想。</p>
<h4>Twitter 的 Zipkin</h4>
<p>Zipkin 是一款开源的分布式实时数据追踪系统，基于 Google Dapper 的论文设计而来，由 Twitter 公司开发贡献。其主要功能是聚集来自各个异构系统的实时监控数据，用来追踪微服务架构下的系统延时问题，Zipkin 的用户界面可以呈现一幅关联图表，以显示有多少被追踪的请求通过了每一层应用。</p>
<p><img src="assets/CgqCHl7M6a-AfUnxAAGWUVm1UPY645.png" alt="png" /></p>
<h4>阿里的 EagleEye</h4>
<p>EagleEye 鹰眼系统是 Google 的分布式调用跟踪系统 Dapper 在淘宝的实现，EagleEye 没有开源。下面这段介绍来自 阿里中间件团队：</p>
<blockquote>
<p>前端请求到达服务器，应用容器在执行实际业务处理之前，会先执行 EagleEye 的埋点逻辑。埋点逻辑为这个前端请求分配一个全局唯一的调用链 ID，即 TraceId。埋点逻辑把 TraceId 放在一个调用上下文对象里面，而调用上下文对象会存储在 ThreadLocal 里面。调用上下文里还有一个 ID 非常重要，在 EagleEye 里面被称作 RpcId。RpcId 用于区分同一个调用链下的多个网络调用的发生顺序和嵌套层次关系。</p>
</blockquote>
<blockquote>
<p>当这个前端执行业务处理需要发起 RPC 调用时，RPC 调用客户端会首先从当前线程 ThreadLocal 上面获取之前 EagleEye 设置的调用上下文；然后，把 RpcId 递增一个序号；之后，调用上下文会作为附件随这次请求一起发送到下游的服务器。</p>
</blockquote>
<p>关于鹰眼的详细介绍，这里有一篇分享非常不错，即<a href="https://www.slideshare.net/terryice/eagleeye-with-taobaojavaone">鹰眼下的淘宝：分布式调用跟踪系统</a>。</p>
<h3>总结</h3>
<p>这一课时主要分享了分布式调用跟踪的应用场景、调用链的日志结构、分布式链路跟踪的选型实现等。</p>
<p>现在思考一下，了解了链路跟踪的日志格式，如果让你来设计一个调用跟踪系统，除了基本的链路跟踪功能，还需要满足哪些功能设计呢？</p>
<p>举个例子，在实际业务中，链路跟踪系统会有一个采样率配置，不会监控全部的链路，其实是考虑到对系统性能的影响。所以，作为非业务组件，应当尽可能少侵入或者无侵入其他业务系统，并且尽量少的占用系统资源。</p>
</div>
                    </div>
                    <div>
                        <div style="float: left">
                            <a href="/专栏/分布式技术原理与实战45讲-完/16 如何实现服务注册与发现？.md.html">上一页</a>
                        </div>
                        <div style="float: right">
                            <a href="/专栏/分布式技术原理与实战45讲-完/18 分布式下如何实现配置管理？.md.html">下一页</a>
                        </div>
                    </div>
                </div>
            </div>
        </div>
    </div>
    <a class="off-canvas-overlay" onclick="hide_canvas()"></a>
</div>
<script defer src="https://static.cloudflareinsights.com/beacon.min.js/v652eace1692a40cfa3763df669d7439c1639079717194" integrity="sha512-Gi7xpJR8tSkrpF7aordPZQlW2DLtzUlZcumS8dMQjwDHEnw9I7ZLyiOj/6tZStRBGtGgN6ceN6cMH8z7etPGlw==" data-cf-beacon='{"rayId":"709976b69fd83cfa","version":"2021.12.0","r":1,"token":"1f5d475227ce4f0089a7cff1ab17c0f5","si":100}' crossorigin="anonymous"></script>
</body>
<!-- Global site tag (gtag.js) - Google Analytics -->
<script async src="https://www.googletagmanager.com/gtag/js?id=G-NPSEEVD756"></script>
<script>
    window.dataLayer = window.dataLayer || [];
    function gtag() {
        dataLayer.push(arguments);
    }
    gtag('js', new Date());
    gtag('config', 'G-NPSEEVD756');
    var path = window.location.pathname
    var cookie = getCookie("lastPath");
    console.log(path)
    if (path.replace("/", "") === "") {
        if (cookie.replace("/", "") !== "") {
            console.log(cookie)
            document.getElementById("tip").innerHTML = "<a href='" + cookie + "'>跳转到上次进度</a>"
        }
    } else {
        setCookie("lastPath", path)
    }
    function setCookie(cname, cvalue) {
        var d = new Date();
        d.setTime(d.getTime() + (180 * 24 * 60 * 60 * 1000));
        var expires = "expires=" + d.toGMTString();
        document.cookie = cname + "=" + cvalue + "; " + expires + ";path = /";
    }
    function getCookie(cname) {
        var name = cname + "=";
        var ca = document.cookie.split(';');
        for (var i = 0; i < ca.length; i++) {
            var c = ca[i].trim();
            if (c.indexOf(name) === 0) return c.substring(name.length, c.length);
        }
        return "";
    }
</script>
</html>