learn.lianglianglee.com/专栏/ElasticSearch知识体系详解/13 原理：从图解构筑对ES原理的初步认知.md.html

<!DOCTYPE html>
<!-- saved from url=(0046)https://kaiiiz.github.io/hexo-theme-book-demo/ -->
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
    <head>
        <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
        <meta name="viewport" content="width=device-width, initial-scale=1, maximum-scale=1.0, user-scalable=no">
        <link rel="icon" href="/static/favicon.png">
        <title>13 原理：从图解构筑对ES原理的初步认知.md.html</title>
        <!-- Spectre.css framework -->
        <link rel="stylesheet" href="/static/index.css">
        <!-- theme css & js -->
        <meta name="generator" content="Hexo 4.2.0">
    </head>
<body>
<div class="book-container">
    <div class="book-sidebar">
        <div class="book-brand">
            <a href="/">
                <img src="/static/favicon.png">
                <span>技术文章摘抄</span>
            </a>
        </div>
        <div class="book-menu uncollapsible">
            <ul class="uncollapsible">
                <li><a href="/" class="current-tab">首页</a></li>
            </ul>
            <ul class="uncollapsible">
                <li><a href="../">上一级</a></li>
            </ul>
            <ul class="uncollapsible">
                <li>
                    <a href="/专栏/ElasticSearch知识体系详解/01 认知：ElasticSearch基础概念.md.html">01 认知：ElasticSearch基础概念</a>
                </li>
                <li>
                    <a href="/专栏/ElasticSearch知识体系详解/02 认知：Elastic Stack生态和场景方案.md.html">02 认知：Elastic Stack生态和场景方案</a>
                </li>
                <li>
                    <a href="/专栏/ElasticSearch知识体系详解/03 安装：ElasticSearch和Kibana安装.md.html">03 安装：ElasticSearch和Kibana安装</a>
                </li>
                <li>
                    <a href="/专栏/ElasticSearch知识体系详解/04 入门：查询和聚合的基础使用.md.html">04 入门：查询和聚合的基础使用</a>
                </li>
                <li>
                    <a href="/专栏/ElasticSearch知识体系详解/05 索引：索引管理详解.md.html">05 索引：索引管理详解</a>
                </li>
                <li>
                    <a href="/专栏/ElasticSearch知识体系详解/06 索引：索引模板(Index Template)详解.md.html">06 索引：索引模板(Index Template)详解</a>
                </li>
                <li>
                    <a href="/专栏/ElasticSearch知识体系详解/07 查询：DSL查询之复合查询详解.md.html">07 查询：DSL查询之复合查询详解</a>
                </li>
                <li>
                    <a href="/专栏/ElasticSearch知识体系详解/08 查询：DSL查询之全文搜索详解.md.html">08 查询：DSL查询之全文搜索详解</a>
                </li>
                <li>
                    <a href="/专栏/ElasticSearch知识体系详解/09 查询：DSL查询之Term详解.md.html">09 查询：DSL查询之Term详解</a>
                </li>
                <li>
                    <a href="/专栏/ElasticSearch知识体系详解/10 聚合：聚合查询之Bucket聚合详解.md.html">10 聚合：聚合查询之Bucket聚合详解</a>
                </li>
                <li>
                    <a href="/专栏/ElasticSearch知识体系详解/11 聚合：聚合查询之Metric聚合详解.md.html">11 聚合：聚合查询之Metric聚合详解</a>
                </li>
                <li>
                    <a href="/专栏/ElasticSearch知识体系详解/12 聚合：聚合查询之Pipline聚合详解.md.html">12 聚合：聚合查询之Pipline聚合详解</a>
                </li>
                <li>
                    <a class="current-tab" href="/专栏/ElasticSearch知识体系详解/13 原理：从图解构筑对ES原理的初步认知.md.html">13 原理：从图解构筑对ES原理的初步认知</a>

                </li>
                <li>
                    <a href="/专栏/ElasticSearch知识体系详解/14 原理：ES原理知识点补充和整体结构.md.html">14 原理：ES原理知识点补充和整体结构</a>
                </li>
                <li>
                    <a href="/专栏/ElasticSearch知识体系详解/15 原理：ES原理之索引文档流程详解.md.html">15 原理：ES原理之索引文档流程详解</a>
                </li>
                <li>
                    <a href="/专栏/ElasticSearch知识体系详解/16 原理：ES原理之读取文档流程详解.md.html">16 原理：ES原理之读取文档流程详解</a>
                </li>
                <li>
                    <a href="/专栏/ElasticSearch知识体系详解/17 优化：ElasticSearch性能优化详解.md.html">17 优化：ElasticSearch性能优化详解</a>
                </li>
                <li>
                    <a href="/专栏/ElasticSearch知识体系详解/18 大厂实践：腾讯万亿级 Elasticsearch 技术实践.md.html">18 大厂实践：腾讯万亿级 Elasticsearch 技术实践</a>
                </li>
                <li>
                    <a href="/专栏/ElasticSearch知识体系详解/19 资料：Awesome Elasticsearch.md.html">19 资料：Awesome Elasticsearch</a>
                </li>
                <li>
                    <a href="/专栏/ElasticSearch知识体系详解/20 WrapperQuery.md.html">20 WrapperQuery</a>
                </li>
                <li>
                    <a href="/专栏/ElasticSearch知识体系详解/21 备份和迁移.md.html">21 备份和迁移</a>
                </li>
            </ul>
        </div>
    </div>
    <div class="sidebar-toggle" onclick="sidebar_toggle()" onmouseover="add_inner()" onmouseleave="remove_inner()">
        <div class="sidebar-toggle-inner"></div>
    </div>
    <script>
        function add_inner() {
            let inner = document.querySelector('.sidebar-toggle-inner')
            inner.classList.add('show')
        }
        function remove_inner() {
            let inner = document.querySelector('.sidebar-toggle-inner')
            inner.classList.remove('show')
        }
        function sidebar_toggle() {
            let sidebar_toggle = document.querySelector('.sidebar-toggle')
            let sidebar = document.querySelector('.book-sidebar')
            let content = document.querySelector('.off-canvas-content')
            if (sidebar_toggle.classList.contains('extend')) { // show
                sidebar_toggle.classList.remove('extend')
                sidebar.classList.remove('hide')
                content.classList.remove('extend')
            } else { // hide
                sidebar_toggle.classList.add('extend')
                sidebar.classList.add('hide')
                content.classList.add('extend')
            }
        }
function open_sidebar() {
    let sidebar = document.querySelector('.book-sidebar')
    let overlay = document.querySelector('.off-canvas-overlay')
    sidebar.classList.add('show')
    overlay.classList.add('show')
}
function hide_canvas() {
    let sidebar = document.querySelector('.book-sidebar')
    let overlay = document.querySelector('.off-canvas-overlay')
    sidebar.classList.remove('show')
    overlay.classList.remove('show')
}
    </script>
    <div class="off-canvas-content">
        <div class="columns">
            <div class="column col-12 col-lg-12">
                <div class="book-navbar">
                    <!-- For Responsive Layout -->
                    <header class="navbar">
                        <section class="navbar-section">
                            <a onclick="open_sidebar()">
                                <i class="icon icon-menu"></i>
                            </a>
                        </section>
                    </header>
                </div>
                <div class="book-content" style="max-width: 960px; margin: 0 auto;
    overflow-x: auto;
    overflow-y: hidden;">
                    <div class="book-post">
                        <p id="tip" align="center"></p>
                        <div><h1>13 原理：从图解构筑对ES原理的初步认知</h1>
<h2>前言</h2>
<p>本文先自上而下，后自底向上的介绍ElasticSearch的底层工作原理，试图回答以下问题：</p>
<ul>
<li>为什么我的搜索 <code>*foo-bar*</code> 无法匹配 <code>foo-bar</code> ？</li>
<li>为什么增加更多的文件会压缩索引（Index）？</li>
<li>为什么ElasticSearch占用很多内存？</li>
</ul>
<p><strong>版本</strong></p>
<p>elasticsearch版本: elasticsearch-2.2.0</p>
<h2>图解ElasticSearch</h2>
<ul>
<li>云上的集群</li>
</ul>
<p><img src="assets/es-th-1-1.png" alt="img" /></p>
<ul>
<li>集群里的盒子</li>
</ul>
<p>云里面的每个白色正方形的盒子代表一个节点——Node。</p>
<p><img src="assets/es-th-1-2.png" alt="img" /></p>
<ul>
<li>节点之间</li>
</ul>
<p>在一个或者多个节点直接，多个绿色小方块组合在一起形成一个ElasticSearch的索引。</p>
<p><img src="assets/es-th-1-3.png" alt="img" /></p>
<ul>
<li>索引里的小方块</li>
</ul>
<p>在一个索引下，分布在多个节点里的绿色小方块称为分片——Shard。</p>
<p><img src="assets/es-th-1-4.png" alt="img" /></p>
<ul>
<li>Shard＝Lucene Index</li>
</ul>
<p>一个ElasticSearch的Shard本质上是一个Lucene Index。</p>
<p><img src="assets/es-th-1-5.png" alt="img" /></p>
<p>Lucene是一个Full Text 搜索库（也有很多其他形式的搜索库），ElasticSearch是建立在Lucene之上的。接下来的故事要说的大部分内容实际上是ElasticSearch如何基于Lucene工作的。</p>
<h2>图解Lucene</h2>
<h3>Segment</h3>
<ul>
<li><strong>Mini索引——segment</strong></li>
</ul>
<p>在Lucene里面有很多小的segment，我们可以把它们看成Lucene内部的mini-index。</p>
<p><img src="assets/es-th-1-6.png" alt="img" /></p>
<ul>
<li>
<p>Segment内部</p>
<p>（有着许多数据结构）</p>
<ul>
<li>Inverted Index</li>
<li>Stored Fields</li>
<li>Document Values</li>
<li>Cache</li>
</ul>
</li>
</ul>
<p><img src="assets/es-th-1-7.png" alt="img" /></p>
<h4>Inverted Index</h4>
<p>最最重要的Inverted Index</p>
<p><img src="assets/es-th-1-8.png" alt="img" /></p>
<p>Inverted Index主要包括两部分：</p>
<ul>
<li>一个有序的数据字典Dictionary（包括单词Term和它出现的频率）。</li>
<li>与单词Term对应的Postings（即存在这个单词的文件）。</li>
</ul>
<p>当我们搜索的时候，首先将搜索的内容分解，然后在字典里找到对应Term，从而查找到与搜索相关的文件内容。</p>
<p><img src="assets/es-th-1-9.png" alt="img" /></p>
<ul>
<li><strong>查询“the fury”</strong></li>
</ul>
<p><img src="assets/es-th-1-10.png" alt="img" /></p>
<ul>
<li><strong>自动补全</strong>（AutoCompletion-Prefix）</li>
</ul>
<p>如果想要查找以字母“c”开头的字母，可以简单的通过二分查找（Binary Search）在Inverted Index表中找到例如“choice”、“coming”这样的词（Term）。</p>
<p><img src="assets/es-th-1-11.png" alt="img" /></p>
<ul>
<li><strong>昂贵的查找</strong></li>
</ul>
<p>如果想要查找所有包含“our”字母的单词，那么系统会扫描整个Inverted Index，这是非常昂贵的。</p>
<p><img src="assets/es-th-1-12.png" alt="img" /></p>
<p>在此种情况下，如果想要做优化，那么我们面对的问题是如何生成合适的Term。</p>
<ul>
<li><strong>问题的转化</strong></li>
</ul>
<p><img src="assets/es-th-1-13.png" alt="img" /></p>
<p>对于以上诸如此类的问题，我们可能会有几种可行的解决方案：</p>
<ol>
<li><code>* suffix -&gt; xiffus *</code></li>
</ol>
<p>如果我们想以后缀作为搜索条件，可以为Term做反向处理。</p>
<ol>
<li><code>(60.6384, 6.5017) -&gt; u4u8gyykk</code></li>
</ol>
<p>对于GEO位置信息，可以将它转换为GEO Hash。</p>
<ol>
<li><code>123 -&gt; {1-hundreds, 12-tens, 123}</code></li>
</ol>
<p>对于简单的数字，可以为它生成多重形式的Term。</p>
<ul>
<li><strong>解决拼写错误</strong></li>
</ul>
<p>一个Python库 为单词生成了一个包含错误拼写信息的树形状态机，解决拼写错误的问题。</p>
<p><img src="assets/es-th-1-14.png" alt="img" /></p>
<h4>Stored Field字段查找</h4>
<p>当我们想要查找包含某个特定标题内容的文件时，Inverted Index就不能很好的解决这个问题，所以Lucene提供了另外一种数据结构Stored Fields来解决这个问题。本质上，Stored Fields是一个简单的键值对key-value。默认情况下，ElasticSearch会存储整个文件的JSON source。</p>
<p><img src="assets/es-th-1-15.png" alt="img" /></p>
<h4>Document Values为了排序，聚合</h4>
<p>即使这样，我们发现以上结构仍然无法解决诸如：排序、聚合、facet，因为我们可能会要读取大量不需要的信息。</p>
<p>所以，另一种数据结构解决了此种问题：Document Values。这种结构本质上就是一个列式的存储，它高度优化了具有相同类型的数据的存储结构。</p>
<p><img src="assets/es-th-1-16.png" alt="img" /></p>
<p>为了提高效率，ElasticSearch可以将索引下某一个Document Value全部读取到内存中进行操作，这大大提升访问速度，但是也同时会消耗掉大量的内存空间。</p>
<p>总之，这些数据结构Inverted Index、Stored Fields、Document Values及其缓存，都在segment内部。</p>
<h3>搜索发生时</h3>
<p>搜索时，Lucene会搜索所有的segment然后将每个segment的搜索结果返回，最后合并呈现给客户。</p>
<p>Lucene的一些特性使得这个过程非常重要：</p>
<ul>
<li>Segments是不可变的（immutable）
<ul>
<li>Delete? 当删除发生时，Lucene做的只是将其标志位置为删除，但是文件还是会在它原来的地方，不会发生改变</li>
<li>Update? 所以对于更新来说，本质上它做的工作是：先删除，然后重新索引（Re-index）</li>
</ul>
</li>
<li>随处可见的压缩
<ul>
<li>Lucene非常擅长压缩数据，基本上所有教科书上的压缩方式，都能在Lucene中找到。</li>
</ul>
</li>
<li>缓存所有的所有
<ul>
<li>Lucene也会将所有的信息做缓存，这大大提高了它的查询效率。</li>
</ul>
</li>
</ul>
<h3>缓存的故事</h3>
<p>当ElasticSearch索引一个文件的时候，会为文件建立相应的缓存，并且会定期（每秒）刷新这些数据，然后这些文件就可以被搜索到。</p>
<p><img src="assets/es-th-1-17.png" alt="img" /></p>
<p>随着时间的增加，我们会有很多segments，</p>
<p><img src="assets/es-th-1-18.png" alt="img" /></p>
<p>所以ElasticSearch会将这些segment合并，在这个过程中，segment会最终被删除掉</p>
<p><img src="assets/es-th-1-19.png" alt="img" /></p>
<p>这就是为什么增加文件可能会使索引所占空间变小，它会引起merge，从而可能会有更多的压缩。</p>
<ul>
<li><strong>举个栗子</strong></li>
</ul>
<p>有两个segment将会merge</p>
<p><img src="assets/es-th-1-20.png" alt="img" /></p>
<p>这两个segment最终会被删除，然后合并成一个新的segment</p>
<p><img src="assets/es-th-1-21.png" alt="img" /></p>
<p>这时这个新的segment在缓存中处于cold状态，但是大多数segment仍然保持不变，处于warm状态。</p>
<p>以上场景经常在Lucene Index内部发生的。</p>
<p><img src="assets/es-th-1-22.png" alt="img" /></p>
<h3>在Shard中搜索</h3>
<p>ElasticSearch从Shard中搜索的过程与Lucene Segment中搜索的过程类似。</p>
<p><img src="assets/es-th-1-23.png" alt="img" /></p>
<p>与在Lucene Segment中搜索不同的是，Shard可能是分布在不同Node上的，所以在搜索与返回结果时，所有的信息都会通过网络传输。</p>
<p>需要注意的是：</p>
<p>1次搜索查找2个shard ＝ 2次分别搜索shard</p>
<p><img src="assets/es-th-1-24.png" alt="img" /></p>
<ul>
<li><strong>对于日志文件的处理</strong></li>
</ul>
<p>当我们想搜索特定日期产生的日志时，通过根据时间戳对日志文件进行分块与索引，会极大提高搜索效率。</p>
<p>当我们想要删除旧的数据时也非常方便，只需删除老的索引即可。</p>
<p><img src="assets/es-th-1-25.png" alt="img" /></p>
<p>在上种情况下，每个index有两个shards</p>
<ul>
<li><strong>如何Scale</strong></li>
</ul>
<p><img src="assets/es-th-1-26.png" alt="img" /></p>
<p>shard不会进行更进一步的拆分，但是shard可能会被转移到不同节点上</p>
<p><img src="assets/es-th-1-27.png" alt="img" /></p>
<p>所以，如果当集群节点压力增长到一定的程度，我们可能会考虑增加新的节点，这就会要求我们对所有数据进行重新索引，这是我们不太希望看到的，所以我们需要在规划的时候就考虑清楚，如何去平衡足够多的节点与不足节点之间的关系。</p>
<ul>
<li>节点分配与Shard优化
<ul>
<li>为更重要的数据索引节点，分配性能更好的机器</li>
<li>确保每个shard都有副本信息replica</li>
</ul>
</li>
</ul>
<p><img src="assets/es-th-1-28.png" alt="img" /></p>
<ul>
<li><strong>路由Routing</strong></li>
</ul>
<p>每个节点，每个都存留一份路由表，所以当请求到任何一个节点时，ElasticSearch都有能力将请求转发到期望节点的shard进一步处理。</p>
<p><img src="assets/es-th-1-29.png" alt="img" /></p>
<h2>一个真实的请求</h2>
<p><img src="assets/es-th-1-30.png" alt="img" /></p>
<ul>
<li><strong>Query</strong></li>
</ul>
<p><img src="assets/es-th-1-31.png" alt="img" /></p>
<p>Query有一个类型filtered，以及一个multi_match的查询</p>
<ul>
<li><strong>Aggregation</strong></li>
</ul>
<p><img src="assets/es-th-1-32.png" alt="img" /></p>
<p>根据作者进行聚合，得到top10的hits的top10作者的信息</p>
<ul>
<li><strong>请求分发</strong></li>
</ul>
<p>这个请求可能被分发到集群里的任意一个节点</p>
<p><img src="assets/es-th-1-33.png" alt="img" /></p>
<ul>
<li><strong>上帝节点</strong></li>
</ul>
<p><img src="assets/es-th-1-34.png" alt="img" /></p>
<p>这时这个节点就成为当前请求的协调者（Coordinator），它决定： a) 根据索引信息，判断请求会被路由到哪个核心节点 b) 以及哪个副本是可用的 c) 等等</p>
<ul>
<li><strong>路由</strong></li>
</ul>
<p><img src="assets/es-th-1-35.png" alt="img" /></p>
<ul>
<li><strong>在真实搜索之前</strong></li>
</ul>
<p>ElasticSearch 会将Query转换成Lucene Query</p>
<p><img src="assets/es-th-1-36.png" alt="img" /></p>
<p>然后在所有的segment中执行计算</p>
<p><img src="assets/es-th-1-37.png" alt="img" /></p>
<p>对于Filter条件本身也会有缓存</p>
<p><img src="assets/es-th-1-38.png" alt="img" /></p>
<p>但queries不会被缓存，所以如果相同的Query重复执行，应用程序自己需要做缓存</p>
<p><img src="assets/es-th-1-39.png" alt="img" /></p>
<p>所以，</p>
<p>a) filters可以在任何时候使用 b) query只有在需要score的时候才使用</p>
<ul>
<li><strong>返回</strong></li>
</ul>
<p>搜索结束之后，结果会沿着下行的路径向上逐层返回。</p>
<p><img src="assets/es-th-1-40.png" alt="img" /></p>
<p><img src="assets/es-th-1-41.png" alt="img" /></p>
<p><img src="assets/es-th-1-42.png" alt="img" /></p>
<p><img src="assets/es-th-1-43.png" alt="img" /></p>
<p><img src="assets/es-th-1-44.png" alt="img" /></p>
<h2>参考来源</h2>
<p>SlideShare: Elasticsearch From the Bottom Up</p>
<p>Youtube: Elasticsearch from the bottom up</p>
<p>Wiki: Document-term matrix</p>
<p>Wiki: Search engine indexing</p>
<p>Skip list</p>
<p>Standford Edu: Faster postings list intersection via skip pointers</p>
<p>StackOverflow: how an search index works when querying many words?</p>
<p>StackOverflow: how does lucene calculate intersection of documents so fast?</p>
<p>Lucene and its magical indexes</p>
<p>misspellings 2.0c: A tool to detect misspellings</p>
</div>
                    </div>
                    <div>
                        <div style="float: left">
                            <a href="/专栏/ElasticSearch知识体系详解/12 聚合：聚合查询之Pipline聚合详解.md.html">上一页</a>
                        </div>
                        <div style="float: right">
                            <a href="/专栏/ElasticSearch知识体系详解/14 原理：ES原理知识点补充和整体结构.md.html">下一页</a>
                        </div>
                    </div>
                </div>
            </div>
        </div>
    </div>
    <a class="off-canvas-overlay" onclick="hide_canvas()"></a>
</div>
<script defer src="https://static.cloudflareinsights.com/beacon.min.js/v652eace1692a40cfa3763df669d7439c1639079717194" integrity="sha512-Gi7xpJR8tSkrpF7aordPZQlW2DLtzUlZcumS8dMQjwDHEnw9I7ZLyiOj/6tZStRBGtGgN6ceN6cMH8z7etPGlw==" data-cf-beacon='{"rayId":"70996fa7ebf03d60","version":"2021.12.0","r":1,"token":"1f5d475227ce4f0089a7cff1ab17c0f5","si":100}' crossorigin="anonymous"></script>
</body>
<!-- Global site tag (gtag.js) - Google Analytics -->
<script async src="https://www.googletagmanager.com/gtag/js?id=G-NPSEEVD756"></script>
<script>
    window.dataLayer = window.dataLayer || [];
    function gtag() {
        dataLayer.push(arguments);
    }
    gtag('js', new Date());
    gtag('config', 'G-NPSEEVD756');
    var path = window.location.pathname
    var cookie = getCookie("lastPath");
    console.log(path)
    if (path.replace("/", "") === "") {
        if (cookie.replace("/", "") !== "") {
            console.log(cookie)
            document.getElementById("tip").innerHTML = "<a href='" + cookie + "'>跳转到上次进度</a>"
        }
    } else {
        setCookie("lastPath", path)
    }
    function setCookie(cname, cvalue) {
        var d = new Date();
        d.setTime(d.getTime() + (180 * 24 * 60 * 60 * 1000));
        var expires = "expires=" + d.toGMTString();
        document.cookie = cname + "=" + cvalue + "; " + expires + ";path = /";
    }
    function getCookie(cname) {
        var name = cname + "=";
        var ca = document.cookie.split(';');
        for (var i = 0; i < ca.length; i++) {
            var c = ca[i].trim();
            if (c.indexOf(name) === 0) return c.substring(name.length, c.length);
        }
        return "";
    }
</script>
</html>