CategoryResourceRepost/极客时间专栏/数据结构与算法之美/基础篇/06 | 链表(上):如何实现LRU缓存淘汰算法?.md
louzefeng d3828a7aee mod
2024-07-11 05:50:32 +00:00

158 lines
17 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

<audio id="audio" title="06 | 链表如何实现LRU缓存淘汰算法?" controls="" preload="none"><source id="mp3" src="https://static001.geekbang.org/resource/audio/02/2e/02fa8c4e41a0749858fb98d4b7c29f2e.mp3"></audio>
今天我们来聊聊“链表Linked list”这个数据结构。学习链表有什么用呢为了回答这个问题我们先来讨论一个经典的链表应用场景那就是LRU缓存淘汰算法。
缓存是一种提高数据读取性能的技术在硬件设计、软件开发中都有着非常广泛的应用比如常见的CPU缓存、数据库缓存、浏览器缓存等等。
缓存的大小有限当缓存被用满时哪些数据应该被清理出去哪些数据应该被保留这就需要缓存淘汰策略来决定。常见的策略有三种先进先出策略FIFOFirst InFirst Out、最少使用策略LFULeast Frequently Used、最近最少使用策略LRULeast Recently Used
这些策略你不用死记,我打个比方你很容易就明白了。假如说,你买了很多本技术书,但有一天你发现,这些书太多了,太占书房空间了,你要做个大扫除,扔掉一些书籍。那这个时候,你会选择扔掉哪些书呢?对应一下,你的选择标准是不是和上面的三种策略神似呢?
好了,回到正题,我们今天的开篇问题就是:**如何用链表来实现LRU缓存淘汰策略呢** 带着这个问题,我们开始今天的内容吧!
## 五花八门的链表结构
相比数组,链表是一种稍微复杂一点的数据结构。对于初学者来说,掌握起来也要比数组稍难一些。这两个非常基础、非常常用的数据结构,我们常常会放到一块儿来比较。所以我们先来看,这两者有什么区别。
我们先从**底层的存储结构**上来看一看。
为了直观地对比,我画了一张图。从图中我们看到,数组需要一块**连续的内存空间**来存储对内存的要求比较高。如果我们申请一个100MB大小的数组当内存中没有连续的、足够大的存储空间时即便内存的剩余总可用空间大于100MB仍然会申请失败。
而链表恰恰相反,它并不需要一块连续的内存空间,它通过“指针”将一组**零散的内存块**串联起来使用所以如果我们申请的是100MB大小的链表根本不会有问题。
<img src="https://static001.geekbang.org/resource/image/d5/cd/d5d5bee4be28326ba3c28373808a62cd.jpg" alt="">
链表结构五花八门,今天我重点给你介绍三种最常见的链表结构,它们分别是:单链表、双向链表和循环链表。我们首先来看最简单、最常用的**单链表**。
我们刚刚讲到,链表通过指针将一组零散的内存块串联在一起。其中,我们把内存块称为链表的“**结点**”。为了将所有的结点串起来,每个链表的结点除了存储数据之外,还需要记录链上的下一个结点的地址。如图所示,我们把这个记录下个结点地址的指针叫作**后继指针next**。
<img src="https://static001.geekbang.org/resource/image/b9/eb/b93e7ade9bb927baad1348d9a806ddeb.jpg" alt="">
从我画的单链表图中,你应该可以发现,其中有两个结点是比较特殊的,它们分别是第一个结点和最后一个结点。我们习惯性地把第一个结点叫作**头结点**,把最后一个结点叫作**尾结点**。其中,头结点用来记录链表的基地址。有了它,我们就可以遍历得到整条链表。而尾结点特殊的地方是:指针不是指向下一个结点,而是指向一个**空地址NULL**,表示这是链表上最后一个结点。
与数组一样,链表也支持数据的查找、插入和删除操作。
我们知道在进行数组的插入、删除操作时为了保持内存数据的连续性需要做大量的数据搬移所以时间复杂度是O(n)。而在链表中插入或者删除一个数据,我们并不需要为了保持内存的连续性而搬移结点,因为链表的存储空间本身就不是连续的。所以,在链表中插入和删除一个数据是非常快速的。
为了方便你理解我画了一张图从图中我们可以看出针对链表的插入和删除操作我们只需要考虑相邻结点的指针改变所以对应的时间复杂度是O(1)。
<img src="https://static001.geekbang.org/resource/image/45/17/452e943788bdeea462d364389bd08a17.jpg" alt="">
但是有利就有弊。链表要想随机访问第k个元素就没有数组那么高效了。因为链表中的数据并非连续存储的所以无法像数组那样根据首地址和下标通过寻址公式就能直接计算出对应的内存地址而是需要根据指针一个结点一个结点地依次遍历直到找到相应的结点。
你可以把链表想象成一个队伍队伍中的每个人都只知道自己后面的人是谁所以当我们希望知道排在第k位的人是谁的时候我们就需要从第一个人开始一个一个地往下数。所以链表随机访问的性能没有数组好需要O(n)的时间复杂度。
好了,单链表我们就简单介绍完了,接着来看另外两个复杂的升级版,**循环链表**和**双向链表**。
**循环链表是一种特殊的单链表**。实际上,循环链表也很简单。它跟单链表唯一的区别就在尾结点。我们知道,单链表的尾结点指针指向空地址,表示这就是最后的结点了。而循环链表的尾结点指针是指向链表的头结点。从我画的循环链表图中,你应该可以看出来,它像一个环一样首尾相连,所以叫作“循环”链表。
<img src="https://static001.geekbang.org/resource/image/86/55/86cb7dc331ea958b0a108b911f38d155.jpg" alt="">
和单链表相比,**循环链表**的优点是从链尾到链头比较方便。当要处理的数据具有环型结构特点时,就特别适合采用循环链表。比如著名的[约瑟夫问题](https://zh.wikipedia.org/wiki/%E7%BA%A6%E7%91%9F%E5%A4%AB%E6%96%AF%E9%97%AE%E9%A2%98)。尽管用单链表也可以实现,但是用循环链表实现的话,代码就会简洁很多。
单链表和循环链表是不是都不难?接下来我们再来看一个稍微复杂的,在实际的软件开发中,也更加常用的链表结构:**双向链表**。
单向链表只有一个方向结点只有一个后继指针next指向后面的结点。而双向链表顾名思义它支持两个方向每个结点不止有一个后继指针next指向后面的结点还有一个前驱指针prev指向前面的结点。
<img src="https://static001.geekbang.org/resource/image/cb/0b/cbc8ab20276e2f9312030c313a9ef70b.jpg" alt="">
从我画的图中可以看出来,双向链表需要额外的两个空间来存储后继结点和前驱结点的地址。所以,如果存储同样多的数据,双向链表要比单链表占用更多的内存空间。虽然两个指针比较浪费存储空间,但可以支持双向遍历,这样也带来了双向链表操作的灵活性。那相比单链表,双向链表适合解决哪种问题呢?
从结构上来看双向链表可以支持O(1)时间复杂度的情况下找到前驱结点,正是这样的特点,也使双向链表在某些情况下的插入、删除等操作都要比单链表简单、高效。
你可能会说我刚讲到单链表的插入、删除操作的时间复杂度已经是O(1)了,双向链表还能再怎么高效呢?别着急,刚刚的分析比较偏理论,很多数据结构和算法书籍中都会这么讲,但是这种说法实际上是不准确的,或者说是有先决条件的。我再来带你分析一下链表的两个操作。
我们先来看**删除操作**。
在实际的软件开发中,从链表中删除一个数据无外乎这两种情况:
<li>
删除结点中“值等于某个给定值”的结点;
</li>
<li>
删除给定指针指向的结点。
</li>
对于第一种情况,不管是单链表还是双向链表,为了查找到值等于给定值的结点,都需要从头结点开始一个一个依次遍历对比,直到找到值等于给定值的结点,然后再通过我前面讲的指针操作将其删除。
尽管单纯的删除操作时间复杂度是O(1)但遍历查找的时间是主要的耗时点对应的时间复杂度为O(n)。根据时间复杂度分析中的加法法则删除值等于给定值的结点对应的链表操作的总时间复杂度为O(n)。
对于第二种情况我们已经找到了要删除的结点但是删除某个结点q需要知道其前驱结点而单链表并不支持直接获取前驱结点所以为了找到前驱结点我们还是要从头结点开始遍历链表直到p-&gt;next=q说明p是q的前驱结点。
但是对于双向链表来说这种情况就比较有优势了。因为双向链表中的结点已经保存了前驱结点的指针不需要像单链表那样遍历。所以针对第二种情况单链表删除操作需要O(n)的时间复杂度而双向链表只需要在O(1)的时间复杂度内就搞定了!
同理如果我们希望在链表的某个指定结点前面插入一个结点双向链表比单链表有很大的优势。双向链表可以在O(1)时间复杂度搞定而单向链表需要O(n)的时间复杂度。你可以参照我刚刚讲过的删除操作自己分析一下。
除了插入、删除操作有优势之外对于一个有序链表双向链表的按值查询的效率也要比单链表高一些。因为我们可以记录上次查找的位置p每次查询时根据要查找的值与p的大小关系决定是往前还是往后查找所以平均只需要查找一半的数据。
现在你有没有觉得双向链表要比单链表更加高效呢这就是为什么在实际的软件开发中双向链表尽管比较费内存但还是比单链表的应用更加广泛的原因。如果你熟悉Java语言你肯定用过LinkedHashMap这个容器。如果你深入研究LinkedHashMap的实现原理就会发现其中就用到了双向链表这种数据结构。
实际上,这里有一个更加重要的知识点需要你掌握,那就是**用空间换时间**的设计思想。当内存空间充足的时候,如果我们更加追求代码的执行速度,我们就可以选择空间复杂度相对较高、但时间复杂度相对很低的算法或者数据结构。相反,如果内存比较紧缺,比如代码跑在手机或者单片机上,这个时候,就要反过来用时间换空间的设计思路。
还是开篇缓存的例子。缓存实际上就是利用了空间换时间的设计思想。如果我们把数据存储在硬盘上,会比较节省内存,但每次查找数据都要询问一次硬盘,会比较慢。但如果我们通过缓存技术,事先将数据加载在内存中,虽然会比较耗费内存空间,但是每次数据查询的速度就大大提高了。
所以我总结一下,对于执行较慢的程序,可以通过消耗更多的内存(空间换时间)来进行优化;而消耗过多内存的程序,可以通过消耗更多的时间(时间换空间)来降低内存的消耗。你还能想到其他时间换空间或者空间换时间的例子吗?
了解了循环链表和双向链表,如果把这两种链表整合在一起就是一个新的版本:**双向循环链表**。我想不用我多讲,你应该知道双向循环链表长什么样子了吧?你可以自己试着在纸上画一画。
<img src="https://static001.geekbang.org/resource/image/d1/91/d1665043b283ecdf79b157cfc9e5ed91.jpg" alt="">
## 链表VS数组性能大比拼
通过前面内容的学习,你应该已经知道,数组和链表是两种截然不同的内存组织方式。正是因为内存存储的区别,它们插入、删除、随机访问操作的时间复杂度正好相反。
<img src="https://static001.geekbang.org/resource/image/4f/68/4f63e92598ec2551069a0eef69db7168.jpg" alt="">
不过,数组和链表的对比,并不能局限于时间复杂度。而且,在实际的软件开发中,不能仅仅利用复杂度分析就决定使用哪个数据结构来存储数据。
数组简单易用在实现上使用的是连续的内存空间可以借助CPU的缓存机制预读数组中的数据所以访问效率更高。而链表在内存中并不是连续存储所以对CPU缓存不友好没办法有效预读。
数组的缺点是大小固定一经声明就要占用整块连续内存空间。如果声明的数组过大系统可能没有足够的连续内存空间分配给它导致“内存不足out of memory”。如果声明的数组过小则可能出现不够用的情况。这时只能再申请一个更大的内存空间把原数组拷贝进去非常费时。链表本身没有大小的限制天然地支持动态扩容我觉得这也是它与数组最大的区别。
你可能会说我们Java中的ArrayList容器也可以支持动态扩容啊我们上一节课讲过当我们往支持动态扩容的数组中插入一个数据时如果数组中没有空闲空间了就会申请一个更大的空间将数据拷贝过去而数据拷贝的操作是非常耗时的。
我举一个稍微极端的例子。如果我们用ArrayList存储了了1GB大小的数据这个时候已经没有空闲空间了当我们再插入数据的时候ArrayList会申请一个1.5GB大小的存储空间并且把原来那1GB的数据拷贝到新申请的空间上。听起来是不是就很耗时
除此之外如果你的代码对内存的使用非常苛刻那数组就更适合你。因为链表中的每个结点都需要消耗额外的存储空间去存储一份指向下一个结点的指针所以内存消耗会翻倍。而且对链表进行频繁的插入、删除操作还会导致频繁的内存申请和释放容易造成内存碎片如果是Java语言就有可能会导致频繁的GCGarbage Collection垃圾回收
所以,在我们实际的开发中,针对不同类型的项目,要根据具体情况,权衡究竟是选择数组还是链表。
## 解答开篇
好了关于链表的知识我们就讲完了。我们现在回过头来看下开篇留给你的思考题。如何基于链表实现LRU缓存淘汰算法
我的思路是这样的:我们维护一个有序单链表,越靠近链表尾部的结点是越早之前访问的。当有一个新的数据被访问时,我们从链表头开始顺序遍历链表。
1.如果此数据之前已经被缓存在链表中了,我们遍历得到这个数据对应的结点,并将其从原来的位置删除,然后再插入到链表的头部。
2.如果此数据没有在缓存链表中,又可以分为两种情况:
<li>
如果此时缓存未满,则将此结点直接插入到链表的头部;
</li>
<li>
如果此时缓存已满,则链表尾结点删除,将新的数据结点插入链表的头部。
</li>
这样我们就用链表实现了一个LRU缓存是不是很简单
现在我们来看下缓存访问的时间复杂度是多少。因为不管缓存有没有满我们都需要遍历一遍链表所以这种基于链表的实现思路缓存访问的时间复杂度为O(n)。
实际上,我们可以继续优化这个实现思路,比如引入**散列表**Hash table来记录每个数据的位置将缓存访问的时间复杂度降到O(1)。因为要涉及我们还没有讲到的数据结构,所以这个优化方案,我现在就不详细说了,等讲到散列表的时候,我会再拿出来讲。
除了基于链表的实现思路实际上还可以用数组来实现LRU缓存淘汰策略。如何利用数组实现LRU缓存淘汰策略呢我把这个问题留给你思考。
## 内容小结
今天我们讲了一种跟数组“相反”的数据结构,链表。它跟数组一样,也是非常基础、非常常用的数据结构。不过链表要比数组稍微复杂,从普通的单链表衍生出来好几种链表结构,比如双向链表、循环链表、双向循环链表。
和数组相比,链表更适合插入、删除操作频繁的场景,查询的时间复杂度较高。不过,在具体软件开发中,要对数组和链表的各种性能进行对比,综合来选择使用两者中的哪一个。
## 课后思考
如何判断一个字符串是否是回文字符串的问题,我想你应该听过,我们今天的题目就是基于这个问题的改造版本。如果字符串是通过单链表来存储的,那该如何来判断是一个回文串呢?你有什么好的解决思路呢?相应的时间空间复杂度又是多少呢?
欢迎留言和我分享,我会第一时间给你反馈。
我已将本节内容相关的详细代码更新到GitHub[戳此](https://github.com/wangzheng0822/algo)即可查看。