mirror of
https://github.com/cheetahlou/CategoryResourceRepost.git
synced 2026-05-11 04:04:34 +08:00
mod
This commit is contained in:
71
极客时间专栏/数据结构与算法之美/入门篇/01 | 为什么要学习数据结构和算法?.md
Normal file
71
极客时间专栏/数据结构与算法之美/入门篇/01 | 为什么要学习数据结构和算法?.md
Normal file
@@ -0,0 +1,71 @@
|
||||
<audio id="audio" title="01 | 为什么要学习数据结构和算法?" controls="" preload="none"><source id="mp3" src="https://static001.geekbang.org/resource/audio/17/d2/178e781ea241ea338afda766501c5cd2.mp3"></audio>
|
||||
|
||||
你是不是觉得数据结构和算法,跟操作系统、计算机网络一样,是脱离实际工作的知识?可能除了面试,这辈子也用不着?
|
||||
|
||||
尽管计算机相关专业的同学在大学都学过这门课程,甚至很多培训机构也会培训这方面的知识,但是据我了解,很多程序员对数据结构和算法依旧一窍不通。还有一些人也只听说过数组、链表、快排这些最最基本的数据结构和算法,稍微复杂一点的就完全没概念。
|
||||
|
||||
当然,也有很多人说,自己实际工作中根本用不到数据结构和算法。所以,就算不懂这块知识,只要Java API、开发框架用得熟练,照样可以把代码写得“飞”起来。事实真的是这样吗?
|
||||
|
||||
今天我们就来详细聊一聊,为什么要学习数据结构和算法。
|
||||
|
||||
## 想要通关大厂面试,千万别让数据结构和算法拖了后腿
|
||||
|
||||
很多大公司,比如BAT、Google、Facebook,面试的时候都喜欢考算法、让人现场写代码。有些人虽然技术不错,但每次去面试都会“跪”在算法上,很是可惜。那你有没有想过,为什么这些大公司都喜欢考算法呢?
|
||||
|
||||
校招的时候,参加面试的学生通常没有实际项目经验,公司只能考察他们的基础知识是否牢固。社招就更不用说了,越是厉害的公司,越是注重考察数据结构与算法这类基础知识。相比短期能力,他们更看中你的长期潜力。
|
||||
|
||||
你可能要说了,我不懂数据结构与算法,照样找到了好工作啊。那我是不是就不用学数据结构和算法呢?当然不是,你别忘了,**我们学任何知识都是为了“用”的,是为了解决实际工作问题的**,学习数据结构和算法自然也不例外。
|
||||
|
||||
## 业务开发工程师,你真的愿意做一辈子CRUD boy吗?
|
||||
|
||||
如果你是一名业务开发工程师,你可能要说,我整天就是做数据库CRUD(增删改查),哪里用得到数据结构和算法啊?
|
||||
|
||||
是的,对于大部分业务开发来说,我们平时可能更多的是利用已经封装好的现成的接口、类库来堆砌、翻译业务逻辑,很少需要自己实现数据结构和算法。但是,**不需要自己实现,并不代表什么都不需要了解**。
|
||||
|
||||
如果不知道这些类库背后的原理,不懂得时间、空间复杂度分析,你如何能用好、用对它们?存储某个业务数据的时候,你如何知道应该用ArrayList,还是Linked List呢?调用了某个函数之后,你又该如何评估代码的性能和资源的消耗呢?
|
||||
|
||||
作为业务开发,我们会用到各种框架、中间件和底层系统,比如Spring、RPC框架、消息中间件、Redis等等。**在这些基础框架中,一般都揉和了很多基础数据结构和算法的设计思想。**
|
||||
|
||||
比如,我们常用的Key-Value数据库Redis中,里面的有序集合是用什么数据结构来实现的呢?为什么要用跳表来实现呢?为什么不用二叉树呢?
|
||||
|
||||
如果你能弄明白这些底层原理,你就能更好地使用它们。即便出现问题,也很容易就能定位。因此,**掌握数据结构和算法,不管对于阅读框架源码,还是理解其背后的设计思想,都是非常有用的。**
|
||||
|
||||
在平时的工作中,数据结构和算法的应用到处可见。我来举一个你非常熟悉的例子:如何实时地统计业务接口的99%响应时间?
|
||||
|
||||
你可能最先想到,每次查询时,从小到大排序所有的响应时间,如果总共有1200个数据,那第1188个数据就是99%的响应时间。很显然,每次用这个方法查询的话都要排序,效率是非常低的。但是,如果你知道“堆”这个数据结构,用两个堆可以非常高效地解决这个问题。
|
||||
|
||||
## 基础架构研发工程师,写出达到开源水平的框架才是你的目标!
|
||||
|
||||
现在互联网上的技术文章、架构分享、开源项目满天飞,照猫画虎做一套基础框架并不难。我就拿RPC框架举例。
|
||||
|
||||
不同的公司、不同的人做出的RPC框架,架构设计思路都差不多,最后实现的功能也都差不多。但是有的人做出来的框架,Bug很多、性能一般、扩展性也不好,只能在自己公司仅有的几个项目里面用一下。而有的人做的框架可以开源到GitHub上给很多人用,甚至被Apache收录。为什么会有这么大的差距呢?
|
||||
|
||||
我觉得,高手之间的竞争其实就在细节。这些细节包括:你用的算法是不是够优化,数据存取的效率是不是够高,内存是不是够节省等等。这些累积起来,决定了一个框架是不是优秀。所以,如果你还不懂数据结构和算法,没听说过大O复杂度分析,不知道怎么分析代码的时间复杂度和空间复杂度,那肯定说不过去了,赶紧来补一补吧!
|
||||
|
||||
## 对编程还有追求?不想被行业淘汰?那就不要只会写凑合能用的代码!
|
||||
|
||||
何为编程能力强?是代码的可读性好、健壮?还是扩展性好?我觉得没法列,也列不全。但是,在我看来,**性能好坏起码是其中一个非常重要的评判标准**。但是,如果你连代码的时间复杂度、空间复杂度都不知道怎么分析,怎么写出高性能的代码呢?
|
||||
|
||||
你可能会说,我在小公司工作,用户量很少,需要处理的数据量也很少,开发中不需要考虑那么多性能的问题,完成功能就可以,用什么数据结构和算法,差别根本不大。但是你真的想“十年如一日”地做一样的工作吗?
|
||||
|
||||
经常有人说,程序员35岁之后很容易陷入瓶颈,被行业淘汰,我觉得原因其实就在此。有的人写代码的时候,从来都不考虑非功能性的需求,只是完成功能,凑合能用就好;做事情的时候,也从来没有长远规划,只把眼前事情做好就满足了。
|
||||
|
||||
我曾经面试过很多大龄候选人,简历能写十几页,经历的项目有几十个,但是细看下来,每个项目都是重复地堆砌业务逻辑而已,完全没有难度递进,看不出有能力提升。久而久之,十年的积累可能跟一年的积累没有任何区别。这样的人,怎么不会被行业淘汰呢?
|
||||
|
||||
如果你在一家成熟的公司,或者BAT这样的大公司,面对的是千万级甚至亿级的用户,开发的是TB、PB级别数据的处理系统。性能几乎是开发过程中时刻都要考虑的问题。一个简单的ArrayList、Linked List的选择问题,就可能会产生成千上万倍的性能差别。这个时候,数据结构和算法的意义就完全凸显出来了。
|
||||
|
||||
其实,我觉得,数据结构和算法这个东西,如果你不去学,可能真的这辈子都用不到,也感受不到它的好。但是一旦掌握,你就会常常被它的强大威力所折服。之前你可能需要费很大劲儿来优化的代码,需要花很多心思来设计的架构,用了数据结构和算法之后,很容易就可以解决了。
|
||||
|
||||
## 内容小结
|
||||
|
||||
我们学习数据结构和算法,并不是为了死记硬背几个知识点。我们的目的是建立时间复杂度、空间复杂度意识,写出高质量的代码,能够设计基础架构,提升编程技能,训练逻辑思维,积攒人生经验,以此获得工作回报,实现你的价值,完善你的人生。
|
||||
|
||||
所以,不管你是业务开发工程师,还是基础架构工程师;不管你是初入职场的初级工程师,还是工作多年的资深架构师,又或者是想转人工智能、区块链这些热门领域的程序员,数据结构与算法作为计算机的基础知识、核心知识,都是必须要掌握的。
|
||||
|
||||
**掌握了数据结构与算法,你看待问题的深度,解决问题的角度就会完全不一样**。因为这样的你,就像是站在巨人的肩膀上,拿着生存利器行走世界。数据结构与算法,会为你的编程之路,甚至人生之路打开一扇通往新世界的大门。
|
||||
|
||||
## 课后思考
|
||||
|
||||
你为什么要学习数据结构和算法呢?在过去的软件开发中,数据结构和算法在哪些地方帮到了你?
|
||||
|
||||
欢迎留言和我分享,我会第一时间给你反馈。如果你的朋友也在学习算法这个问题上犹豫不决,欢迎你把这篇文章分享给他!
|
||||
132
极客时间专栏/数据结构与算法之美/入门篇/02 | 如何抓住重点,系统高效地学习数据结构与算法?.md
Normal file
132
极客时间专栏/数据结构与算法之美/入门篇/02 | 如何抓住重点,系统高效地学习数据结构与算法?.md
Normal file
@@ -0,0 +1,132 @@
|
||||
<audio id="audio" title="02 | 如何抓住重点,系统高效地学习数据结构与算法?" controls="" preload="none"><source id="mp3" src="https://static001.geekbang.org/resource/audio/4f/ba/4fdf0dfae2fef56eb8a54626548445ba.mp3"></audio>
|
||||
|
||||
你是否曾跟我一样,因为看不懂数据结构和算法,而一度怀疑是自己太笨?实际上,很多人在第一次接触这门课时,都会有这种感觉,觉得数据结构和算法很抽象,晦涩难懂,宛如天书。正是这个原因,让很多初学者对这门课望而却步。
|
||||
|
||||
我个人觉得,其实真正的原因是你**没有找到好的学习方法**,**没有抓住学习的重点**。实际上,数据结构和算法的东西并不多,常用的、基础的知识点更是屈指可数。只要掌握了正确的学习方法,学起来并没有看上去那么难,更不需要什么高智商、厚底子。
|
||||
|
||||
还记得大学里每次考前老师都要划重点吗?今天,我就给你划划我们这门课的重点,再告诉你一些我总结的学习小窍门。相信有了这些之后,你学起来就会有的放矢、事半功倍了。
|
||||
|
||||
## 什么是数据结构?什么是算法?
|
||||
|
||||
大部分数据结构和算法教材,在开篇都会给这两个概念下一个明确的定义。但是,这些定义都很抽象,对理解这两个概念并没有实质性的帮助,反倒会让你陷入死抠定义的误区。毕竟,我们现在学习,并不是为了考试,所以,概念背得再牢,不会用也就没什么用。
|
||||
|
||||
**虽然我们说没必要深挖严格的定义,但是这并不等于不需要理解概念。** 下面我就从广义和狭义两个层面,来帮你理解数据结构与算法这两个概念。
|
||||
|
||||
从广义上讲,数据结构就是指一组数据的存储结构。算法就是操作数据的一组方法。
|
||||
|
||||
图书馆储藏书籍你肯定见过吧?为了方便查找,图书管理员一般会将书籍分门别类进行“存储”。按照一定规律编号,就是书籍这种“数据”的存储结构。
|
||||
|
||||
那我们如何来查找一本书呢?有很多种办法,你当然可以一本一本地找,也可以先根据书籍类别的编号,是人文,还是科学、计算机,来定位书架,然后再依次查找。笼统地说,这些查找方法都是算法。
|
||||
|
||||
从狭义上讲,也就是我们专栏要讲的,是指某些著名的数据结构和算法,比如队列、栈、堆、二分查找、动态规划等。这些都是前人智慧的结晶,我们可以直接拿来用。我们要讲的这些经典数据结构和算法,都是前人从很多实际操作场景中抽象出来的,经过非常多的求证和检验,可以高效地帮助我们解决很多实际的开发问题。
|
||||
|
||||
那数据结构和算法有什么关系呢?为什么大部分书都把这两个东西放到一块儿来讲呢?
|
||||
|
||||
这是因为,数据结构和算法是相辅相成的。**数据结构是为算法服务的,算法要作用在特定的数据结构之上。** 因此,我们无法孤立数据结构来讲算法,也无法孤立算法来讲数据结构。
|
||||
|
||||
比如,因为数组具有随机访问的特点,常用的二分查找算法需要用数组来存储数据。但如果我们选择链表这种数据结构,二分查找算法就无法工作了,因为链表并不支持随机访问。
|
||||
|
||||
数据结构是静态的,它只是组织数据的一种方式。如果不在它的基础上操作、构建算法,孤立存在的数据结构就是没用的。
|
||||
|
||||
现在你对数据结构与算法是不是有了比较清晰的理解了呢?有了这些储备,下面我们来看看,究竟该怎么学数据结构与算法。
|
||||
|
||||
## 学习这个专栏需要什么基础?
|
||||
|
||||
看到数据结构和算法里的“算法”两个字,很多人就会联想到“数学”,觉得算法会涉及到很多深奥的数学知识。那我数学基础不是很好,学起来会不会很吃力啊?
|
||||
|
||||
数据结构和算法课程确实会涉及一些数学方面的推理、证明,尤其是在分析某个算法的时间、空间复杂度的时候,但是这个你完全不需要担心。
|
||||
|
||||
这个专栏不会像《算法导论》那样,里面有非常复杂的数学证明和推理。我会由浅入深,从概念到应用,一点一点给你解释清楚。你只要有高中数学水平,就完全可以学习。
|
||||
|
||||
当然,我希望你最好有些编程基础,如果有项目经验就更好了。这样我给你讲数据结构和算法如何提高效率、如何节省存储空间,你就会有很直观的感受。因为,对于每个概念和实现过程,我都会从实际场景出发,不仅教你“**是什么**”,还会教你“**为什么**”,并且告诉你遇到同类型问题应该“**怎么做**”。
|
||||
|
||||
## 学习的重点在什么地方?
|
||||
|
||||
提到数据结构和算法,很多人就很头疼,因为这里面的内容实在是太多了。这里,我就帮你梳理一下,应该先学什么,后学什么。你可以对照看看,你属于哪个阶段,然后有针对性地进行学习。
|
||||
|
||||
想要学习数据结构与算法,**首先要掌握一个数据结构与算法中最重要的概念——复杂度分析。**
|
||||
|
||||
这个概念究竟有多重要呢?可以这么说,它几乎占了数据结构和算法这门课的半壁江山,是数据结构和算法学习的精髓。
|
||||
|
||||
数据结构和算法解决的是如何更省、更快地存储和处理数据的问题,因此,我们就需要一个考量效率和资源消耗的方法,这就是复杂度分析方法。所以,如果你只掌握了数据结构和算法的特点、用法,但是没有学会复杂度分析,那就相当于只知道操作口诀,而没掌握心法。只有把心法了然于胸,才能做到无招胜有招!
|
||||
|
||||
所以,复杂度分析这个内容,我会用很大篇幅给你讲透。你也一定要花大力气来啃,必须要拿下,并且要搞得非常熟练。否则,后面的数据结构和算法也很难学好。
|
||||
|
||||
搞定复杂度分析,下面就要进入**数据结构与算法的正文内容**了。
|
||||
|
||||
为了让你对数据结构和算法能有个全面的认识,我画了一张图,里面几乎涵盖了所有数据结构和算法书籍中都会讲到的知识点。
|
||||
|
||||
<img src="https://static001.geekbang.org/resource/image/91/a7/913e0ababe43a2d57267df5c5f0832a7.jpg" alt=""><br>
|
||||
(图谱内容较多,建议长按保存后浏览)
|
||||
|
||||
但是,作为初学者,或者一个非算法工程师来说,你并不需要掌握图里面的所有知识点。很多高级的数据结构与算法,比如二分图、最大流等,这些在我们平常的开发中很少会用到。所以,你暂时可以不用看。我还是那句话,咱们学习要学会找重点。如果不分重点地学习,眉毛胡子一把抓,学起来肯定会比较吃力。
|
||||
|
||||
所以,结合我自己的学习心得,还有这些年的面试、开发经验,我总结了**20个最常用的、最基础**数据结构与算法,**不管是应付面试还是工作需要,只要集中精力逐一攻克这20个知识点就足够了。**
|
||||
|
||||
这里面有10个数据结构:数组、链表、栈、队列、散列表、二叉树、堆、跳表、图、Trie树;10个算法:递归、排序、二分查找、搜索、哈希算法、贪心算法、分治算法、回溯算法、动态规划、字符串匹配算法。
|
||||
|
||||
掌握了这些基础的数据结构和算法,再学更加复杂的数据结构和算法,就会非常容易、非常快。
|
||||
|
||||
在学习数据结构和算法的过程中,你也要注意,不要只是死记硬背,不要为了学习而学习,而是**要学习它的“来历”“自身的特点”“适合解决的问题”以及“实际的应用场景”**。对于每一种数据结构或算法,我都会从这几个方面进行详细讲解。只要你掌握了我每节课里讲的内容,就能在开发中灵活应用。
|
||||
|
||||
学习数据结构和算法的过程,是非常好的思维训练的过程,所以,千万不要被动地记忆,要多辩证地思考,多问为什么。如果你一直这么坚持做,你会发现,等你学完之后,写代码的时候就会不由自主地考虑到很多性能方面的事情,时间复杂度、空间复杂度非常高的垃圾代码出现的次数就会越来越少。你的编程内功就真正得到了修炼。
|
||||
|
||||
## 一些可以让你事半功倍的学习技巧
|
||||
|
||||
前面我给你划了学习的重点,也讲了学习这门课需要具备的基础。作为一个过来人,现在我就给你分享一下,专栏学习的一些技巧。掌握了这些技巧,可以让你化被动为主动,学起来更加轻松,更加有动力!
|
||||
|
||||
### 1.边学边练,适度刷题
|
||||
|
||||
“边学边练”这一招非常有用。建议你每周花1~2个小时的时间,集中把这周的三节内容涉及的数据结构和算法,全都自己写出来,用代码实现一遍。这样一定会比单纯地看或者听的效果要好很多!
|
||||
|
||||
有面试需求的同学,可能会问了,那我还要不要去刷题呢?
|
||||
|
||||
我个人的观点是**可以“适度”刷题,但一定不要浪费太多时间在刷题上**。我们**学习的目的还是掌握,然后应用**。除非你要面试Google、Facebook这样的公司,它们的算法题目非常非常难,必须大量刷题,才能在短期内提升应试正确率。如果是应对国内公司的技术面试,即便是BAT这样的公司,你只要彻底掌握这个专栏的内容,就足以应对。
|
||||
|
||||
### 2.多问、多思考、多互动
|
||||
|
||||
**学习最好的方法是,找到几个人一起学习,一块儿讨论切磋,有问题及时寻求老师答疑。** 但是,离开大学之后,既没有同学也没有老师,这个条件就比较难具备了。
|
||||
|
||||
不过,这也就是咱们专栏学习的优势。专栏里有很多跟你一样的学习者。你可以多在留言区写下自己的疑问、思考和总结,也可以经常看看别人的留言,和他们进行互动。
|
||||
|
||||
除此之外,如果你有疑问,你可以随时在留言区给我留言,我只要有空就会及时回复你。你不要担心问的问题太小白。因为我初学的时候,也常常会被一些小白问题困扰。不懂一点都不丢人,只要你勇敢提出来,我们一起解决了就可以了。
|
||||
|
||||
我也会力争每节课都最大限度地给你讲透,帮你扫除知识盲点,而你要做的就是,避免一知半解,要想尽一切办法去搞懂我讲的所有内容。
|
||||
|
||||
### 3.打怪升级学习法
|
||||
|
||||
**学习的过程中,我们碰到最大的问题就是,坚持不下来。** 是的,很多基础课程学起来都非常枯燥。为此,我自己总结了一套“打怪升级学习法”。
|
||||
|
||||
游戏你肯定玩过吧?为什么很多看起来非常简单又没有乐趣的游戏,你会玩得不亦乐乎呢?这是因为,当你努力打到一定级别之后,每天看着自己的经验值、战斗力在慢慢提高,那种每天都在一点一点成长的成就感就不由自主地产生了。
|
||||
|
||||
所以,**我们在枯燥的学习过程中,也可以给自己设立一个切实可行的目标**,就像打怪升级一样。
|
||||
|
||||
比如,针对这个专栏,你就可以设立这样一个目标:每节课后的思考题都认真思考,并且回复到留言区。当你看到很多人给你点赞之后,你就会为了每次都能发一个漂亮的留言,而更加认真地学习。
|
||||
|
||||
当然,还有很多其他的目标,比如,每节课后都写一篇学习笔记或者学习心得;或者你还可以每节课都找一下我讲得不对、不合理的地方……诸如此类,你可以总结一个适合你的“打怪升级攻略”。
|
||||
|
||||
如果你能这样学习一段时间,不仅能收获到知识,你还会有意想不到的成就感。因为,这其实帮你改掉了一点学习的坏习惯。这个习惯一旦改掉了,你的人生也会变得不一样。
|
||||
|
||||
### 4.知识需要沉淀,不要想试图一下子掌握所有
|
||||
|
||||
在学习的过程中,一定会碰到“拦路虎”。如果哪个知识点没有怎么学懂,不要着急,这是正常的。因为,想听一遍、看一遍就把所有知识掌握,这肯定是不可能的。**学习<strong><strong>知识的**</strong>过程是反复迭代、不断沉淀的过程。</strong>
|
||||
|
||||
如果碰到“拦路虎”,你可以尽情地在留言区问我,也可以先沉淀一下,过几天再重新学一遍。所谓,书读百遍其义自见,我觉得是很有道理的!
|
||||
|
||||
我讲的这些学习方法,不仅仅针对咱们这一个课程的学习,其实完全适用任何知识的学习过程。你可以通过这个专栏的学习,实践一下这些方法。如果效果不错,再推广到之后的学习过程中。
|
||||
|
||||
## 内容小结
|
||||
|
||||
今天,我带你划了划数据结构和算法的学习重点,复杂度分析,以及10个数据结构和10个算法。
|
||||
|
||||
这些内容是我根据平时的学习和工作、面试经验积累,精心筛选出来的。只要掌握这些内容,应付日常的面试、工作,基本不会有问题。
|
||||
|
||||
除此之外,我还给你分享了我总结的一些学习技巧,比如边学边练、多问、多思考,还有两个比较通用的学习方法,打怪升级法和沉淀法。掌握了这些学习技巧,可以让你学习过程中事半功倍。所以,你一定要好好实践哦!
|
||||
|
||||
## 课后思考
|
||||
|
||||
今天的内容是一个准备课,从下节开始,我们就要正式开始学习精心筛选出的这20个数据结构和算法了。所以,今天给你布置一个任务,对照我上面讲的“打怪升级学习法”,请思考一下你自己学习这个专栏的方法,让我们一起在留言区立下Flag,相互鼓励!
|
||||
|
||||
另外,你在之前学习数据结构和算法的过程中,遇到过什么样的困难或者疑惑吗?
|
||||
|
||||
欢迎留言和我分享,我会第一时间给你反馈。
|
||||
312
极客时间专栏/数据结构与算法之美/入门篇/03 | 复杂度分析(上):如何分析、统计算法的执行效率和资源消耗?.md
Normal file
312
极客时间专栏/数据结构与算法之美/入门篇/03 | 复杂度分析(上):如何分析、统计算法的执行效率和资源消耗?.md
Normal file
@@ -0,0 +1,312 @@
|
||||
<audio id="audio" title="03 | 复杂度分析(上):如何分析、统计算法的执行效率和资源消耗?" controls="" preload="none"><source id="mp3" src="https://static001.geekbang.org/resource/audio/c6/12/c61cdedff1915ac9c2209dd3fa42b412.mp3"></audio>
|
||||
|
||||
我们都知道,数据结构和算法本身解决的是“快”和“省”的问题,即如何让代码运行得更快,如何让代码更省存储空间。所以,执行效率是算法一个非常重要的考量指标。那如何来衡量你编写的算法代码的执行效率呢?这里就要用到我们今天要讲的内容:时间、空间复杂度分析。
|
||||
|
||||
其实,只要讲到数据结构与算法,就一定离不开时间、空间复杂度分析。而且,我个人认为,**复杂度分析是整个算法学习的精髓,只要掌握了它,数据结构和算法的内容基本上就掌握了一半**。
|
||||
|
||||
复杂度分析实在太重要了,因此我准备用两节内容来讲。希望你学完这个内容之后,无论在任何场景下,面对任何代码的复杂度分析,你都能做到“庖丁解牛”般游刃有余。
|
||||
|
||||
## 为什么需要复杂度分析?
|
||||
|
||||
你可能会有些疑惑,我把代码跑一遍,通过统计、监控,就能得到算法执行的时间和占用的内存大小。为什么还要做时间、空间复杂度分析呢?这种分析方法能比我实实在在跑一遍得到的数据更准确吗?
|
||||
|
||||
首先,我可以肯定地说,你这种评估算法执行效率的方法是正确的。很多数据结构和算法书籍还给这种方法起了一个名字,叫**事后统计法**。但是,这种统计方法有非常大的局限性。
|
||||
|
||||
**1. 测试结果非常依赖测试环境**
|
||||
|
||||
测试环境中硬件的不同会对测试结果有很大的影响。比如,我们拿同样一段代码,分别用Intel Core i9处理器和Intel Core i3处理器来运行,不用说,i9处理器要比i3处理器执行的速度快很多。还有,比如原本在这台机器上a代码执行的速度比b代码要快,等我们换到另一台机器上时,可能会有截然相反的结果。
|
||||
|
||||
**2.测试结果受数据规模的影响很大**
|
||||
|
||||
后面我们会讲排序算法,我们先拿它举个例子。对同一个排序算法,待排序数据的有序度不一样,排序的执行时间就会有很大的差别。极端情况下,如果数据已经是有序的,那排序算法不需要做任何操作,执行时间就会非常短。除此之外,如果测试数据规模太小,测试结果可能无法真实地反映算法的性能。比如,对于小规模的数据排序,插入排序可能反倒会比快速排序要快!
|
||||
|
||||
所以,**我们需要一个不用具体的测试数据来测试,就可以粗略地估计算法的执行效率的方法**。这就是我们今天要讲的时间、空间复杂度分析方法。
|
||||
|
||||
## 大O复杂度表示法
|
||||
|
||||
算法的执行效率,粗略地讲,就是算法代码执行的时间。但是,如何在不运行代码的情况下,用“肉眼”得到一段代码的执行时间呢?
|
||||
|
||||
这里有段非常简单的代码,求1,2,3...n的累加和。现在,我就带你一块来估算一下这段代码的执行时间。
|
||||
|
||||
```
|
||||
int cal(int n) {
|
||||
int sum = 0;
|
||||
int i = 1;
|
||||
for (; i <= n; ++i) {
|
||||
sum = sum + i;
|
||||
}
|
||||
return sum;
|
||||
}
|
||||
|
||||
```
|
||||
|
||||
从CPU的角度来看,这段代码的每一行都执行着类似的操作:**读数据**-**运算**-**写数据**。尽管每行代码对应的CPU执行的个数、执行的时间都不一样,但是,我们这里只是粗略估计,所以可以假设每行代码执行的时间都一样,为unit_time。在这个假设的基础之上,这段代码的总执行时间是多少呢?
|
||||
|
||||
第2、3行代码分别需要1个unit_time的执行时间,第4、5行都运行了n遍,所以需要2n*unit_time的执行时间,所以这段代码总的执行时间就是(2n+2)*unit_time。可以看出来,**所有代码的执行时间T(n)与每行代码的执行次数成正比**。
|
||||
|
||||
按照这个分析思路,我们再来看这段代码。
|
||||
|
||||
```
|
||||
int cal(int n) {
|
||||
int sum = 0;
|
||||
int i = 1;
|
||||
int j = 1;
|
||||
for (; i <= n; ++i) {
|
||||
j = 1;
|
||||
for (; j <= n; ++j) {
|
||||
sum = sum + i * j;
|
||||
}
|
||||
}
|
||||
}
|
||||
|
||||
```
|
||||
|
||||
我们依旧假设每个语句的执行时间是unit_time。那这段代码的总执行时间T(n)是多少呢?
|
||||
|
||||
第2、3、4行代码,每行都需要1个unit_time的执行时间,第5、6行代码循环执行了n遍,需要2n * unit_time的执行时间,第7、8行代码循环执行了n<sup>2</sup>遍,所以需要2n<sup>2</sup> * unit_time的执行时间。所以,整段代码总的执行时间T(n) = (2n<sup>2</sup>+2n+3)*unit_time。
|
||||
|
||||
尽管我们不知道unit_time的具体值,但是通过这两段代码执行时间的推导过程,我们可以得到一个非常重要的规律,那就是,**所有代码的执行时间T(n)与每行代码的执行次数f(n)成正比**。
|
||||
|
||||
我们可以把这个规律总结成一个公式。注意,大O就要登场了!
|
||||
|
||||
<img src="https://static001.geekbang.org/resource/image/22/ef/22900968aa2b190072c985a08b0e92ef.png" alt="">
|
||||
|
||||
我来具体解释一下这个公式。其中,T(n)我们已经讲过了,它表示代码执行的时间;n表示数据规模的大小;f(n)表示每行代码执行的次数总和。因为这是一个公式,所以用f(n)来表示。公式中的O,表示代码的执行时间T(n)与f(n)表达式成正比。
|
||||
|
||||
所以,第一个例子中的T(n) = O(2n+2),第二个例子中的T(n) = O(2n<sup>2</sup>+2n+3)。这就是**大O时间复杂度表示法**。大O时间复杂度实际上并不具体表示代码真正的执行时间,而是表示**代码执行时间随数据规模增长的变化趋势**,所以,也叫作**渐进时间复杂度**(asymptotic time complexity),简称**时间复杂度**。
|
||||
|
||||
当n很大时,你可以把它想象成10000、100000。而公式中的低阶、常量、系数三部分并不左右增长趋势,所以都可以忽略。我们只需要记录一个最大量级就可以了,如果用大O表示法表示刚讲的那两段代码的时间复杂度,就可以记为:T(n) = O(n); T(n) = O(n<sup>2</sup>)。
|
||||
|
||||
## 时间复杂度分析
|
||||
|
||||
前面介绍了大O时间复杂度的由来和表示方法。现在我们来看下,如何分析一段代码的时间复杂度?我这儿有三个比较实用的方法可以分享给你。
|
||||
|
||||
**1.只关注循环执行次数最多的一段代码**
|
||||
|
||||
我刚才说了,大O这种复杂度表示方法只是表示一种变化趋势。我们通常会忽略掉公式中的常量、低阶、系数,只需要记录一个最大阶的量级就可以了。所以,**我们在分析一个算法、一段代码的时间复杂度的时候,也只关注循环执行次数最多的那一段代码就可以了**。这段核心代码执行次数的n的量级,就是整段要分析代码的时间复杂度。
|
||||
|
||||
为了便于你理解,我还是拿前面的例子来说明。
|
||||
|
||||
```
|
||||
int cal(int n) {
|
||||
int sum = 0;
|
||||
int i = 1;
|
||||
for (; i <= n; ++i) {
|
||||
sum = sum + i;
|
||||
}
|
||||
return sum;
|
||||
}
|
||||
|
||||
```
|
||||
|
||||
其中第2、3行代码都是常量级的执行时间,与n的大小无关,所以对于复杂度并没有影响。循环执行次数最多的是第4、5行代码,所以这块代码要重点分析。前面我们也讲过,这两行代码被执行了n次,所以总的时间复杂度就是O(n)。
|
||||
|
||||
**2.加法法则:总复杂度等于量级最大的那段代码的复杂度**
|
||||
|
||||
我这里还有一段代码。你可以先试着分析一下,然后再往下看跟我的分析思路是否一样。
|
||||
|
||||
```
|
||||
int cal(int n) {
|
||||
int sum_1 = 0;
|
||||
int p = 1;
|
||||
for (; p < 100; ++p) {
|
||||
sum_1 = sum_1 + p;
|
||||
}
|
||||
|
||||
int sum_2 = 0;
|
||||
int q = 1;
|
||||
for (; q < n; ++q) {
|
||||
sum_2 = sum_2 + q;
|
||||
}
|
||||
|
||||
int sum_3 = 0;
|
||||
int i = 1;
|
||||
int j = 1;
|
||||
for (; i <= n; ++i) {
|
||||
j = 1;
|
||||
for (; j <= n; ++j) {
|
||||
sum_3 = sum_3 + i * j;
|
||||
}
|
||||
}
|
||||
|
||||
return sum_1 + sum_2 + sum_3;
|
||||
}
|
||||
|
||||
```
|
||||
|
||||
这个代码分为三部分,分别是求sum_1、sum_2、sum_3。我们可以分别分析每一部分的时间复杂度,然后把它们放到一块儿,再取一个量级最大的作为整段代码的复杂度。
|
||||
|
||||
第一段的时间复杂度是多少呢?这段代码循环执行了100次,所以是一个常量的执行时间,跟n的规模无关。
|
||||
|
||||
这里我要再强调一下,即便这段代码循环10000次、100000次,只要是一个已知的数,跟n无关,照样也是常量级的执行时间。当n无限大的时候,就可以忽略。尽管对代码的执行时间会有很大影响,但是回到时间复杂度的概念来说,它表示的是一个算法执行效率与数据规模增长的变化趋势,所以不管常量的执行时间多大,我们都可以忽略掉。因为它本身对增长趋势并没有影响。
|
||||
|
||||
那第二段代码和第三段代码的时间复杂度是多少呢?答案是O(n)和O(n<sup>2</sup>),你应该能容易就分析出来,我就不啰嗦了。
|
||||
|
||||
综合这三段代码的时间复杂度,我们取其中最大的量级。所以,整段代码的时间复杂度就为O(n<sup>2</sup>)。也就是说:**总的时间复杂度<strong><strong>就**</strong>等于量级最大的那段代码的时间复杂度</strong>。那我们将这个规律抽象成公式就是:
|
||||
|
||||
如果T1(n)=O(f(n)),T2(n)=O(g(n));那么T(n)=T1(n)+T2(n)=max(O(f(n)), O(g(n))) =O(max(f(n), g(n))).
|
||||
|
||||
**3.乘法法则:嵌套代码的复杂度等于嵌套内外代码复杂度的乘积**
|
||||
|
||||
我刚讲了一个复杂度分析中的加法法则,这儿还有一个**乘法法则**。类比一下,你应该能“猜到”公式是什么样子的吧?
|
||||
|
||||
如果T1(n)=O(f(n)),T2(n)=O(g(n));那么T(n)=T1(n)*T2(n)=O(f(n))*O(g(n))=O(f(n)*g(n)).
|
||||
|
||||
也就是说,假设T1(n) = O(n),T2(n) = O(n<sup>2</sup>),则T1(n) * T2(n) = O(n<sup>3</sup>)。落实到具体的代码上,我们可以把乘法法则看成是**嵌套循环**,我举个例子给你解释一下。
|
||||
|
||||
```
|
||||
int cal(int n) {
|
||||
int ret = 0;
|
||||
int i = 1;
|
||||
for (; i < n; ++i) {
|
||||
ret = ret + f(i);
|
||||
}
|
||||
}
|
||||
|
||||
int f(int n) {
|
||||
int sum = 0;
|
||||
int i = 1;
|
||||
for (; i < n; ++i) {
|
||||
sum = sum + i;
|
||||
}
|
||||
return sum;
|
||||
}
|
||||
|
||||
```
|
||||
|
||||
我们单独看cal()函数。假设f()只是一个普通的操作,那第4~6行的时间复杂度就是,T1(n) = O(n)。但f()函数本身不是一个简单的操作,它的时间复杂度是T2(n) = O(n),所以,整个cal()函数的时间复杂度就是,T(n) = T1(n) * T2(n) = O(n*n) = O(n<sup>2</sup>)。
|
||||
|
||||
我刚刚讲了三种复杂度的分析技巧。不过,你并不用刻意去记忆。实际上,复杂度分析这个东西关键在于“熟练”。你只要多看案例,多分析,就能做到“无招胜有招”。
|
||||
|
||||
## 几种常见时间复杂度实例分析
|
||||
|
||||
虽然代码千差万别,但是常见的复杂度量级并不多。我稍微总结了一下,这些复杂度量级几乎涵盖了你今后可以接触的所有代码的复杂度量级。
|
||||
|
||||
<img src="https://static001.geekbang.org/resource/image/37/0a/3723793cc5c810e9d5b06bc95325bf0a.jpg" alt="">
|
||||
|
||||
对于刚罗列的复杂度量级,我们可以粗略地分为两类,**多项式量级**和**非多项式量级**。其中,非多项式量级只有两个:O(2<sup>n</sup>)和O(n!)。
|
||||
|
||||
我们把时间复杂度为非多项式量级的算法问题叫作NP(Non-Deterministic Polynomial,非确定多项式)问题。
|
||||
|
||||
当数据规模n越来越大时,非多项式量级算法的执行时间会急剧增加,求解问题的执行时间会无限增长。所以,非多项式时间复杂度的算法其实是非常低效的算法。因此,关于NP时间复杂度我就不展开讲了。我们主要来看几种常见的**多项式时间复杂度**。
|
||||
|
||||
**1. O(1)**
|
||||
|
||||
首先你必须明确一个概念,O(1)只是常量级时间复杂度的一种表示方法,并不是指只执行了一行代码。比如这段代码,即便有3行,它的时间复杂度也是O(1),而不是O(3)。
|
||||
|
||||
```
|
||||
int i = 8;
|
||||
int j = 6;
|
||||
int sum = i + j;
|
||||
|
||||
```
|
||||
|
||||
我稍微总结一下,只要代码的执行时间不随n的增大而增长,这样代码的时间复杂度我们都记作O(1)。或者说,**一般<strong><strong>情况下**</strong>,只要算法中不存在循环语句、递归语句,即使有成千上万行的代码,其时间复杂度也是Ο(1)</strong>。
|
||||
|
||||
**2. O(logn)、O(nlogn)**
|
||||
|
||||
对数阶时间复杂度非常常见,同时也是最难分析的一种时间复杂度。我通过一个例子来说明一下。
|
||||
|
||||
```
|
||||
i=1;
|
||||
while (i <= n) {
|
||||
i = i * 2;
|
||||
}
|
||||
|
||||
```
|
||||
|
||||
根据我们前面讲的复杂度分析方法,第三行代码是循环执行次数最多的。所以,我们只要能计算出这行代码被执行了多少次,就能知道整段代码的时间复杂度。
|
||||
|
||||
从代码中可以看出,变量i的值从1开始取,每循环一次就乘以2。当大于n时,循环结束。还记得我们高中学过的等比数列吗?实际上,变量i的取值就是一个等比数列。如果我把它一个一个列出来,就应该是这个样子的:
|
||||
|
||||
<img src="https://static001.geekbang.org/resource/image/9b/9a/9b1c88264e7a1a20b5954be9bc4bec9a.jpg" alt="">
|
||||
|
||||
所以,我们只要知道x值是多少,就知道这行代码执行的次数了。通过2<sup>x</sup>=n求解x这个问题我们想高中应该就学过了,我就不多说了。x=log<sub>2</sub>n,所以,这段代码的时间复杂度就是O(log<sub>2</sub>n)。
|
||||
|
||||
现在,我把代码稍微改下,你再看看,这段代码的时间复杂度是多少?
|
||||
|
||||
```
|
||||
i=1;
|
||||
while (i <= n) {
|
||||
i = i * 3;
|
||||
}
|
||||
|
||||
```
|
||||
|
||||
根据我刚刚讲的思路,很简单就能看出来,这段代码的时间复杂度为O(log<sub>3</sub>n)。
|
||||
|
||||
实际上,不管是以2为底、以3为底,还是以10为底,我们可以把所有对数阶的时间复杂度都记为O(logn)。为什么呢?
|
||||
|
||||
我们知道,对数之间是可以互相转换的,log<sub>3</sub>n就等于log<sub>3</sub>2 * log<sub>2</sub>n,所以O(log<sub>3</sub>n) = O(C * log<sub>2</sub>n),其中C=log<sub>3</sub>2是一个常量。基于我们前面的一个理论:**在采用大O标记复杂度的时候,可以忽略系数,即O(Cf(n)) = O(f(n))**。所以,O(log<sub>2</sub>n) 就等于O(log<sub>3</sub>n)。因此,在对数阶时间复杂度的表示方法里,我们忽略对数的“底”,统一表示为O(logn)。
|
||||
|
||||
如果你理解了我前面讲的O(logn),那O(nlogn)就很容易理解了。还记得我们刚讲的乘法法则吗?如果一段代码的时间复杂度是O(logn),我们循环执行n遍,时间复杂度就是O(nlogn)了。而且,O(nlogn)也是一种非常常见的算法时间复杂度。比如,归并排序、快速排序的时间复杂度都是O(nlogn)。
|
||||
|
||||
**3. O(m+n)、O(m*n)**
|
||||
|
||||
我们再来讲一种跟前面都不一样的时间复杂度,代码的复杂度**由两个数据的规模**来决定。老规矩,先看代码!
|
||||
|
||||
```
|
||||
int cal(int m, int n) {
|
||||
int sum_1 = 0;
|
||||
int i = 1;
|
||||
for (; i < m; ++i) {
|
||||
sum_1 = sum_1 + i;
|
||||
}
|
||||
|
||||
int sum_2 = 0;
|
||||
int j = 1;
|
||||
for (; j < n; ++j) {
|
||||
sum_2 = sum_2 + j;
|
||||
}
|
||||
|
||||
return sum_1 + sum_2;
|
||||
}
|
||||
|
||||
```
|
||||
|
||||
从代码中可以看出,m和n是表示两个数据规模。我们无法事先评估m和n谁的量级大,所以我们在表示复杂度的时候,就不能简单地利用加法法则,省略掉其中一个。所以,上面代码的时间复杂度就是O(m+n)。
|
||||
|
||||
针对这种情况,原来的加法法则就不正确了,我们需要将加法规则改为:T1(m) + T2(n) = O(f(m) + g(n))。但是乘法法则继续有效:T1(m)*T2(n) = O(f(m) * f(n))。
|
||||
|
||||
## 空间复杂度分析
|
||||
|
||||
前面,咱们花了很长时间讲大O表示法和时间复杂度分析,理解了前面讲的内容,空间复杂度分析方法学起来就非常简单了。
|
||||
|
||||
前面我讲过,时间复杂度的全称是**渐进时间复杂度**,**表示算法的执行时间与数据规模之间的增长关系**。类比一下,空间复杂度全称就是**渐进空间复杂度**(asymptotic space complexity),**表示算法的存储空间与数据规模之间的增长关系**。
|
||||
|
||||
我还是拿具体的例子来给你说明。(这段代码有点“傻”,一般没人会这么写,我这么写只是为了方便给你解释。)
|
||||
|
||||
```
|
||||
void print(int n) {
|
||||
int i = 0;
|
||||
int[] a = new int[n];
|
||||
for (i; i <n; ++i) {
|
||||
a[i] = i * i;
|
||||
}
|
||||
|
||||
for (i = n-1; i >= 0; --i) {
|
||||
print out a[i]
|
||||
}
|
||||
}
|
||||
|
||||
```
|
||||
|
||||
跟时间复杂度分析一样,我们可以看到,第2行代码中,我们申请了一个空间存储变量i,但是它是常量阶的,跟数据规模n没有关系,所以我们可以忽略。第3行申请了一个大小为n的int类型数组,除此之外,剩下的代码都没有占用更多的空间,所以整段代码的空间复杂度就是O(n)。
|
||||
|
||||
我们常见的空间复杂度就是O(1)、O(n)、O(n<sup>2</sup> ),像O(logn)、O(nlogn)这样的对数阶复杂度平时都用不到。而且,空间复杂度分析比时间复杂度分析要简单很多。所以,对于空间复杂度,掌握刚我说的这些内容已经足够了。
|
||||
|
||||
## 内容小结
|
||||
|
||||
基础复杂度分析的知识到此就讲完了,我们来总结一下。
|
||||
|
||||
复杂度也叫渐进复杂度,包括时间复杂度和空间复杂度,用来分析算法执行效率与数据规模之间的增长关系,可以粗略地表示,越高阶复杂度的算法,执行效率越低。常见的复杂度并不多,从低阶到高阶有:O(1)、O(logn)、O(n)、O(nlogn)、O(n<sup>2</sup> )。等你学完整个专栏之后,你就会发现几乎所有的数据结构和算法的复杂度都跑不出这几个。
|
||||
|
||||
<img src="https://static001.geekbang.org/resource/image/49/04/497a3f120b7debee07dc0d03984faf04.jpg" alt="">
|
||||
|
||||
**复杂度分析并不难,关键在于多练。** 之后讲后面的内容时,我还会带你详细地分析每一种数据结构和算法的时间、空间复杂度。只要跟着我的思路学习、练习,你很快就能和我一样,每次看到代码的时候,简单的一眼就能看出其复杂度,难的稍微分析一下就能得出答案。
|
||||
|
||||
## 课后思考
|
||||
|
||||
有人说,我们项目之前都会进行性能测试,再做代码的时间复杂度、空间复杂度分析,是不是多此一举呢?而且,每段代码都分析一下时间复杂度、空间复杂度,是不是很浪费时间呢?你怎么看待这个问题呢?
|
||||
|
||||
欢迎留言和我分享,我会第一时间给你反馈。
|
||||
178
极客时间专栏/数据结构与算法之美/入门篇/04 | 复杂度分析(下):浅析最好、最坏、平均、均摊时间复杂度.md
Normal file
178
极客时间专栏/数据结构与算法之美/入门篇/04 | 复杂度分析(下):浅析最好、最坏、平均、均摊时间复杂度.md
Normal file
@@ -0,0 +1,178 @@
|
||||
<audio id="audio" title="04 | 复杂度分析(下):浅析最好、最坏、平均、均摊时间复杂度" controls="" preload="none"><source id="mp3" src="https://static001.geekbang.org/resource/audio/9d/4b/9d8163e9190dbd9d7a82fe54yy29d04b.mp3"></audio>
|
||||
|
||||
上一节,我们讲了复杂度的大O表示法和几个分析技巧,还举了一些常见复杂度分析的例子,比如O(1)、O(logn)、O(n)、O(nlogn)复杂度分析。掌握了这些内容,对于复杂度分析这个知识点,你已经可以到及格线了。但是,我想你肯定不会满足于此。
|
||||
|
||||
今天我会继续给你讲四个复杂度分析方面的知识点,**最好情况时间复杂度**(best case time complexity)、**最坏情况时间复杂度**(worst case time complexity)、**平均情况时间复杂度**(average case time complexity)、**均摊时间复杂度**(amortized time complexity)。如果这几个概念你都能掌握,那对你来说,复杂度分析这部分内容就没什么大问题了。
|
||||
|
||||
## 最好、最坏情况时间复杂度
|
||||
|
||||
上一节我举的分析复杂度的例子都很简单,今天我们来看一个稍微复杂的。你可以用我上节教你的分析技巧,自己先试着分析一下这段代码的时间复杂度。
|
||||
|
||||
```
|
||||
// n表示数组array的长度
|
||||
int find(int[] array, int n, int x) {
|
||||
int i = 0;
|
||||
int pos = -1;
|
||||
for (; i < n; ++i) {
|
||||
if (array[i] == x) pos = i;
|
||||
}
|
||||
return pos;
|
||||
}
|
||||
|
||||
```
|
||||
|
||||
你应该可以看出来,这段代码要实现的功能是,在一个无序的数组(array)中,查找变量x出现的位置。如果没有找到,就返回-1。按照上节课讲的分析方法,这段代码的复杂度是O(n),其中,n代表数组的长度。
|
||||
|
||||
我们在数组中查找一个数据,并不需要每次都把整个数组都遍历一遍,因为有可能中途找到就可以提前结束循环了。但是,这段代码写得不够高效。我们可以这样优化一下这段查找代码。
|
||||
|
||||
```
|
||||
// n表示数组array的长度
|
||||
int find(int[] array, int n, int x) {
|
||||
int i = 0;
|
||||
int pos = -1;
|
||||
for (; i < n; ++i) {
|
||||
if (array[i] == x) {
|
||||
pos = i;
|
||||
break;
|
||||
}
|
||||
}
|
||||
return pos;
|
||||
}
|
||||
|
||||
```
|
||||
|
||||
这个时候,问题就来了。我们优化完之后,这段代码的时间复杂度还是O(n)吗?很显然,咱们上一节讲的分析方法,解决不了这个问题。
|
||||
|
||||
因为,要查找的变量x可能出现在数组的任意位置。如果数组中第一个元素正好是要查找的变量x,那就不需要继续遍历剩下的n-1个数据了,那时间复杂度就是O(1)。但如果数组中不存在变量x,那我们就需要把整个数组都遍历一遍,时间复杂度就成了O(n)。所以,不同的情况下,这段代码的时间复杂度是不一样的。
|
||||
|
||||
为了表示代码在不同情况下的不同时间复杂度,我们需要引入三个概念:最好情况时间复杂度、最坏情况时间复杂度和平均情况时间复杂度。
|
||||
|
||||
顾名思义,**最好情况时间复杂度就是,在最理想的情况下,执行这段代码的时间复杂度**。就像我们刚刚讲到的,在最理想的情况下,要查找的变量x正好是数组的第一个元素,这个时候对应的时间复杂度就是最好情况时间复杂度。
|
||||
|
||||
同理,**最坏情况时间复杂度就是,在最糟糕的情况下,执行这段代码的时间复杂度**。就像刚举的那个例子,如果数组中没有要查找的变量x,我们需要把整个数组都遍历一遍才行,所以这种最糟糕情况下对应的时间复杂度就是最坏情况时间复杂度。
|
||||
|
||||
## 平均情况时间复杂度
|
||||
|
||||
我们都知道,最好情况时间复杂度和最坏情况时间复杂度对应的都是极端情况下的代码复杂度,发生的概率其实并不大。为了更好地表示平均情况下的复杂度,我们需要引入另一个概念:平均情况时间复杂度,后面我简称为平均时间复杂度。
|
||||
|
||||
平均时间复杂度又该怎么分析呢?我还是借助刚才查找变量x的例子来给你解释。
|
||||
|
||||
要查找的变量x在数组中的位置,有n+1种情况:**在数组的0~n-1位置中**和**不在数组中**。我们把每种情况下,查找需要遍历的元素个数累加起来,然后再除以n+1,就可以得到需要遍历的元素个数的平均值,即:
|
||||
|
||||
<img src="https://static001.geekbang.org/resource/image/d8/2f/d889a358b8eccc5bbb90fc16e327a22f.jpg" alt="">
|
||||
|
||||
我们知道,时间复杂度的大O标记法中,可以省略掉系数、低阶、常量,所以,咱们把刚刚这个公式简化之后,得到的平均时间复杂度就是O(n)。
|
||||
|
||||
这个结论虽然是正确的,但是计算过程稍微有点儿问题。究竟是什么问题呢?我们刚讲的这n+1种情况,出现的概率并不是一样的。我带你具体分析一下。(这里要稍微用到一点儿概率论的知识,不过非常简单,你不用担心。)
|
||||
|
||||
我们知道,要查找的变量x,要么在数组里,要么就不在数组里。这两种情况对应的概率统计起来很麻烦,为了方便你理解,我们假设在数组中与不在数组中的概率都为1/2。另外,要查找的数据出现在0~n-1这n个位置的概率也是一样的,为1/n。所以,根据概率乘法法则,要查找的数据出现在0~n-1中任意位置的概率就是1/(2n)。
|
||||
|
||||
因此,前面的推导过程中存在的最大问题就是,没有将各种情况发生的概率考虑进去。如果我们把每种情况发生的概率也考虑进去,那平均时间复杂度的计算过程就变成了这样:
|
||||
|
||||
<img src="https://static001.geekbang.org/resource/image/36/7f/36c0aabdac69032f8a43368f5e90c67f.jpg" alt="">
|
||||
|
||||
这个值就是概率论中的**加权平均值**,也叫作**期望值**,所以平均时间复杂度的全称应该叫**加权平均时间复杂度**或者**期望时间复杂度**。
|
||||
|
||||
引入概率之后,前面那段代码的加权平均值为(3n+1)/4。用大O表示法来表示,去掉系数和常量,这段代码的加权平均时间复杂度仍然是O(n)。
|
||||
|
||||
你可能会说,平均时间复杂度分析好复杂啊,还要涉及概率论的知识。实际上,在大多数情况下,我们并不需要区分最好、最坏、平均情况时间复杂度三种情况。像我们上一节课举的那些例子那样,很多时候,我们使用一个复杂度就可以满足需求了。只有同一块代码在不同的情况下,时间复杂度有量级的差距,我们才会使用这三种复杂度表示法来区分。
|
||||
|
||||
## 均摊时间复杂度
|
||||
|
||||
到此为止,你应该已经掌握了算法复杂度分析的大部分内容了。下面我要给你讲一个更加高级的概念,均摊时间复杂度,以及它对应的分析方法,摊还分析(或者叫平摊分析)。
|
||||
|
||||
均摊时间复杂度,听起来跟平均时间复杂度有点儿像。对于初学者来说,这两个概念确实非常容易弄混。我前面说了,大部分情况下,我们并不需要区分最好、最坏、平均三种复杂度。平均复杂度只在某些特殊情况下才会用到,而均摊时间复杂度应用的场景比它更加特殊、更加有限。
|
||||
|
||||
老规矩,我还是借助一个具体的例子来帮助你理解。(当然,这个例子只是我为了方便讲解想出来的,实际上没人会这么写。)
|
||||
|
||||
```
|
||||
// array表示一个长度为n的数组
|
||||
// 代码中的array.length就等于n
|
||||
int[] array = new int[n];
|
||||
int count = 0;
|
||||
|
||||
void insert(int val) {
|
||||
if (count == array.length) {
|
||||
int sum = 0;
|
||||
for (int i = 0; i < array.length; ++i) {
|
||||
sum = sum + array[i];
|
||||
}
|
||||
array[0] = sum;
|
||||
count = 1;
|
||||
}
|
||||
|
||||
array[count] = val;
|
||||
++count;
|
||||
}
|
||||
|
||||
```
|
||||
|
||||
我先来解释一下这段代码。这段代码实现了一个往数组中插入数据的功能。当数组满了之后,也就是代码中的count == array.length时,我们用for循环遍历数组求和,并清空数组,将求和之后的sum值放到数组的第一个位置,然后再将新的数据插入。但如果数组一开始就有空闲空间,则直接将数据插入数组。
|
||||
|
||||
那这段代码的时间复杂度是多少呢?你可以先用我们刚讲到的三种时间复杂度的分析方法来分析一下。
|
||||
|
||||
最理想的情况下,数组中有空闲空间,我们只需要将数据插入到数组下标为count的位置就可以了,所以最好情况时间复杂度为O(1)。最坏的情况下,数组中没有空闲空间了,我们需要先做一次数组的遍历求和,然后再将数据插入,所以最坏情况时间复杂度为O(n)。
|
||||
|
||||
那平均时间复杂度是多少呢?答案是O(1)。我们还是可以通过前面讲的概率论的方法来分析。
|
||||
|
||||
假设数组的长度是n,根据数据插入的位置的不同,我们可以分为n种情况,每种情况的时间复杂度是O(1)。除此之外,还有一种“额外”的情况,就是在数组没有空闲空间时插入一个数据,这个时候的时间复杂度是O(n)。而且,这n+1种情况发生的概率一样,都是1/(n+1)。所以,根据加权平均的计算方法,我们求得的平均时间复杂度就是:
|
||||
|
||||
<img src="https://static001.geekbang.org/resource/image/6d/ed/6df62366a60336d9de3bc34f488d8bed.jpg" alt="">
|
||||
|
||||
至此为止,前面的最好、最坏、平均时间复杂度的计算,理解起来应该都没有问题。但是这个例子里的平均复杂度分析其实并不需要这么复杂,不需要引入概率论的知识。这是为什么呢?我们先来对比一下这个insert()的例子和前面那个find()的例子,你就会发现这两者有很大差别。
|
||||
|
||||
首先,find()函数在极端情况下,复杂度才为O(1)。但insert()在大部分情况下,时间复杂度都为O(1)。只有个别情况下,复杂度才比较高,为O(n)。这是insert()**第一个**区别于find()的地方。
|
||||
|
||||
我们再来看**第二个**不同的地方。对于insert()函数来说,O(1)时间复杂度的插入和O(n)时间复杂度的插入,出现的频率是非常有规律的,而且有一定的前后时序关系,一般都是一个O(n)插入之后,紧跟着n-1个O(1)的插入操作,循环往复。
|
||||
|
||||
所以,针对这样一种特殊场景的复杂度分析,我们并不需要像之前讲平均复杂度分析方法那样,找出所有的输入情况及相应的发生概率,然后再计算加权平均值。
|
||||
|
||||
针对这种特殊的场景,我们引入了一种更加简单的分析方法:**摊还分析法**,通过摊还分析得到的时间复杂度我们起了一个名字,叫**均摊时间复杂度**。
|
||||
|
||||
那究竟如何使用摊还分析法来分析算法的均摊时间复杂度呢?
|
||||
|
||||
我们还是继续看在数组中插入数据的这个例子。每一次O(n)的插入操作,都会跟着n-1次O(1)的插入操作,所以把耗时多的那次操作均摊到接下来的n-1次耗时少的操作上,均摊下来,这一组连续的操作的均摊时间复杂度就是O(1)。这就是均摊分析的大致思路。你都理解了吗?
|
||||
|
||||
均摊时间复杂度和摊还分析应用场景比较特殊,所以我们并不会经常用到。为了方便你理解、记忆,我这里简单总结一下它们的应用场景。如果你遇到了,知道是怎么回事儿就行了。
|
||||
|
||||
对一个数据结构进行一组连续操作中,大部分情况下时间复杂度都很低,只有个别情况下时间复杂度比较高,而且这些操作之间存在前后连贯的时序关系,这个时候,我们就可以将这一组操作放在一块儿分析,看是否能将较高时间复杂度那次操作的耗时,平摊到其他那些时间复杂度比较低的操作上。而且,在能够应用均摊时间复杂度分析的场合,一般均摊时间复杂度就等于最好情况时间复杂度。
|
||||
|
||||
尽管很多数据结构和算法书籍都花了很大力气来区分平均时间复杂度和均摊时间复杂度,但其实我个人认为,**均摊时间复杂度就是一种特殊的平均时间复杂度**,我们没必要花太多精力去区分它们。你最应该掌握的是它的分析方法,摊还分析。至于分析出来的结果是叫平均还是叫均摊,这只是个说法,并不重要。
|
||||
|
||||
## 内容小结
|
||||
|
||||
今天我们学习了几个复杂度分析相关的概念,分别有:最好情况时间复杂度、最坏情况时间复杂度、平均情况时间复杂度、均摊时间复杂度。之所以引入这几个复杂度概念,是因为,同一段代码,在不同输入的情况下,复杂度量级有可能是不一样的。
|
||||
|
||||
在引入这几个概念之后,我们可以更加全面地表示一段代码的执行效率。而且,这几个概念理解起来都不难。最好、最坏情况下的时间复杂度分析起来比较简单,但平均、均摊两个复杂度分析相对比较复杂。如果你觉得理解得还不是很深入,不用担心,在后续具体的数据结构和算法学习中,我们可以继续慢慢实践!
|
||||
|
||||
## 课后思考
|
||||
|
||||
我们今天学的几个复杂度分析方法,你都掌握了吗?你可以用今天学习的知识,来分析一下下面这个add()函数的时间复杂度。
|
||||
|
||||
```
|
||||
// 全局变量,大小为10的数组array,长度len,下标i。
|
||||
int array[] = new int[10];
|
||||
int len = 10;
|
||||
int i = 0;
|
||||
|
||||
// 往数组中添加一个元素
|
||||
void add(int element) {
|
||||
if (i >= len) { // 数组空间不够了
|
||||
// 重新申请一个2倍大小的数组空间
|
||||
int new_array[] = new int[len*2];
|
||||
// 把原来array数组中的数据依次copy到new_array
|
||||
for (int j = 0; j < len; ++j) {
|
||||
new_array[j] = array[j];
|
||||
}
|
||||
// new_array复制给array,array现在大小就是2倍len了
|
||||
array = new_array;
|
||||
len = 2 * len;
|
||||
}
|
||||
// 将element放到下标为i的位置,下标i加一
|
||||
array[i] = element;
|
||||
++i;
|
||||
}
|
||||
|
||||
```
|
||||
|
||||
欢迎留言和我分享,我会第一时间给你反馈。
|
||||
Reference in New Issue
Block a user