mirror of
https://github.com/cheetahlou/CategoryResourceRepost.git
synced 2025-11-17 14:43:42 +08:00
mod
This commit is contained in:
91
极客时间专栏/程序员的数学基础课/加餐/数学专栏课外加餐(一) | 我们为什么需要反码和补码?.md
Normal file
91
极客时间专栏/程序员的数学基础课/加餐/数学专栏课外加餐(一) | 我们为什么需要反码和补码?.md
Normal file
@@ -0,0 +1,91 @@
|
||||
<audio id="audio" title="数学专栏课外加餐(一) | 我们为什么需要反码和补码?" controls="" preload="none"><source id="mp3" src="https://static001.geekbang.org/resource/audio/5f/08/5f59716a0fd62177dac57420e9851008.mp3"></audio>
|
||||
|
||||
你好,我是黄申。欢迎来到第一次课外加餐时间。
|
||||
|
||||
专栏已经更新了几讲,看到这么多人在留言区写下自己的疑惑和观点,我非常开心。很多同学在留言里提出了很多非常好的问题,所以我决定每隔一段时间,对留言里的疑问、有代表性的问题做个集中的解答,也是对我们主线内容做一个补充,希望对你有帮助。
|
||||
|
||||
## 什么是符号位?为什么要有符号位?
|
||||
|
||||
在[第1讲](https://time.geekbang.org/column/article/71840)里,我介绍了十进制数转二进制数。这里面很多人对逻辑右移和算术右移中提到的符号位和补码有疑惑。这里面涉及了几个重要的概念,包括符号位、溢出、原码、反码和补码。我详细讲一下这几个点的来龙去脉。
|
||||
|
||||
首先我们来看,**什么是符号位,为什么要有符号位**?用一句话来概括就是,**符号位是有符号二进制数中的最高位,我们需要它来表示负数。**
|
||||
|
||||
在实际的硬件系统中,计算机CPU的运算器只实现了加法器,而没有实现减法器。那么计算机如何做减法呢?我们可以通过加上一个负数来达到这个目的。比如,3-2可以看作3+(-2)。因此,负数的表示对于计算机中的二进制减法至关重要。
|
||||
|
||||
那么,接下来的问题就是,**如何让计算机理解哪些是正数,哪些是负数呢**?为此,人们把二进制数分为有符号数(signed)和无符号数(unsigned)。
|
||||
|
||||
如果是有符号数,那么最高位就是符号位。当符号位为0时,表示该数值为正数;当符号位为1时,表示该数值为负数。例如一个8位的有符号位二进制数10100010,最高位是1,这就表示它是一个负数。
|
||||
|
||||
如果是无符号数,那么最高位就不是符号位,而是二进制数字的一部分,例如一个8位的无符号位二进制数10100010,我们可以通过第1讲讲过的内容,换算出它所对应的十进制数是162。由于没有表示负数的符号位,所有无符号位的二进制都代表正数。
|
||||
|
||||
有些编程语言,比如Java,它所有和数字相关的数据类型都是有符号位的;而有些编程语言,比如C语言,它有诸如unsigned int这种无符号位的数据类型。
|
||||
|
||||
下面我们来看,**什么是溢出?**
|
||||
|
||||
在数学的理论中,数字可以有无穷大,也有无穷小。可是,现实中的计算机系统,总有一个物理上的极限(比如说晶体管的大小和数量),因此不可能表示无穷大或者无穷小的数字。对计算机而言,无论是何种数据类型,都有一个上限和下限。
|
||||
|
||||
在Java中,int型是32位,它的最大值也就是上限是2^31-1(最高位是符号位,所以是2的31次方而不是32次方),最小值也就是下限是-2^31。而long型是64位,它的最大值,也就是上限是2^63-1;最小值,也就是下限是-2^63。
|
||||
|
||||
对于n位的数字类型,符号位是1,后面n-1位全是0,我们把这种情形表示为-2^(n-1) ,而不是2^(n-1)。一旦某个数字超过了这些限定,就会发生溢出。如果超出上限,就叫**上溢出**(overflow)。如果超出了下限,就叫**下溢出**(underflow)。
|
||||
|
||||
那么**溢出之后会发生什么呢?**我以上溢出为例来给你解释。
|
||||
|
||||
n位数字的最大的正值,其符号位为0,剩下的n-1位都为1,再增大一个就变为了符号位为1,剩下的n-1位都为0。而符号位是1,后面n-1位全是0,我们已经说过这表示-2^(n-1)。
|
||||
|
||||
<img src="https://static001.geekbang.org/resource/image/10/36/10974fab2acf1ebd3cd3938387b65c36.jpg" alt="">
|
||||
|
||||
那么就是说,上溢出之后,又从下限开始,最大的数值加1,就变成了最小的数值,周而复始,这不就是余数和取模的概念吗?下面这个图可以帮助你的理解。
|
||||
|
||||
<img src="https://static001.geekbang.org/resource/image/57/71/57e275c509cb477588b8c19b63df0b71.jpg" alt="">
|
||||
|
||||
其中右半部分的虚线表示已经溢出的区间,而为了方便你理解,我将溢出后所对应的数字也标在了虚线的区间里。由此可以看到,所以说,**计算机数据的溢出,就相当于取模。**而用于取模的除数就是数据类型的上限减去下限的值,再加上1,也就是(2^(n-1)-1)-(-2^(n-1))+1=2x2^(n-1)-1+1=2^n-1+1。
|
||||
|
||||
你可能会好奇,这个除数为什么不直接写成2^n呢?这是因为2^n已经是n+1位了,已经超出了n位所能表示的范围。
|
||||
|
||||
## 二进制的原码、反码及补码
|
||||
|
||||
理解了符号位和溢出,我接下来说说,什么是二进制的原码、反码和补码,以及我们为什么需要它们。
|
||||
|
||||
**原码**就是我们看到的二进制的原始表示。对于有符号的二进制来说,原码的最高位是符号位,而其余的位用来表示该数字绝对值的二进制。所以+2的原码是000…010,-2的的原码是100.…010。
|
||||
|
||||
那么我们是不是可以直接使用负数的原码来进行减法计算呢?答案是否定的。我还是以3+(-2)为例。
|
||||
|
||||
假设我们使用Java中的32位整型来表示2,它的十进制是000…010。最低的两位是10,前面的高位都是0。如果我们使用-2的原码,也就是100…010,然后我们把3的二进制原码000…011和-2的二进制原码100…010相加,会得到100…0101。具体计算你可以看我画的这幅图。
|
||||
|
||||
<img src="https://static001.geekbang.org/resource/image/26/6b/267986137720c8a14e45fa3bb46f736b.jpg" alt="">
|
||||
|
||||
二进制编码上的加减法和十进制类似,只不过,在加法中,十进制是满10才进一位,二进制加法中只要满2就进位;同样,在减法中,二进制借位后相当于2而不是10。
|
||||
|
||||
相加后的结果是二进制100…0101,它的最高位是1,表示负数,而最低的3位是101,表示5,所以结果就是-5的原码了,而3+(-2)应该等于1,两者不符。
|
||||
|
||||
如果负数的原码并不适用于减法操作,那该怎么办呢?这个问题的解答还要依赖计算机的溢出机制。
|
||||
|
||||
我刚刚介绍了溢出以及取模的特性,我们可以充分利用这一点,对计算机里的减法进行变换。假设有i-j,其中j为正数。如果i-j加上取模的除数,那么会形成溢出,并正好能够获得我们想要的i-j的运算结果。如果我说的还是不太好理解,你可以参考下面这张图。
|
||||
|
||||
<img src="https://static001.geekbang.org/resource/image/d3/4f/d3788c6ecac1f8d8eee9552c7452ca4f.jpg" alt="">
|
||||
|
||||
我们把这个过程用表达式写出来就是i-j=(i-j)+(2^n-1+1)=i+(2^n-1-j+1)。
|
||||
|
||||
其中2^n-1的二进制码在不考虑符号位的情况下是n-1位的1,那么2^n-1-2的结果就是下面这样的:
|
||||
|
||||
<img src="https://static001.geekbang.org/resource/image/41/0e/413470413ff2fe1ce02fa51f07884c0e.jpg" alt="">
|
||||
|
||||
从结果可以观察出来,所谓2^n-1-j相当于对正数j的二进制原码,除了符号位之外按位取反(0变1,1变0)。由于负数-j和正数j的原码,除了符号位之外都是相同的,所以,2^n-1-j也相当于对负数-j的二进制原码,除了符号位之外按位取反。我们把2^n-1-j所对应的编码称为负数-j的反码。所以,-2的反码就是1111…1101。
|
||||
|
||||
有了反码的定义,那么就可以得出i-j=i+(2^n-1-j+1)=i的原码+(-j的反码)+1。
|
||||
|
||||
如果我们把-j的反码加上1定义为-j的补码,就可以得到i-j=i的原码+(-j的补码)。
|
||||
|
||||
由于正数的加法无需负数的加法这样的变换,因此正数的原码、反码和补码三者都是一样的。最终,我们可以得到i-j=i的补码+(-j的补码)。
|
||||
|
||||
换句话说,计算机可以通过补码,正确地运算二进制减法。我们再来用3+(-2)来验证一下。正数3的补码仍然是0000…0011,-2的补码是1111…1110,两者相加,最后得到了正确的结果1的二进制。
|
||||
|
||||
<img src="https://static001.geekbang.org/resource/image/3f/1f/3f4133ef63fd467bd389f58820c72d1f.jpg" alt="">
|
||||
|
||||
可见,溢出本来是计算机数据类型的一种局限性,但在负数的加法上,它倒是可以帮我们大忙。
|
||||
|
||||
最后,给你留一道思考题吧。理解了负数的原码、反码和补码之后,你能算算看,8位的有符号位二进制数10100010,对应的是哪个十进制数吗?
|
||||
|
||||
好了,关于二进制的补充内容就到这里了。欢迎你继续留言给我。你也可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。
|
||||
|
||||
|
||||
73
极客时间专栏/程序员的数学基础课/加餐/数学专栏课外加餐(三):程序员需要读哪些数学书?.md
Normal file
73
极客时间专栏/程序员的数学基础课/加餐/数学专栏课外加餐(三):程序员需要读哪些数学书?.md
Normal file
@@ -0,0 +1,73 @@
|
||||
<audio id="audio" title="数学专栏课外加餐(三):程序员需要读哪些数学书?" controls="" preload="none"><source id="mp3" src="https://static001.geekbang.org/resource/audio/0f/b2/0f87307b4f2d9f43968d7a1387760bb2.mp3"></audio>
|
||||
|
||||
你好,我是黄申。欢迎来到第三次加餐时间!之前很多同学问我能否推荐一些数学方面的书,今天我就来分享几本。
|
||||
|
||||
数学领域涉及的面很广,相关的书籍也很多。咱们这个专栏我从数学的三个主要方面,介绍程序员常用的数学知识,包括离散数学、概率和统计和线性代数。所以我还是围绕这个专栏的三大模块,来给你推荐相应的书籍。
|
||||
|
||||
## 基础思想篇推荐书籍:《离散数学及其应用》
|
||||
|
||||
第一模块是“基础思想篇”。这一模块,我尝试用实际项目中的案例,把不同的离散数学知识点串了起来,并加以解释。如果你对其中某些点,有更深的兴趣,可以参考Kenneth H·Rosen所著的《**离散数学及其应用**》,英文原名是$Discrete$ $Mathematics$ $and$ $Its$ $Applications$。
|
||||
|
||||
<img src="https://static001.geekbang.org/resource/image/42/48/4219469a129f55f25373045081867848.jpg" alt="">
|
||||
|
||||
这本书是国外高校的教材,对所有离散数学的知识点介绍的比较全面。咱们讲过的同余定理、数学归纳法、递归、分治算法、排列和组合、树和树的遍历、图和最短路径、逻辑以及集合等概念,这里面都有非常详细的介绍。我看很多人对这些内容很感兴趣,可以参考这本书的相关章节,深入学习。
|
||||
|
||||
除此之外,这本书还有几个特点,我觉得非常好。
|
||||
|
||||
第一,介绍了不少证明的方法。计算机算法的正确性是很重要的,专栏中我在不同的地方介绍并使用了数学归纳法,在解释Dijkstra算法时也用到了反证法和分情形证明的思想。数学中用于证明的方法其实还有很多,这本书涉及了穷举证明、存在性证明等。相信这些证明方法,可以让你更好地理解,为什么有些算法是可行的,有些算法是有问题的,并帮助你在理解算法、学习算法,甚至设计算法时保证它的正确性。
|
||||
|
||||
第二,介绍了不少逻辑和集合相关的知识。这些我在专栏里没有涉及太多。主要是因为程序员经常接触各种条件和查询语句,对这些内容已经很熟悉了,所以我没有花太多的篇幅。如果你想知道更多关于逻辑、集合和布尔代数这些基础内容的解释,也可以看看这本书。
|
||||
|
||||
第三,和编程结合得非常紧密。主要体现在两个方面:第一,它介绍了一些基于伪代码的算法,也对这些算法进行了时间和空间复杂度的分析,例如常见的排序、搜索算法。第二,它介绍了不少离散数学在计算机科学中的应用场景,例如关系型数据库和SQL查询语言是如何设计的。另外,它也提供了不少课后习题,可以加深你对这些知识点的理解。所以,当你读到这本书的某些章节时,会发现,怎么和计算机的数据结构和算法这么像啊?确实,离散数学和数据结构和基础算法有着紧密的联系,加上这本书使用了不少计算机的语言、例子和应用,自然有不少共同的内容了。
|
||||
|
||||
专栏的第二模块是“概率统计篇”,这本书也谈到了一些离散概率的内容。在学习第二个模块的时候,你也可以搭配这本书的内容来看,相信对你会很有帮助。
|
||||
|
||||
当然,这本书的某些内容讲得比较深,而且有些知识点在程序员日常编码中基本上用不到。你可以结合我专栏的主题和内容,并针对自己的日常工作,挑出一些重点来学习。
|
||||
|
||||
## 概率统计篇推荐书籍:《概率统计》
|
||||
|
||||
专栏第一模块已经结束了,接下来的“概率统计篇”我会着重介绍概率统计及其在计算机领域中的主要应用。你可以预先阅读一些相关的书籍,热热身。这里我推荐另一本国外高校的教材,Morris H.DeGroot和Mark J.Schervish所著的《**概率统计**》,英文原名是$Probability$ $and$ $Statistics$。本书的两位作者,DeGroot和Schervish都是贝叶斯统计理论的重量级人物。
|
||||
|
||||
<img src="https://static001.geekbang.org/resource/image/8a/76/8aa4bee1c0b435fd4dbe8bae7f955076.png" alt="">
|
||||
|
||||
这本书包含了概率论常用的知识点,包括了随机变量及其分布、条件概率、期望值、贝叶斯理论、马尔科夫链等等。专栏的第二模块,我也会介绍这些知识点,以及它们在计算机领域,特别是机器学习中的应用。
|
||||
|
||||
我们再来说这本书的几个特色。
|
||||
|
||||
第一,这本书通常以列举非常实用的例子开始,然后详尽地讲解理论及其扩展应用。比如,一开篇解释“概率”的时候,作者使用了抛硬币的例子,分别从“频率”“经典”和“主观”的角度来解释概率,并又阐述了“概率理论”和“概率”有何不同。这样的写法会给你很多思路上的启发,让你获得更直观的认识。文章中也不乏很多来源于各个领域的案例,比如经济学和金融学等等。
|
||||
|
||||
第二,对概念的解释非常详细。比如“充分统计量(sufficient statistic)”这个概念,一般的书可能两句话就解释完了,然后就是大堆的公式,但是这本书用了差不多两页的篇幅来解释它。我觉得这点对自学者而言是非常有帮助的。
|
||||
|
||||
第三,这本书几乎没有任何涉及计算机算法和代码的部分,哪怕是伪代码也没有。我想作者是希望完全从概率和统计本身的角度来写,而避免过多的实现细节。不过,对于这点你也不用过于担心,因为在专栏中,我会结合一些具体的机器学习算法及其应用,给你展示这些理论知识是如何运用到实践中的。
|
||||
|
||||
总的来说,这是一本相当不错的概率和统计方面的专业书籍。如果你预先读读这本书的内容,对概念有了理解,再看我的专栏也会更有感触。
|
||||
|
||||
## 线性代数篇推荐书籍:《线性代数及其应用》
|
||||
|
||||
如今的机器学习模型,除了基于概率和统计,还会使用线性代数的知识,本专栏的第三个模块就是“线性代数”。介绍线性代数的书籍不少,我这里推荐一本David C. Lay和Steven R. Lay合著的《**线性代数及其应用**》,英文原名$Linear$ $Algebra$ $and$ $Its$ $Applications$。
|
||||
|
||||
<img src="https://static001.geekbang.org/resource/image/41/65/4103851f3c50c4f1048bbe144178c965.png" alt="">
|
||||
|
||||
这本书最大的特色在于:
|
||||
|
||||
第一,使用通俗易懂的口吻和大量的插图来阐述概念。而且在我看来,这些概念他解释得也相当清楚,比如线性方程、向量空间、特征向量、奇异值的分解等等,这些都是在机器学习算法中常用的模型或技术。
|
||||
|
||||
第二,写作的逻辑也相当清晰。这本书基本上都是先提出一个实际的问题,然后对这个问题进行分析,最终才进行定理式的归纳和证明。通俗易懂的同时,不乏数学的严谨性。和前面两本推荐的书一样,这本书中也结合了很多生动的案例,特别是经济学领域的。
|
||||
|
||||
第三,这本书还配套了一本优秀的学习指南$Linear$ $Algebra$ $and$ $Its$ $Applications$: $Study$ $Guide$。这本指南,加上原书课后的习题,对于自学的读者巩固知识很有帮助。不过我没有找到这本指南的中文翻译版。如果哪位同学有好的练习题推荐,也可以在留言区分享出来。
|
||||
|
||||
## 入门、通识类书籍推荐
|
||||
|
||||
除了上述三本重量级的专业书籍,我觉得还有几本通俗的入门书也是不错的。
|
||||
|
||||
一套是几位日本作家写的《**程序员的数学**》系列,包括《程序员的数学》《程序员的数学:概率统计》《程序员的数学:线性代数》。这套书也强调了和计算机领域紧密相连的三大模块。这几位作者使用朴实的语言,把最重要的一些概念给说明白了。相比前面三本,这套书所涵盖的内容可能没有那么全面、也没有那么深入,不过对于初学者来讲,是不错的入门书籍。
|
||||
|
||||
<img src="https://static001.geekbang.org/resource/image/c1/69/c1cf06f722b99ee0a3efd2a530c33c69.png" alt="">
|
||||
|
||||
最后一本书是吴军老师的《**数学之美**》。这本书最大的特点是和计算机领域结合得非常紧密。所有的问题和解决方案,最后都联系到了计算机中的某个应用。可以说,作者更多的是从计算机从业者的角度出发,深入探讨了背后的数学思想和知识。除此之外,吴军老师广博的学识和深刻的见解,在这本书中也体现得淋漓尽致。这本书的写作风格对我写作这个专栏也是非常有启发的。
|
||||
|
||||
<img src="https://static001.geekbang.org/resource/image/07/21/07a3b6e3dcbb918f3f9458c23dc32921.png" alt="">
|
||||
|
||||
读书在精,不在多。我选的这些书,你可能多多少少见过,但是能静下心来读完一本的人可能寥寥无几。我相信,订阅这个专栏的你,一定有颗不甘于平庸的心。你一定有你的目标和追求。开卷有益,坚持下去,学下去、读下去,相信你一定会有所收获!
|
||||
|
||||
|
||||
194
极客时间专栏/程序员的数学基础课/加餐/数学专栏课外加餐(二) | 位操作的三个应用实例.md
Normal file
194
极客时间专栏/程序员的数学基础课/加餐/数学专栏课外加餐(二) | 位操作的三个应用实例.md
Normal file
@@ -0,0 +1,194 @@
|
||||
<audio id="audio" title="数学专栏课外加餐(二) | 位操作的三个应用实例" controls="" preload="none"><source id="mp3" src="https://static001.geekbang.org/resource/audio/51/18/5171039ec2a0ad7ea56e8ce968860d18.mp3"></audio>
|
||||
|
||||
你好,我是黄申。欢迎来到第二次课外加餐时间。
|
||||
|
||||
## 位操作的应用实例
|
||||
|
||||
留言里很多同学对位操作比较感兴趣,我这里通过计算机中的位操作的几个应用,来帮你理解位操作。
|
||||
|
||||
### 1.验证奇偶数
|
||||
|
||||
在[第2节](https://time.geekbang.org/column/article/72163)里,我提到了,奇偶数其实也是余数的应用。编程中,我们也可以用位运算来判断奇偶数。
|
||||
|
||||
仔细观察,你会发现偶数的二进制最后一位总是0,而奇数的二进制最后一位总是1,因此对于给定的某个数字,我们可以把它的二进制和数字1的二进制进行按位“与”的操作,取得这个数字的二进制最后一位,然后再进行判断。
|
||||
|
||||
我这里写了一段代码,比较了使用位运算和模运算的效率,我统计了进行1亿次奇偶数判断,使用这两种方法各花了多少毫秒。如果在你的机器上两者花费的时间差不多,你可以尝试增加统计的次数。在我的机器上测试下来,同样次数的奇偶判断,使用位运算的方法耗时明显更低。
|
||||
|
||||
```
|
||||
public class Lesson1_append1 {
|
||||
|
||||
public static void main(String[] args) {
|
||||
|
||||
int even_cnt = 0, odd_cnt = 0;
|
||||
long start = 0, end = 0;
|
||||
|
||||
start = System.currentTimeMillis();
|
||||
for (int i = 0; i < 100000000; i++) {
|
||||
|
||||
if((i & 1) == 0){
|
||||
even_cnt ++;
|
||||
}else{
|
||||
odd_cnt ++;
|
||||
}
|
||||
|
||||
}
|
||||
end = System.currentTimeMillis();
|
||||
System.out.println(end - start);
|
||||
System.out.println(even_cnt + " " + odd_cnt);
|
||||
|
||||
even_cnt = 0;
|
||||
odd_cnt = 0;
|
||||
start = 0;
|
||||
end = 0;
|
||||
|
||||
start = System.currentTimeMillis();
|
||||
for (int i = 0; i < 100000000; i++) {
|
||||
|
||||
if((i % 2) == 0){
|
||||
even_cnt ++;
|
||||
}else{
|
||||
odd_cnt ++;
|
||||
}
|
||||
|
||||
}
|
||||
end = System.currentTimeMillis();
|
||||
System.out.println(end - start);
|
||||
System.out.println(even_cnt + " " + odd_cnt);
|
||||
|
||||
}
|
||||
}
|
||||
|
||||
```
|
||||
|
||||
### 2.交换两个数字
|
||||
|
||||
你应该知道,要想在计算机中交换两个变量的值,通常都需要一个中间变量,来临时存放被交换的值。不过,利用异或的特性,我们就可以避免这个中间变量。具体的代码如下:
|
||||
|
||||
```
|
||||
x = (x ^ y);
|
||||
y = x ^ y;
|
||||
x = x ^ y;
|
||||
|
||||
```
|
||||
|
||||
把第一步代入第二步中, 可以得到:
|
||||
|
||||
```
|
||||
y = (x ^ y) ^ y = x ^ (y ^ y) = x ^ 0 = x
|
||||
|
||||
```
|
||||
|
||||
把第一步和第二步的结果代入第三步中,可以得到:
|
||||
|
||||
```
|
||||
x = (x ^ y) ^ x = (x ^ x) ^ y = 0 ^ y = y
|
||||
|
||||
```
|
||||
|
||||
这里用到异或的两个特性,第一个是两个相等的数的异或为0,比如x^x= 0;第二个是任何一个数和0异或之后,还是这个数不变,比如0^y=y。
|
||||
|
||||
### 3.集合操作
|
||||
|
||||
集合和逻辑的概念是紧密相连的,因此集合的操作也可以通过位的逻辑操作来实现。
|
||||
|
||||
假设我们有两个集合{1, 3, 8}和{4, 8}。我们先把这两个集合转为两个8位的二进制数,从右往左以1到8依次来编号。
|
||||
|
||||
如果某个数字在集合中,相应的位置1,否则置0。那么第一个集合就可以转换为10000101,第二个集合可以转换为10001000。那么这两个二进制数的按位与就是10000000,只有第8位是1,代表了两个集合的交为{8}。而这两个二进制数的按位或就是10001101,第8位、第4位、第3位和第1位是1,代表了两个集合的并为{1, 3, 4, 8}。
|
||||
|
||||
说到这里,不禁让我想起Elasticsearch的BitSet。我曾经使用Elasticsearch这个开源的搜索引擎来实现电商平台的搜索。
|
||||
|
||||
当时为了提升查询的效率,我使用了Elasticsearch的Filter查询。我研究了一下这个Filter查询的原理,发现它并没有考虑各种文档的相关性得分,因此它可以把文档匹配关键字的情况,转换成了一个BitSet。
|
||||
|
||||
你可以把BitSet想成一个巨大的位数组。每一位对应了某篇文档是否和给定的关键词匹配,如果匹配,这一位就置1,否则就置0。每个关键词都可以拥有一个BitSet,用于表示哪些文档和这个关键词匹配。那么要查看同时命中多个关键词的文档有哪些,就是对多个BitSet求交集。利用上面介绍的按位与,这点是很容易实现的,而且效率相当之高。
|
||||
|
||||
## 二分查找时的两个细节
|
||||
|
||||
[第3节](https://time.geekbang.org/column/article/72243)我介绍了迭代法,并讲解了相关的代码实现。其中,有两个细节我在这里补充说明一下。
|
||||
|
||||
第一个是关于**中间值的计算**。我优化了两处代码,分别是Lesson3_2的第16行和Lesson3_3的第22行。
|
||||
|
||||
其中,Lesson3_2的第16行由原来的:
|
||||
|
||||
```
|
||||
double middle = (min + max) / 2;
|
||||
|
||||
```
|
||||
|
||||
改为:
|
||||
|
||||
```
|
||||
double middle = min + (max - min) / 2;
|
||||
|
||||
```
|
||||
|
||||
Lesson3_3的第22行由原来的:
|
||||
|
||||
```
|
||||
int middle = (left + right) / 2;
|
||||
|
||||
```
|
||||
|
||||
改为:
|
||||
|
||||
```
|
||||
int middle = left + (right - left) / 2;
|
||||
|
||||
```
|
||||
|
||||
这两处改动的初衷都是一样的,是为了避免溢出。在第一篇加餐中,介绍负数的加法时,我已经解释了什么是溢出。那这里为什么会发生溢出呢?我以第二处代码为例来讲解下。
|
||||
|
||||
从理论上来说,(left+right)/2=left+(right-left)/2。可是,我们之前说过,计算机系统有自身的局限性,无论是何种数据类型,都有一个上限或者下限。一旦某个数字超过了这些限定,就会发生溢出。
|
||||
|
||||
对于变量left和right而言,在定义的时候都指定了数据类型,因此不会超出范围。可是,left+right的和就不一定了。从下图可以看出,当left和right都已经很接近某个数据类型的最大值时,两者的和就会超过这个最大值,发生上溢出。这也是为什么最好不用通过(left+right)/2来求两者的中间值。
|
||||
|
||||
<img src="https://static001.geekbang.org/resource/image/35/cc/35e891800614511659e0cbf11060b5cc.jpg" alt="">
|
||||
|
||||
那么为什么left + (right -left)/2就不会溢出呢?首先,right是没有超过最大值的,那么(right -left)/2自然也就没有超过范围,即使left加上了(right -left)/2,也不会超过right的值,所以运算的整个过程都不会产生溢出。
|
||||
|
||||
第二个是关于误差百分比和绝对误差。在Lesson3_2中有这么一行:
|
||||
|
||||
```
|
||||
double delta = Math.abs((square / n) - 1);
|
||||
|
||||
|
||||
```
|
||||
|
||||
这里我使用了误差的百分比,也就是误差值占输入值n的比例。其实绝对误差也是可以的,不过我在这里考虑了n的大小。比如,如果n是一个很小的正整数,比如个位数,那么误差可能要精确到0.00001。但是如果n是一个很大的数呢?比如几个亿,那么精确到0.00001可能没有多大必要,也许精确到0.1也就可以了。所以,使用误差的百分比可以避免由于不同的n,导致的迭代次数有过大差异。
|
||||
|
||||
由于这里n是大于1的正整数,所以可以直接拿平方值square去除以n。否则,我们要单独判断n为0的情况,并使用绝对误差。
|
||||
|
||||
## 关于迭代法、数学归纳法和递归
|
||||
|
||||
从第3节到第6节,我连续介绍了迭代法、数学归纳法、递归。这些概念之间存在相互联系,又不完全一样,很多同学对此也有一些疑惑。所以,这里我来帮你梳理一下。
|
||||
|
||||
迭代法和递归都是通过不断反复的步骤,计算数值或进行操作的方法。迭代一般适合正向思维,而递归一般适合逆向思维。而递归回溯的时候,也体现了正向递推的思维。它们本身都是抽象的流程,可以有不同的编程实现。
|
||||
|
||||
对于某些重复性的计算,数学归纳法可以从理论上证明某个结论是否成立。如果成立,它可以大大节约迭代法中数值计算部分的时间。不过,在使用数学归纳法之前,我们需要通过一些数学知识,假设命题,并证明该命题成立。
|
||||
|
||||
对于那些无法使用数学归纳法来证明的迭代问题,我们可以通过编程实现。这里需要注意的是,广义上来说,递归也是迭代法的一种。不过,在计算机编程中,我们所提到的迭代是一种具体的编程实现,是指使用循环来实现的正向递推,而递归是指使用函数的嵌套调用来实现的逆向递推。当然,两种实现通常是可以相互转换的。
|
||||
|
||||
循环的实现很容易理解,对硬件资源的开销比较小。不过,循环更适合“单线剧情”,例如计算2^n,n!,1+2+3+…+n等等。而对于存在很多“分支剧情”的复杂案例而言,使用递归调用更加合适。
|
||||
|
||||
利用函数的嵌套调用,递归编程可以存储很多中间变量。我们可以很轻松地跟踪不同的分支,而所有这些对程序员基本是透明的。如果这时使用循环,我们不得不自己创建并保存很多中间变量。当然,正是由于这个特性,递归比较消耗硬件资源。
|
||||
|
||||
递归编程本身就体现了分治的思想,这个思想还可以延伸到集群的分布式架构中。最近几年比较主流的MapReduce框架也体现了这种思想。
|
||||
|
||||
综合上面说的几点,你可以大致遵循这样的原则:
|
||||
|
||||
<li>
|
||||
如果一个问题可以被迭代法解决,而且是有关数值计算的,那你就看看是否可以假设命题,并优先考虑使用数学归纳法来证明;
|
||||
</li>
|
||||
<li>
|
||||
如果需要借助计算机,那么优先考虑是否可以使用循环来实现。如果问题本身过于复杂,再考虑函数的嵌套调用,是否可以通过递归将问题逐级简化;
|
||||
</li>
|
||||
<li>
|
||||
如果数据量过大,可以考虑采用分治思想的分布式系统来处理。
|
||||
</li>
|
||||
|
||||
最后,给你留一道思考题吧。
|
||||
|
||||
在1到n的数字中,有且只有唯一的一个数字m重复出现了,其它的数字都只出现一次。请把这个数字找出来。提示:可以充分利用异或的两个特性。
|
||||
|
||||
好了,前面6讲的补充内容就到这里了。欢迎你留言给我。你也可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。
|
||||
|
||||
|
||||
Reference in New Issue
Block a user