This commit is contained in:
louzefeng
2024-07-11 05:50:32 +00:00
parent bf99793fd0
commit d3828a7aee
6071 changed files with 0 additions and 0 deletions

View File

@@ -0,0 +1,294 @@
<audio id="audio" title="12 | 栈空间和堆空间:数据是如何存储的?" controls="" preload="none"><source id="mp3" src="https://static001.geekbang.org/resource/audio/04/5c/04646c9d26ec6b3dd4256cb3cbaf895c.mp3"></audio>
对于前端开发者来说JavaScript的内存机制是一个不被经常提及的概念 因此很容易被忽视。特别是一些非计算机专业的同学对内存机制可能没有非常清晰的认识甚至有些同学根本就不知道JavaScript的内存机制是什么。
但是如果你想成为行业专家,并打造高性能前端应用,那么你就必须要搞清楚**JavaScript的内存机制**了。
其实要搞清楚JavaScript的内存机制并不是一件很困难的事在接下来的三篇文章数据在内存中的存放、JavaScript处理垃圾回收以及V8执行代码我们将通过内存机制的介绍循序渐进带你走进JavaScript内存的世界。
今天我们讲述第一部分的内容——JavaScript中的数据是如何存储在内存中的。虽然JavaScript并不需要直接去管理内存但是在实际项目中为了能避开一些不必要的坑你还是需要了解数据在内存中的存储方式的。
## 让人疑惑的代码
首先,我们先看下面这两段代码:
```
function foo(){
var a = 1
var b = a
a = 2
console.log(a)
console.log(b)
}
foo()
```
```
function foo(){
var a = {name:&quot;极客时间&quot;}
var b = a
a.name = &quot;极客邦&quot;
console.log(a)
console.log(b)
}
foo()
```
若执行上述这两段代码,你知道它们输出的结果是什么吗?下面我们就来一个一个分析下。
执行第一段代码打印出来a的值是2b的值是1这没什么难以理解的。
接着再执行第二段代码你会发现仅仅改变了a中name的属性值但是最终a和b打印出来的值都是`{name:"极客邦"}`。这就和我们预期的不一致了因为我们想改变的仅仅是a的内容但b的内容也同时被改变了。
要彻底弄清楚这个问题我们就得先从“JavaScript是什么类型的语言”讲起。
## JavaScript是什么类型的语言
每种编程语言都具有内建的数据类型但它们的数据类型常有不同之处使用方式也很不一样比如C语言在定义变量之前就需要确定变量的类型你可以看下面这段C代码
```
int main()
{
int a = 1;
char* b = &quot;极客时间&quot;;
bool c = true;
return 0;
}
```
上述代码声明变量的特点是:在声明变量之前需要先定义变量类型。**我们把这种在使用之前就需要确认其变量数据类型的称为静态语言**。
**相反地,我们把在运行过程中需要检查数据类型的语言称为动态语言**。比如我们所讲的JavaScript就是动态语言因为在声明变量之前并不需要确认其数据类型。
虽然C语言是静态但是在C语言中我们可以把其他类型数据赋予给一个声明好的变量
```
c = a
```
前面代码中我们把int型的变量a赋值给了bool型的变量c这段代码也是可以编译执行的因为在赋值过程中C编译器会把int型的变量悄悄转换为bool型的变量我们通常把这种偷偷转换的操作称为**隐式类型转换**。而**支持隐式类型转换的语言称为弱类型语言,不支持隐式类型转换的语言称为强类型语言**。在这点上C和JavaScript都是弱类型语言。
对于各种语言的类型,你可以参考下图:
<img src="https://static001.geekbang.org/resource/image/36/f0/36f0f5bdce0a6d8c36cbb8a76931cff0.png" alt="">
## JavaScript的数据类型
现在我们知道了,**JavaScript是一种弱类型的、动态的语言**。那这些特点意味着什么呢?
- **弱类型**意味着你不需要告诉JavaScript引擎这个或那个变量是什么数据类型JavaScript引擎在运行代码的时候自己会计算出来。
- **动态**,意味着你可以使用同一个变量保存不同类型的数据。
那么接下来我们再来看看JavaScript的数据类型你可以看下面这段代码
```
var bar
bar = 12
bar = &quot;极客时间&quot;
bar = true
bar = null
bar = {name:&quot;极客时间&quot;}
```
从上述代码中你可以看出我们声明了一个bar变量然后可以使用各种类型的数据值赋予给该变量。
在JavaScript中如果你想要查看一个变量到底是什么类型可以使用“typeof”运算符。具体使用方式如下所示
```
var bar
console.log(typeof bar) //undefined
bar = 12
console.log(typeof bar) //number
bar = &quot;极客时间&quot;
console.log(typeof bar)//string
bar = true
console.log(typeof bar) //boolean
bar = null
console.log(typeof bar) //object
bar = {name:&quot;极客时间&quot;}
console.log(typeof bar) //object
```
执行这段代码你可以看到打印出来了不同的数据类型有undefined、number、boolean、object等。那么接下来我们就来谈谈JavaScript到底有多少种数据类型。
其实JavaScript中的数据类型一种有8种它们分别是
<img src="https://static001.geekbang.org/resource/image/85/15/85b87602eac65356c9171bbd023f5715.png" alt="">
了解这些类型之后,还有三点需要你注意一下。
第一点使用typeof检测Null类型时返回的是Object。这是当初JavaScript语言的一个Bug一直保留至今之所以一直没修改过来主要是为了兼容老的代码。
第二点Object类型比较特殊它是由上述7种类型组成的一个包含了key-value对的数据类型。如下所示
```
let myObj = {
name:'极客时间',
update:function(){....}
}
```
从中你可以看出来Object是由key-value组成的其中的vaule可以是任何类型包括函数这也就意味着你可以通过Object来存储函数Object中的函数又称为方法比如上述代码中的update方法。
第三点我们把前面的7种数据类型称为**原始类型**,把最后一个对象类型称为**引用类型**之所以把它们区分为两种不同的类型是因为它们在内存中存放的位置不一样。到底怎么个不一样法呢接下来我们就来讲解一下JavaScript的原始类型和引用类型到底是怎么储存的。
## 内存空间
要理解JavaScript在运行过程中数据是如何存储的你就得先搞清楚其存储空间的种类。下面是我画的JavaScript的内存模型你可以参考下
<img src="https://static001.geekbang.org/resource/image/62/57/6293f5315a5bafbd3ba00ee732bfbf57.png" alt="">
从图中可以看出, 在JavaScript的执行过程中 主要有三种类型内存空间,分别是**代码空间、栈空间**和**堆空间**。
其中的代码空间主要是存储可执行代码的,这个我们后面再做介绍,今天主要来说说栈空间和堆空间。
### 栈空间和堆空间
这里的栈空间就是我们之前反复提及的调用栈,是用来存储执行上下文的。为了搞清楚栈空间是如何存储数据的,我们还是先看下面这段代码:
```
function foo(){
var a = &quot;极客时间&quot;
var b = a
var c = {name:&quot;极客时间&quot;}
var d = c
}
foo()
```
前面文章我们已经讲解过了当执行一段代码时需要先编译并创建执行上下文然后再按照顺序执行代码。那么下面我们来看看当执行到第3行代码时其调用栈的状态你可以参考下面这张调用栈状态图
<img src="https://static001.geekbang.org/resource/image/94/fe/9411221e463a86d043a3461d49c9f1fe.png" alt="">
从图中可以看出来当执行到第3行时变量a和变量b的值都被保存在执行上下文中而执行上下文又被压入到栈中所以你也可以认为变量a和变量b的值都是存放在栈中的。
接下来继续执行第4行代码由于JavaScript引擎判断右边的值是一个引用类型这时候处理的情况就不一样了JavaScript引擎并不是直接将该对象存放到变量环境中而是将它分配到堆空间里面分配后该对象会有一个在“堆”中的地址然后再将该数据的地址写进c的变量值最终分配好内存的示意图如下所示
<img src="https://static001.geekbang.org/resource/image/22/bc/22100df5c75fb51037d7a929777c57bc.png" alt="">
从上图你可以清晰地观察到对象类型是存放在堆空间的在栈空间中只是保留了对象的引用地址当JavaScript需要访问该数据的时候是通过栈中的引用地址来访问的相当于多了一道转手流程。
好了,现在你应该知道了**原始类型的数据值都是直接保存在“栈”中的,引用类型的值是存放在“堆”中的**。不过你也许会好奇,为什么一定要分“堆”和“栈”两个存储空间呢?所有数据直接存放在“栈”中不就可以了吗?
答案是不可以的。这是因为JavaScript引擎需要用栈来维护程序执行期间上下文的状态如果栈空间大了话所有的数据都存放在栈空间里面那么会影响到上下文切换的效率进而又影响到整个程序的执行效率。比如文中的foo函数执行结束了JavaScript引擎需要离开当前的执行上下文只需要将指针下移到上个执行上下文的地址就可以了foo函数执行上下文栈区空间全部回收具体过程你可以参考下图
<img src="https://static001.geekbang.org/resource/image/d7/7b/d7153d003a72dbd0a9ca84b59ac3857b.png" alt="">
所以**通常情况下,栈空间都不会设置太大,主要用来存放一些原始类型的小数据**。而引用类型的数据占用的空间都比较大,所以这一类数据会被存放到堆中,**堆空间很大,能存放很多大的数据**,不过缺点是分配内存和回收内存都会占用一定的时间。
解释了程序在执行过程中为什么需要堆和栈两种数据结构后我们还是回到示例代码那里看看它最后一步将变量c赋值给变量d是怎么执行的
在JavaScript中赋值操作和其他语言有很大的不同**原始类型的赋值会完整复制变量值,而引用类型的赋值是复制引用地址**。
所以`d=c`的操作就是把c的引用地址赋值给d你可以参考下图
<img src="https://static001.geekbang.org/resource/image/51/f5/51127624a725a18a0e12e0f5a7aadbf5.png" alt="">
从图中你可以看到变量c和变量d都指向了同一个堆中的对象所以这就很好地解释了文章开头的那个问题通过c修改name的值变量d的值也跟着改变归根结底它们是同一个对象。
### 再谈闭包
现在你知道了作用域内的原始类型数据会被存储到栈空间,引用类型会被存储到堆空间,基于这两点的认知,我们再深入一步,探讨下闭包的内存模型。
这里以[《10 | 作用域链和闭包 代码中出现相同的变量JavaScript引擎是如何选择的](https://time.geekbang.org/column/article/127495)中关于闭包的一段代码为例:
```
function foo() {
var myName = &quot;极客时间&quot;
let test1 = 1
const test2 = 2
var innerBar = {
setName:function(newName){
myName = newName
},
getName:function(){
console.log(test1)
return myName
}
}
return innerBar
}
var bar = foo()
bar.setName(&quot;极客邦&quot;)
bar.getName()
console.log(bar.getName())
```
当执行这段代码的时候你应该有过这样的分析由于变量myName、test1、test2都是原始类型数据所以在执行foo函数的时候它们会被压入到调用栈中当foo函数执行结束之后调用栈中foo函数的执行上下文会被销毁其内部变量myName、test1、test2也应该一同被销毁。
但是在[那篇文章](https://time.geekbang.org/column/article/127495)中我们介绍了当foo函数的执行上下文销毁时由于foo函数产生了闭包所以变量myName和test1并没有被销毁而是保存在内存中那么应该如何解释这个现象呢
要解释这个现象,我们就得站在内存模型的角度来分析这段代码的执行流程。
1. 当JavaScript引擎执行到foo函数时首先会编译并创建一个空执行上下文。
1. 在编译过程中遇到内部函数setNameJavaScript引擎还要对内部函数做一次快速的词法扫描发现该内部函数引用了foo函数中的myName变量由于是内部函数引用了外部函数的变量所以JavaScript引擎判断这是一个闭包于是在堆空间创建换一个“closure(foo)”的对象这是一个内部对象JavaScript是无法访问的用来保存myName变量。
1. 接着继续扫描到getName方法时发现该函数内部还引用变量test1于是JavaScript引擎又将test1添加到“closure(foo)”对象中。这时候堆中的“closure(foo)”对象中就包含了myName和test1两个变量了。
1. 由于test2并没有被内部函数引用所以test2依然保存在调用栈中。
通过上面的分析我们可以画出执行到foo函数中“return innerBar”语句时的调用栈状态如下图所示
<img src="https://static001.geekbang.org/resource/image/f9/db/f9dd29ff5371c247e10546393c904edb.png" alt="">
从上图你可以清晰地看出当执行到foo函数时闭包就产生了当foo函数执行结束之后返回的getName和setName方法都引用“clourse(foo)”对象所以即使foo函数退出了“clourse(foo)”依然被其内部的getName和setName方法引用。所以在下次调用`bar.setName`或者`bar.getName`创建的执行上下文中就包含了“clourse(foo)”。
总的来说,产生闭包的核心有两步:第一步是需要预扫描内部函数;第二步是把内部函数引用的外部变量保存到堆中。
## 总结
好了,今天就讲到这里,下面我来简单总结下今天的要点。
我们介绍了JavaScript中的8种数据类型它们可以分为两大类——**原始类型和引用类型**。
其中,原始类型的数据是存放在**栈**中,引用类型的数据是存放在**堆**中的。堆中的数据是通过引用和变量关联起来的。也就是说JavaScript的变量是没有数据类型的值才有数据类型变量可以随时持有任何类型的数据。
然后我们分析了在JavaScript中将一个原始类型的变量a赋值给b那么a和b会相互独立、互不影响但是将引用类型的变量a赋值给变量b那会导致a、b两个变量都同时指向了堆中的同一块数据。
最后,我们还站在内存模型的视角分析了闭包的产生过程。
## 思考时间
在实际的项目中,经常需要完整地拷贝一个对象,也就是说拷贝完成之后两个对象之间就不能互相影响。那该如何实现呢?
结合下面这段代码你可以分析下它是如何将对象jack拷贝给jack2然后在完成拷贝操作时两个jack还互不影响的呢。
```
let jack = {
name : &quot;jack.ma&quot;,
age:40,
like:{
dog:{
color:'black',
age:3,
},
cat:{
color:'white',
age:2
}
}
}
function copy(src){
let dest
//实现拷贝代码将src的值完整地拷贝给dest
//在这里实现
return dest
}
let jack2 = copy(jack)
//比如修改jack2中的内容不会影响到jack中的值
jack2.like.dog.color = 'green'
console.log(jack.like.dog.color) //打印出来的应该是 &quot;black&quot;
```
欢迎在留言区与我分享你的想法,也欢迎你在留言区记录你的思考过程。感谢阅读,如果你觉得这篇文章对你有帮助的话,也欢迎把它分享给更多的朋友。

View File

@@ -0,0 +1,188 @@
<audio id="audio" title="13 | 垃圾回收:垃圾数据是如何自动回收的?" controls="" preload="none"><source id="mp3" src="https://static001.geekbang.org/resource/audio/5f/bf/5fc77dd754a4ede850489297ee573ebf.mp3"></audio>
在[上一篇文章](https://time.geekbang.org/column/article/129596)中我们提到了JavaScript中的数据是如何存储的并通过例子分析了**原始数据类型是存储在栈空间中的,引用类型的数据是存储在堆空间中的**。通过这种分配方式,我们解决了数据的内存分配的问题。
不过有些数据被使用之后,可能就不再需要了,我们把这种数据称为**垃圾数据**。如果这些垃圾数据一直保存在内存中,那么内存会越用越多,所以我们需要**对这些垃圾数据进行回收,以释放有限的内存空间**。
## 不同语言的垃圾回收策略
通常情况下,垃圾数据回收分为**手动回收**和**自动回收**两种策略。
如C/C++就是使用手动回收策略,**何时分配内存、何时销毁内存都是由代码控制的**你可以参考下面这段C代码
```
//在堆中分配内存
char* p = (char*)malloc(2048); //在堆空间中分配2048字节的空间并将分配后的引用地址保存到p中
//使用p指向的内存
{
//....
}
//使用结束后,销毁这段内存
free(p)
p = NULL
```
从上面这段C代码可以看出来要使用堆中的一块空间我们需要先调用mallco函数分配内存然后再使用当不再需要这块数据的时候就要手动调用free函数来释放内存。如果这段数据已经不再需要了但是又没有主动调用free函数来销毁那么这种情况就被称为**内存泄漏**。
另外一种使用的是自动垃圾回收的策略如JavaScript、Java、Python等语言**产生的垃圾数据是由垃圾回收器来释放的**,并不需要手动通过代码来释放。
对于JavaScript而言也正是这个“自动”释放资源的特性带来了很多困惑也让一些JavaScript开发者误以为可以不关心内存管理这是一个很大的误解。
那么在本文我们将围绕“JavaScript的数据是如何回收的”这个话题来展开探讨。因为数据是存储在栈和堆两种内存空间中的所以接下来我们就来分别介绍“栈中的垃圾数据”和“堆中的垃圾数据”是如何回收的。
## 调用栈中的数据是如何回收的
首先是调用栈中的数据,我们还是通过一段示例代码的执行流程来分析其回收机制,具体如下:
```
function foo(){
var a = 1
var b = {name:&quot;极客邦&quot;}
function showName(){
var c = 2
var d = {name:&quot;极客时间&quot;}
}
showName()
}
foo()
```
当执行到第6行代码时其调用栈和堆空间状态图如下所示
<img src="https://static001.geekbang.org/resource/image/d8/b0/d807ca19c2c8853ef5a38dca0fb79ab0.jpg" alt="">
从图中可以看出原始类型的数据被分配到栈中引用类型的数据会被分配到堆中。当foo函数执行结束之后foo函数的执行上下文会从堆中被销毁掉那么它是怎么被销毁的呢下面我们就来分析一下。
在[上篇文章](https://time.geekbang.org/column/article/129596)中我们简单介绍过了如果执行到showName函数时那么JavaScript引擎会创建showName函数的执行上下文并将showName函数的执行上下文压入到调用栈中最终执行到showName函数时其调用栈就如上图所示。与此同时还有一个**记录当前执行状态的指针称为ESP**指向调用栈中showName函数的执行上下文表示当前正在执行showName函数。
接着当showName函数执行完成之后函数执行流程就进入了foo函数那这时就需要销毁showName函数的执行上下文了。ESP这时候就帮上忙了JavaScript会将ESP下移到foo函数的执行上下文**这个下移操作就是销毁showName函数执行上下文的过程**。
你可能会有点懵ESP指针向下移动怎么就能把showName的执行上下文销毁了呢具体你可以看下面这张移动ESP前后的对比图
<img src="https://static001.geekbang.org/resource/image/b8/f3/b899cb27c0d92c31f9377db59939aaf3.jpg" alt="">
从图中可以看出当showName函数执行结束之后ESP向下移动到foo函数的执行上下文中上面showName的执行上下文虽然保存在栈内存中但是已经是无效内存了。比如当foo函数再次调用另外一个函数时这块内容会被直接覆盖掉用来存放另外一个函数的执行上下文。
所以说,当一个函数执行结束之后,**JavaScript引擎会通过向下移动ESP来销毁该函数保存在栈中的执行上下文**。
## 堆中的数据是如何回收的
通过上面的讲解我想现在你应该已经知道当上面那段代码的foo函数执行结束之后ESP应该是指向全局执行上下文的那这样的话showName函数和foo函数的执行上下文就处于无效状态了不过保存在堆中的两个对象依然占用着空间如下图所示
<img src="https://static001.geekbang.org/resource/image/e8/8c/e80ff553417572f77973b08256b6928c.png" alt="">
从图中可以看出1003和1050这两块内存依然被占用。**要回收堆中的垃圾数据就需要用到JavaScript中的垃圾回收器了**。
所以接下来我们就来通过Chrome的JavaScript引擎V8来分析下堆中的垃圾数据是如何回收的。
### 代际假说和分代收集
不过在正式介绍V8是如何实现回收之前你需要先学习下**代际假说The Generational Hypothesis**的内容,这是垃圾回收领域中一个重要的术语,后续垃圾回收的策略都是建立在该假说的基础之上的,所以很是重要。
**代际假说**有以下两个特点:
- 第一个是大部分对象在内存中存在的时间很短,简单来说,就是很多对象一经分配内存,很快就变得不可访问;
- 第二个是不死的对象,会活得更久。
其实这两个特点不仅仅适用于JavaScript同样适用于大多数的动态语言如Java、Python等。
有了代际假说的基础我们就可以来探讨V8是如何实现垃圾回收的了。
通常,垃圾回收算法有很多种,但是并没有哪一种能胜任所有的场景,你需要权衡各种场景,根据对象的生存周期的不同而使用不同的算法,以便达到最好的效果。
所以在V8中会把堆分为**新生代**和**老生代**两个区域,**新生代中存放的是生存时间短的对象,老生代中存放的生存时间久的对象**。
新生区通常只支持18M的容量而老生区支持的容量就大很多了。对于这两块区域V8分别使用两个不同的垃圾回收器以便更高效地实施垃圾回收。
- **副垃圾回收器,主要负责新生代的垃圾回收。**
- **主垃圾回收器,主要负责老生代的垃圾回收。**
### 垃圾回收器的工作流程
现在你知道了V8把堆分成两个区域——新生代和老生代并分别使用两个不同的垃圾回收器。其实**不论什么类型的垃圾回收器,它们都有一套共同的执行流程**。
第一步是标记空间中活动对象和非活动对象。所谓活动对象就是还在使用的对象,非活动对象就是可以进行垃圾回收的对象。
第二步是回收非活动对象所占据的内存。其实就是在所有的标记完成之后,统一清理内存中所有被标记为可回收的对象。
第三步是做内存整理。一般来说,频繁回收对象后,内存中就会存在大量不连续空间,我们把这些不连续的内存空间称为**内存碎片**。当内存中出现了大量的内存碎片之后,如果需要分配较大连续内存的时候,就有可能出现内存不足的情况。所以最后一步需要整理这些内存碎片,但这步其实是可选的,因为有的垃圾回收器不会产生内存碎片,比如接下来我们要介绍的副垃圾回收器。
那么接下来,我们就按照这个流程来分析新生代垃圾回收器(副垃圾回收器)和老生代垃圾回收器(主垃圾回收器)是如何处理垃圾回收的。
### 副垃圾回收器
副垃圾回收器主要负责新生区的垃圾回收。而通常情况下,大多数小的对象都会被分配到新生区,所以说这个区域虽然不大,但是垃圾回收还是比较频繁的。
新生代中用**Scavenge算法**来处理。所谓Scavenge算法是把新生代空间对半划分为两个区域一半是对象区域一半是空闲区域如下图所示
<img src="https://static001.geekbang.org/resource/image/4f/af/4f9310c7da631fa5a57f871099bfbeaf.png" alt="">
新加入的对象都会存放到对象区域,当对象区域快被写满时,就需要执行一次垃圾清理操作。
在垃圾回收过程中,首先要对对象区域中的垃圾做标记;标记完成之后,就进入垃圾清理阶段,副垃圾回收器会把这些存活的对象复制到空闲区域中,同时它还会把这些对象有序地排列起来,所以这个复制过程,也就相当于完成了内存整理操作,复制后空闲区域就没有内存碎片了。
完成复制后,对象区域与空闲区域进行角色翻转,也就是原来的对象区域变成空闲区域,原来的空闲区域变成了对象区域。这样就完成了垃圾对象的回收操作,同时这种**角色翻转的操作还能让新生代中的这两块区域无限重复使用下去**。
由于新生代中采用的Scavenge算法所以每次执行清理操作时都需要将存活的对象从对象区域复制到空闲区域。但复制操作需要时间成本如果新生区空间设置得太大了那么每次清理的时间就会过久所以**为了执行效率,一般新生区的空间会被设置得比较小**。
也正是因为新生区的空间不大所以很容易被存活的对象装满整个区域。为了解决这个问题JavaScript引擎采用了**对象晋升策略**,也就是经过两次垃圾回收依然还存活的对象,会被移动到老生区中。
### 主垃圾回收器
主垃圾回收器主要负责老生区中的垃圾回收。除了新生区中晋升的对象,一些大的对象会直接被分配到老生区。因此老生区中的对象有两个特点,一个是对象占用空间大,另一个是对象存活时间长。
由于老生区的对象比较大若要在老生区中使用Scavenge算法进行垃圾回收复制这些大的对象将会花费比较多的时间从而导致回收执行效率不高同时还会浪费一半的空间。因而主垃圾回收器是采用**标记-清除Mark-Sweep**的算法进行垃圾回收的。下面我们来看看该算法是如何工作的。
首先是标记过程阶段。标记阶段就是从一组根元素开始,递归遍历这组根元素,在这个遍历过程中,能到达的元素称为**活动对象**,没有到达的元素就可以判断为**垃圾数据**。
比如最开始的那段代码当showName函数执行退出之后这段代码的调用栈和堆空间如下图所示
<img src="https://static001.geekbang.org/resource/image/6c/69/6c8361d3e52c1c37a06699ed94652e69.png" alt="">
从上图你可以大致看到垃圾数据的标记过程当showName函数执行结束之后ESP向下移动指向了foo函数的执行上下文这时候如果遍历调用栈是不会找到引用1003地址的变量也就意味着1003这块数据为垃圾数据被标记为红色。由于1050这块数据被变量b引用了所以这块数据会被标记为活动对象。这就是大致的标记过程。
接下来就是垃圾的清除过程。它和副垃圾回收器的垃圾清除过程完全不同,你可以理解这个过程是清除掉红色标记数据的过程,可参考下图大致理解下其清除过程:
<img src="https://static001.geekbang.org/resource/image/d0/85/d015db8ad0df7f0ccb1bdb8e31f96e85.png" alt="">
上面的标记过程和清除过程就是标记-清除算法,不过对一块内存多次执行标记-清除算法后,会产生大量不连续的内存碎片。而碎片过多会导致大对象无法分配到足够的连续内存,于是又产生了另外一种算法——**标记-整理Mark-Compact**,这个标记过程仍然与标记-清除算法里的是一样的,但后续步骤不是直接对可回收对象进行清理,而是让所有存活的对象都向一端移动,然后直接清理掉端边界以外的内存。你可以参考下图:
<img src="https://static001.geekbang.org/resource/image/65/8c/652bd2df726d0aa5e67fe8489f39a18c.png" alt="">
### 全停顿
现在你知道了V8是使用副垃圾回收器和主垃圾回收器处理垃圾回收的不过由于JavaScript是运行在主线程之上的一旦执行垃圾回收算法都需要将正在执行的JavaScript脚本暂停下来待垃圾回收完毕后再恢复脚本执行。我们把这种行为叫做**全停顿Stop-The-World**。
比如堆中的数据有1.5GBV8实现一次完整的垃圾回收需要1秒以上的时间这也是由于垃圾回收而引起JavaScript线程暂停执行的时间若是这样的时间花销那么应用的性能和响应能力都会直线下降。主垃圾回收器执行一次完整的垃圾回收流程如下图所示
<img src="https://static001.geekbang.org/resource/image/98/0c/9898646a08b46bce4f12f918f3c1e60c.png" alt="">
在V8新生代的垃圾回收中因其空间较小且存活对象较少所以全停顿的影响不大但老生代就不一样了。如果在执行垃圾回收的过程中占用主线程时间过久就像上面图片展示的那样花费了200毫秒在这200毫秒内主线程是不能做其他事情的。比如页面正在执行一个JavaScript动画因为垃圾回收器在工作就会导致这个动画在这200毫秒内无法执行的这将会造成页面的卡顿现象。
为了降低老生代的垃圾回收而造成的卡顿V8将标记过程分为一个个的子标记过程同时让垃圾回收标记和JavaScript应用逻辑交替进行直到标记阶段完成我们把这个算法称为**增量标记Incremental Marking算法**。如下图所示:
<img src="https://static001.geekbang.org/resource/image/de/e7/de117fc96ae425ed90366e9060aa14e7.png" alt="">
使用增量标记算法可以把一个完整的垃圾回收任务拆分为很多小的任务这些小的任务执行时间比较短可以穿插在其他的JavaScript任务中间执行这样当执行上述动画效果时就不会让用户因为垃圾回收任务而感受到页面的卡顿了。
## 总结
好了,今天就讲到这里,下面我们就来总结下今天的主要内容。
首先我们介绍了不同语言的垃圾回收策略然后又说明了栈中的数据是如何回收的最后重点讲解了JavaScript中的垃圾回收器是如何工作的。
从上面的分析你也能看出来,无论是垃圾回收的策略,还是处理全停顿的策略,往往都没有一个完美的解决方案,你需要花一些时间来做权衡,而这需要牺牲当前某几方面的指标来换取其他几个指标的提升。
其实站在工程师的视角,我们经常需要在满足需求的前提下,权衡各个指标的得失,把系统设计得尽可能适应最核心的需求。
生活中处理事情的原则也与之类似,古人很早就说过“两害相权取其轻,两利相权取其重”,所以与其患得患失,不如冷静地分析哪些才是核心诉求,然后果断决策牺牲哪些以使得利益最大化。
## 思考时间
今天留给你的思考题是你是如何判断JavaScript中内存泄漏的可以结合一些你在工作中避免内存泄漏的方法。
欢迎在留言区与我分享你的想法,也欢迎你在留言区记录你的思考过程。感谢阅读,如果你觉得这篇文章对你有帮助的话,也欢迎把它分享给更多的朋友。

View File

@@ -0,0 +1,139 @@
<audio id="audio" title="14 | 编译器和解释器V8是如何执行一段JavaScript代码的" controls="" preload="none"><source id="mp3" src="https://static001.geekbang.org/resource/audio/35/14/35938306cf47de1be279360ca97a5a14.mp3"></audio>
前面我们已经花了很多篇幅来介绍JavaScript是如何工作的了解这些内容能帮助你从底层理解JavaScript的工作机制从而能帮助你更好地理解和应用JavaScript。
今天这篇文章我们就继续“向下”分析站在JavaScript引擎V8的视角来分析JavaScript代码是如何被执行的。
前端工具和框架的自身更新速度非常块而且还不断有新的出现。要想追赶上前端工具和框架的更新速度你就需要抓住那些本质的知识然后才能更加轻松地理解这些上层应用。比如我们接下来要介绍的V8执行机制能帮助你从底层了解JavaScript也能帮助你深入理解语言转换器Babel、语法检查工具ESLint、前端框架Vue和React的一些底层实现机制。因此了解V8的编译流程能让你对语言以及相关工具有更加充分的认识。
要深入理解V8的工作原理你需要搞清楚一些概念和原理比如接下来我们要详细讲解的**编译器Compiler、解释器Interpreter、抽象语法树AST、字节码Bytecode、即时编译器JIT**等概念,都是你需要重点关注的。
## 编译器和解释器
之所以存在编译器和解释器,是因为机器不能直接理解我们所写的代码,所以在执行程序之前,需要将我们所写的代码“翻译”成机器能读懂的机器语言。按语言的执行流程,可以把语言划分为编译型语言和解释型语言。
**编译型语言在程序执行之前,需要经过编译器的编译过程,并且编译之后会直接保留机器能读懂的二进制文件,这样每次运行程序时,都可以直接运行该二进制文件,而不需要再次重新编译了**。比如C/C++、GO等都是编译型语言。
**而由解释型语言编写的程序,在每次运行时都需要通过解释器对程序进行动态解释和执行**。比如Python、JavaScript等都属于解释型语言。
那编译器和解释器是如何“翻译”代码的呢?具体流程你可以参考下图:
<img src="https://static001.geekbang.org/resource/image/4e/81/4e196603ecb78188e99e963e251b9781.png" alt="">
从图中你可以看出这二者的执行流程,大致可阐述为如下:
1. 在编译型语言的编译过程中编译器首先会依次对源代码进行词法分析、语法分析生成抽象语法树AST然后是优化代码最后再生成处理器能够理解的机器码。如果编译成功将会生成一个可执行的文件。但如果编译过程发生了语法或者其他的错误那么编译器就会抛出异常最后的二进制文件也不会生成成功。
1. 在解释型语言的解释过程中同样解释器也会对源代码进行词法分析、语法分析并生成抽象语法树AST不过它会再基于抽象语法树生成字节码最后再根据字节码来执行程序、输出结果。
## V8是如何执行一段JavaScript代码的
通过上面的介绍相信你已经了解编译器和解释器了。那接下来我们就重点分析下V8是如何执行一段JavaScript代码的。你可以先来“一览全局”参考下图
<img src="https://static001.geekbang.org/resource/image/1a/ae/1af282bdc4036096c03074da53eb84ae.png" alt="">
从图中可以清楚地看到V8在执行过程中既有**解释器Ignition**,又有**编译器TurboFan**那么它们是如何配合去执行一段JavaScript代码的呢? 下面我们就按照上图来一一分解其执行流程。
### 1. 生成抽象语法树AST和执行上下文
将源代码转换为**抽象语法树**,并生成**执行上下文**,而执行上下文我们在前面的文章中已经介绍过很多了,主要是代码在执行过程中的环境信息。
那么下面我们就得重点讲解下抽象语法树下面表述中就直接用它的简称AST了看看什么是AST以及AST的生成过程是怎样的。
高级语言是开发者可以理解的语言但是让编译器或者解释器来理解就非常困难了。对于编译器或者解释器来说它们可以理解的就是AST了。所以无论你使用的是解释型语言还是编译型语言在编译过程中它们都会生成一个AST。这和渲染引擎将HTML格式文件转换为计算机可以理解的DOM树的情况类似。
你可以结合下面这段代码来直观地感受下什么是AST
```
var myName = &quot;极客时间&quot;
function foo(){
return 23;
}
myName = &quot;geektime&quot;
foo()
```
这段代码经过[javascript-ast](http://resources.jointjs.com/demos/javascript-ast)站点处理后生成的AST结构如下
<img src="https://static001.geekbang.org/resource/image/73/36/7320526ef14d974be8393effcf25b436.png" alt="">
从图中可以看出AST的结构和代码的结构非常相似其实你也可以把AST看成代码的结构化的表示编译器或者解释器后续的工作都需要依赖于AST而不是源代码。
AST是非常重要的一种数据结构在很多项目中有着广泛的应用。其中最著名的一个项目是Babel。Babel是一个被广泛使用的代码转码器可以将ES6代码转为ES5代码这意味着你可以现在就用ES6编写程序而不用担心现有环境是否支持ES6。Babel的工作原理就是先将ES6源码转换为AST然后再将ES6语法的AST转换为ES5语法的AST最后利用ES5的AST生成JavaScript源代码。
除了Babel外还有ESLint也使用AST。ESLint是一个用来检查JavaScript编写规范的插件其检测流程也是需要将源码转换为AST然后再利用AST来检查代码规范化的问题。
现在你知道了什么是AST以及它的一些应用那接下来我们再来看下AST是如何生成的。通常生成AST需要经过两个阶段。
**第一阶段是分词tokenize又称为词法分析**其作用是将一行行的源码拆解成一个个token。所谓**token**指的是语法上不可能再分的、最小的单个字符或字符串。你可以参考下图来更好地理解什么token。
<img src="https://static001.geekbang.org/resource/image/83/f5/838028071f63a132cc8b27b23960e5f5.png" alt="">
从图中可以看出,通过`var myName = “极客时间”`简单地定义了一个变量其中关键字“var”、标识符“myName” 、赋值运算符“=”、字符串“极客时间”四个都是token而且它们代表的属性还不一样。
**第二阶段是解析parse又称为语法分析**其作用是将上一步生成的token数据根据语法规则转为AST。如果源码符合语法规则这一步就会顺利完成。但如果源码存在语法错误这一步就会终止并抛出一个“语法错误”。
这就是AST的生成过程先分词再解析。
有了AST后那接下来V8就会生成该段代码的执行上下文。至于执行上下文的具体内容你可以参考前面几篇文章的讲解。
### 2. 生成字节码
有了AST和执行上下文后那接下来的第二步解释器Ignition就登场了它会根据AST生成字节码并解释执行字节码。
其实一开始V8并没有字节码而是直接将AST转换为机器码由于执行机器码的效率是非常高效的所以这种方式在发布后的一段时间内运行效果是非常好的。但是随着Chrome在手机上的广泛普及特别是运行在512M内存的手机上内存占用问题也暴露出来了因为V8需要消耗大量的内存来存放转换后的机器码。为了解决内存占用问题V8团队大幅重构了引擎架构引入字节码并且抛弃了之前的编译器最终花了将进四年的时间实现了现在的这套架构。
那什么是字节码呢?为什么引入字节码就能解决内存占用问题呢?
**字节码就是介于AST和机器码之间的一种代码。但是与特定类型的机器码无关字节码需要通过解释器将其转换为机器码后才能执行。**
理解了什么是字节码,我们再来对比下高级代码、字节码和机器码,你可以参考下图:
<img src="https://static001.geekbang.org/resource/image/87/ff/87d1ab147d1dc4b78488e2443d58a3ff.png" alt="">
从图中可以看出,机器码所占用的空间远远超过了字节码,所以使用字节码可以减少系统的内存使用。
### 3. 执行代码
生成字节码之后,接下来就要进入执行阶段了。
通常如果有一段第一次执行的字节码解释器Ignition会逐条解释执行。到了这里相信你已经发现了解释器Ignition除了负责生成字节码之外它还有另外一个作用就是解释执行字节码。在Ignition执行字节码的过程中如果发现有热点代码HotSpot比如一段代码被重复执行多次这种就称为**热点代码**那么后台的编译器TurboFan就会把该段热点的字节码编译为高效的机器码然后当再次执行这段被优化的代码时只需要执行编译后的机器码就可以了这样就大大提升了代码的执行效率。
V8的解释器和编译器的取名也很有意思。解释器Ignition是点火器的意思编译器TurboFan是涡轮增压的意思寓意着代码启动时通过点火器慢慢发动一旦启动涡轮增压介入其执行效率随着执行时间越来越高效率因为热点代码都被编译器TurboFan转换了机器码直接执行机器码就省去了字节码“翻译”为机器码的过程。
其实字节码配合解释器和编译器是最近一段时间很火的技术比如Java和Python的虚拟机也都是基于这种技术实现的我们把这种技术称为**即时编译JIT**。具体到V8就是指解释器Ignition在解释执行字节码的同时收集代码信息当它发现某一部分代码变热了之后TurboFan编译器便闪亮登场把热点的字节码转换为机器码并把转换后的机器码保存起来以备下次使用。
对于JavaScript工作引擎除了V8使用了“字节码+JIT”技术之外苹果的SquirrelFish Extreme和Mozilla的SpiderMonkey也都使用了该技术。
这么多语言的工作引擎都使用了“字节码+JIT”技术因此理解JIT这套工作机制还是很有必要的。你可以结合下图看看JIT的工作过程
<img src="https://static001.geekbang.org/resource/image/66/8a/662413313149f66fe0880113cb6ab98a.png" alt="">
## JavaScript的性能优化
到这里相信你现在已经了解V8是如何执行一段JavaScript代码的了。在过去几年中JavaScript的性能得到了大幅提升这得益于V8团队对解释器和编译器的不断改进和优化。
虽然在V8诞生之初也出现过一系列针对V8而专门优化JavaScript性能的方案比如隐藏类、内联缓存等概念都是那时候提出来的。不过随着V8的架构调整你越来越不需要这些微优化策略了相反对于优化JavaScript执行效率你应该将优化的中心聚焦在单次脚本的执行时间和脚本的网络下载上主要关注以下三点内容
1. 提升单次脚本的执行速度避免JavaScript的长任务霸占主线程这样可以使得页面快速响应交互
1. 避免大的内联脚本因为在解析HTML的过程中解析和编译也会占用主线程
1. 减少JavaScript文件的容量因为更小的文件会提升下载速度并且占用更低的内存。
## 总结
好了,今天就讲到这里,下面我来总结下今天的内容。
- 首先我们介绍了编译器和解释器的区别。
- 紧接着又详细分析了V8是如何执行一段JavaScript代码的V8依据JavaScript代码生成AST和执行上下文再基于AST生成字节码然后通过解释器执行字节码通过编译器来优化编译字节码。
- 基于字节码和编译器我们又介绍了JIT技术。
- 最后我们延伸说明了下优化JavaScript性能的一些策略。
之所以在本专栏里讲V8的执行流程是因为我觉得编译器和解释器的相关概念和理论对于程序员来说至关重要向上能让你充分理解一些前端应用的本质向下能打开计算机编译原理的大门。通过这些知识的学习能让你将很多模糊的概念关联起来使其变得更加清楚从而拓宽视野上升到更高的层次。
## 思考时间
最后留给你个思考题你是怎么理解“V8执行时间越久执行效率越高”这个性质的
欢迎在留言区与我分享你的想法,也欢迎你在留言区记录你的思考过程。感谢阅读,如果你觉得这篇文章对你有帮助的话,也欢迎把它分享给更多的朋友。