因为.net的GC具有程序自动性(也就是说.NET Framwork会帮助用户自动的进行),因此GC的机制是十分复杂的。
1. Stack和Heap
每个线程对应一个stack,线程创建的时候CLR为其创建这个stack,stack主要作用是记录函数的执行情况。值类型变量(函数的参数、局部变量等非成员变量)都分配在stack中,引用类型的对象分配在heap中,在stack中保存heap对象的引用指针。GC只负责heap对象的释放,heap内存空间管理
除去pinned object等影响,heap中的内存分配很简单,一个指针记录heap中分配的起始地址,根据对象大小连续的分配内存
Stack结构
每个函数调用时,逻辑上在thread stack中会产生一个帧(stack frame),函数返回时对应的stack frame被释放掉
用个简单的函数查看执行时CLR对栈的处理情况:
复制代码
static void Main(string[] args)
{
int r = Sum(2, 3, 4, 5, 6);
}
private static int Sum(int a, int b, int c, int d, int e)
{
return a + b + c + d + e;
}
JIT编译后主要汇编代码如下(其他的情况下汇编代码可能有所差别,但用这个简单函数大致看下栈的管理已经足够):
;====函数Main====
push 4 ;第3个参数到最后一个参数压栈
push 5
push 6
mov edx,3 ;第1、第2个参数分别放入ecx、edx寄存器
mov ecx,2
call dword ptr ds:[00AD96B8h] ;调用函数Sum,执行call的时候返回地址(即下面这条mov语句的地址)自动压栈了
mov dword ptr [ebp-0Ch],eax ;将函数返回值设置到局部变量r中(函数调用结束返回值在eax寄存器中)
;====函数Sum====
push ebp ;保存原始ebp寄存器
mov ebp,esp ;将当前栈指针保存在ebp中,后面使用ebp对参数和局部变量寻址
sub esp,8 ;分配两个局部变量
mov dword ptr [ebp-4],ecx ;第1个参数放入局部变量
mov dword ptr [ebp-8],edx ;第2个参数放入局部变量
...... ;CLR的检查代码
mov eax,dword ptr [ebp-4] ;a + b + c + d + e
add eax,dword ptr [ebp-8] ;第1个参数+第2个参数(2+3)
add eax,dword ptr [ebp+10h] ;+第3个参数(4)
add eax,dword ptr [ebp+0Ch] ;+第4个参数(5)
add eax,dword ptr [ebp+8] ;+第5个参数(6)
mov esp,ebp ;恢复栈指针(局部变量被释放了)
pop ebp ;恢复原始的ebp寄存器值
ret 0Ch ;函数返回. 1: 返回地址自动出栈; 2: esp减去0Ch(12个字节),即从栈中清除调用参数; 3: 返回值在eax寄存器中
Stack状态变化过程:
a). 调用者将第3、第4、第5个参数压栈,第1、第2个参数分别放入ecx、edx寄存器
b). call指令调用函数Sum,并自动将函数返回地址压栈,代码跳转到函数Sum开始执行
c). 函数Sum先将寄存器ebp压栈保存,并将esp放入ebp,用于后面对参数和局部变量寻址
d). 定义局部变量以及省略掉的是额外代码,跟Sum函数业务无关
e). 执行加法操作,结果保存在eax寄存器中
f). 恢复esp寄存器,这样函数Sum中所有的局部变量以及其他压栈操作全部释放出来
g). 原始ebp的值出栈,恢复ebp,这样栈完全恢复到进入Sum函数调用时的状态
h). ret指令执行函数返回,返回值在eax寄存器中,返回地址为call指令压栈的地址,返回地址自动出栈。0Ch指示处理器在函数返回时释放栈中12个字节,即由被调用者清除压栈的参数。函数返回之后,本次Sum调用的栈分配全部释放
这种调用约定类似__fastcall
结合引用类型变量、值类型的ref参数,下面代码简化的stack状态如下:
代码:
public static void Run(int i)
{
int j = 9;
MyClass1 c = new MyClass1();
c.x = 8;
int result = Sum(i, 5, ref j, c);
}
public static int Sum(int a, int b, ref int c, MyClass1 obj)
{
int r = a + b + c + obj.x;
return r;
}
public class MyClass1
{
public int x;
}
任何时候引用类型都分配在heap中,在stack中只是保存对象的引用地址。Run函数执行完毕之后,heap中的MyClass1对象c成为可回收的垃圾对象,在GC时进行回收
2. Mark-Compact 标记压缩算法
简单把.NET的GC算法看作Mark-Compact算法
阶段1: Mark-Sweep 标记清除阶段
先假设heap中所有对象都可以回收,然后找出不能回收的对象,给这些对象打上标记,最后heap中没有打标记的对象都是可以被回收的
阶段2: Compact 压缩阶段
对象回收之后heap内存空间变得不连续,在heap中移动这些对象,使他们重新从heap基地址开始连续排列,类似于磁盘空间的碎片整理
Heap内存经过回收、压缩之后,可以继续采用前面的heap内存分配方法,即仅用一个指针记录heap分配的起始地址就可以
主要处理步骤:将线程挂起=>确定roots=>创建reachable objects graph=>对象回收=>heap压缩=>指针修复
可以这样理解roots:heap中对象的引用关系错综复杂(交叉引用、循环引用),形成复杂的graph,roots是CLR在heap之外可以找到的各种入口点。GC搜索roots的地方包括全局对象、静态变量、局部对象、函数调用参数、当前CPU寄存器中的对象指针(还有finalization queue)等。主要可以归为2种类型:已经初始化了的静态变量、线程仍在使用的对象(stack+CPU register)
Reachable objects:指根据对象引用关系,从roots出发可以到达的对象。例如当前执行函数的局部变量对象A是一个root object,他的成员变量引用了对象B,则B是一个reachable object。从roots出发可以创建reachable objects graph,剩余对象即为unreachable,可以被回收
指针修复是因为compact过程移动了heap对象,对象地址发生变化,需要修复所有引用指针,包括stack、CPU register中的指针以及heap中其他对象的引用指针
Debug和release执行模式之间稍有区别,release模式下后续代码没有引用的对象是unreachable的,而debug模式下需要等到当前函数执行完毕,这些对象才会成为unreachable,目的是为了调试时跟踪局部对象的内容
传给了COM+的托管对象也会成为root,并且具有一个引用计数器以兼容COM+的内存管理机制,引用计数器为0时这些对象才可能成为被回收对象
Pinned objects指分配之后不能移动位置的对象,例如传递给非托管代码的对象(或者使用了fixed关键字),GC在指针修复时无法修改非托管代码中的引用指针,因此将这些对象移动将发生异常。pinned objects会导致heap出现碎片,但大部分情况来说传给非托管代码的对象应当在GC时能够被回收掉
3. Generational 分代算法
程序可能使用几百M、几G的内存,对这样的内存区域进行GC操作成本很高,分代算法具备一定统计学基础,对GC的性能改善效果比较明显
将对象按照生命周期分成新的、老的,根据统计分布规律所反映的结果,可以对新、老区域采用不同的回收策略和算法,加强对新区域的回收处理力度,争取在较短时间间隔、较小的内存区域内,以较低成本将执行路径上大量新近抛弃不再使用的局部对象及时回收掉
分代算法的假设前提条件:
a). 大量新创建的对象生命周期都比较短,而较老的对象生命周期会更长
b). 对部分内存进行回收比基于全部内存的回收操作要快
c). 新创建的对象之间关联程度通常较强。heap分配的对象是连续的,关联度较强有利于提高CPU cache的命中率
.NET将heap分成3个代龄区域: Gen 0、Gen 1、Gen 2
Heap分为3个代龄区域,相应的GC有3种方式: # Gen 0 collections, # Gen 1 collections, # Gen 2 collections。如果Gen 0 heap内存达到阀值,则触发0代GC,0代GC后Gen 0中幸存的对象进入Gen 1。如果Gen 1的内存达到阀值,则进行1代GC,1代GC将Gen 0 heap和Gen 1 heap一起进行回收,幸存的对象进入Gen 2。2代GC将Gen 0 heap、Gen 1 heap和Gen 2 heap一起回收
Gen 0和Gen 1比较小,这两个代龄加起来总是保持在16M左右;Gen 2的大小由应用程序确定,可能达到几G,因此0代和1代GC的成本非常低,2代GC称为full GC,通常成本很高。粗略的计算0代和1代GC应当能在几毫秒到几十毫秒之间完成,Gen 2 heap比较大时full GC可能需要花费几秒时间。大致上来讲.NET应用运行期间2代、1代和0代GC的频率应当大致为1:10:100
|