A股上市公司传智教育(股票代码 003032)旗下技术交流社区北京昌平校区

 找回密码
 加入黑马

QQ登录

只需一步,快速开始

java是一种跨平台的、解释型语言。java 源代码编译中间“字节码”存储于class文件中。class文件是一种字节码形式的中间代码,该字节码中包括了很多源代码的信息,例如变量名、方法名等。因此,java中间代码的反编译就变得非常容易。目前市场上有许多免费的、商用的反编译软件,都能够生成高质量的反编译后的源代码。所以,对开发人员来说,如何保护java程序就变成了一个非常重要的挑战。本文首先讨论了保护java程序的基本方法,然后对代码混淆问题进行深入研究,最后结合一个实际的应用程序,分析如何在实践中保护java程序。

反编译成为保护java程序的最大挑战

  
  通常c、c++等编程语言开发的程序都被编译成目标代码,这些目标代码都是本机器的二进制可执行代码。通常所有的源文件被编译、链接成一个可执行文件。在这些可执行文件中,编译器删除了程序中的变量名称、方法名称等信息,这些信息往往是由内存地址表示,例如如果需要使用一个变量,往往是通过这个变量的地址来访问的。因此,反编译这些本地的目标代码就是非常困难的。
  
  java语言的出现,使得反编译变得非常容易而有效。原因如下:1.由于跨平台的需求,java的指令集比较简单而通用,较容易得出程序的语义信息;2.java编译器将每一个类编译成一个单独的文件,这也简化了反编译的工作;3.java 的class文件中,仍然保留所有的方法名称、变量名称,并且通过这些名称来访问变量和方法,这些符号往往带有许多语义信息。由于java程序自身的特点,对于不经过处理的java程序反编译的效果非常好。
  
  目前,市场上有许多java的反编译工具,有免费的,也有商业使用的,还有的是开放源代码的。这些工具的反编译速度和效果都非常不错。好的反编译软件,能够反编译出非常接近源代码的程序。因此,通过反编译器,黑客能够对这些程序进行更改,或者复用其中的程序。因此,如何保护java程序不被反编译,是非常重要的一个问题。
  
常用的保护技术   
  由于java字节码的抽象级别较高,因此它们较容易被反编译。本节介绍了几种常用的方法,用于保护java字节码不被反编译。通常,这些方法不能够绝对防止程序被反编译,而是加大反编译的难度而已,因为这些方法都有自己的使用环境和弱点。
  
 隔离java程序   

  最简单的方法就是让用户不能够访问到java class程序,这种方法是最根本的方法,具体实现有多种方式。例如,开发人员可以将关键的java class放在服务器端,客户端通过访问服务器的相关接口来获得服务,而不是直接访问class文件。这样黑客就没有办法反编译class文件。目前,通过接口提供服务的标准和协议也越来越多,例如 http、web service、rpc等。但是有很多应用都不适合这种保护方式,例如对于单机运行的程序就无法隔离java程序。这种保护方式见图1所示。

 

图1隔离java程序示意图
  

 对class文件进行加密   
  为了防止class文件被直接反编译,许多开发人员将一些关键的class文件进行加密,例如对注册码、序列号管理相关的类等。在使用这些被加密的类之前,程序首先需要对这些类进行解密,而后再将这些类装载到jvm当中。这些类的解密可以由硬件完成,也可以使用软件完成。
  

  在实现时,开发人员往往通过自定义classloader类来完成加密类的装载(注意由于安全性的原因,applet不能够支持自定义的classloader)。自定义的classloader首先找到加密的类,而后进行解密,最后将解密后的类装载到jvm当中。在这种保护方式中,自定义的classloader是非常关键的类。由于它本身不是被加密的,因此它可能成为黑客最先攻击的目标。如果相关的解密密钥和算法被攻克,那么被加密的类也很容易被解密。这种保护方式示意图见图2。

图2 对class文件进行加密示意图
  

 转换成本地代码   
  将程序转换成本地代码也是一种防止反编译的有效方法。因为本地代码往往难以被反编译。开发人员可以选择将整个应用程序转换成本地代码,也可以选择关键模块转换。如果仅仅转换关键部分模块,java程序在使用这些模块时,需要使用jni技术进行调用。
  
  当然,在使用这种技术保护java程序的同时,也牺牲了java的跨平台特性。对于不同的平台,我们需要维护不同版本的本地代码,这将加重软件支持和维护的工作。不过对于一些关键的模块,有时这种方案往往是必要的。
  
  为了保证这些本地代码不被修改和替代,通常需要对这些代码进行数字签名。在使用这些本地代码之前,往往需要对这些本地代码进行认证,确保这些代码没有被黑客更改。如果签名检查通过,则调用相关jni方法。这种保护方式示意图见图3。
 图3 转换成本地代码示意图

   

图3 转换成本地代码示意图

 代码混淆

代码混淆是对class文件进行重新组织和处理,使得处理后的代码与处理前代码完成相同的功能(语义)。但是混淆后的代码很难被反编译,即反编译后得出的代码是非常难懂、晦涩的,因此反编译人员很难得出程序的真正语义。从理论上来说,黑客如果有足够的时间,被混淆的代码仍然可能被破解,甚至目前有些人正在研制反混淆的工具。但是从实际情况来看,由于混淆技术的多元化发展,混淆理论的成熟,经过混淆的java代码还是能够很好地防止反编译。下面我们会详细介绍混淆技术,因为混淆是一种保护java程序的重要技术。图4是代码混淆的示意图。

 

图4 代码混淆示意图
  
  几种技术的总结
  
  以上几种技术都有不同的应用环境,各自都有自己的弱点,表1是相关特点的比较。


表1 不同保护技术比较表

  

混淆技术介绍
  到目前为止,对于java程序的保护,混淆技术还是最基本的保护方法。java混淆工具也非常多,包括商业的、免费的、开放源代码的。sun公司也提供了自己的混淆工具。它们大多都是对class文件进行混淆处理,也有少量工具首先对源代码进行处理,然后再对class进行处理,这样加大了混淆处理的力度。目前,商业上比较成功的混淆工具包括jproof公司的1stbarrier系列、eastridge公司的jshrink和4thpass.com的sourceguard等。主要的混淆技术按照混淆目标可以进行如下分类,它们分别为符号混淆(lexical obfuscation)、数据混淆(data obfuscation)、控制混淆(control obfuscation)、预防性混淆(prevent transformation)。    符号混淆  
  在class中存在许多与程序执行本身无关的信息,例如方法名称、变量名称,这些符号的名称往往带有一定的含义。例如某个方法名为getkeylength(),那么这个方法很可能就是用来返回key的长度。符号混淆就是将这些信息打乱,把这些信息变成无任何意义的表示,例如将所有的变量从vairant_001开始编号;对于所有的方法从method_001开始编号。这将对反编译带来一定的困难。对于私有函数、局部变量,通常可以改变它们的符号,而不影响程序的运行。但是对于一些接口名称、公有函数、成员变量,如果有其它外部模块需要引用这些符号,我们往往需要保留这些名称,否则外部模块找不到这些名称的方法和变量。因此,多数的混淆工具对于符号混淆,都提供了丰富的选项,让用户选择是否、如何进行符号混淆。   
  数据混淆 数据混淆是对程序使用的数据进行混淆。混淆的方法也有多种,主要可以分为改变数据存储及编码(store and encode transform)、改变数据访问(access transform)。
  
  改变数据存储和编码可以打乱程序使用的数据存储方式。例如将一个有10个成员的数组,拆开为10个变量,并且打乱这些变量的名字;将一个两维数组转化为一个一维数组等。对于一些复杂的数据结构,我们将打乱它的数据结构,例如用多个类代替一个复杂的类等。
  
  另外一种方式是改变数据访问。例如访问数组的下标时,我们可以进行一定的计算,图5就是一个例子。
  
  在实践混淆处理中,这两种方法通常是综合使用的,在打乱数据存储的同时,也打乱数据访问的方式。经过对数据混淆,程序的语义变得复杂了,这样增大了反编译的难度。
  
 控制混淆   
  控制混淆就是对程序的控制流进行混淆,使得程序的控制流更加难以反编译,通常控制流的改变需要增加一些额外的计算和控制流,因此在性能上会给程序带来一定的负面影响。有时,需要在程序的性能和混淆程度之间进行权衡。控制混淆的技术最为复杂,技巧也最多。这些技术可以分为如下几类:
  

  增加混淆控制 通过增加额外的、复杂的控制流,可以将程序原来的语义隐藏起来。例如,对于按次序执行的两个语句a、b,我们可以增加一个控制条件,以决定b的执行。通过这种方式加大反汇编的难度。但是所有的干扰控制都不应该影响b的执行。图6就给出三种方式,为这个例子增加混淆控制。   


图6 增加混淆控制的三种方式


6 个回复

倒序浏览
赞一个
回复 使用道具 举报
回复 使用道具 举报
回复 使用道具 举报
奈斯
回复 使用道具 举报
回复 使用道具 举报
回复 使用道具 举报
您需要登录后才可以回帖 登录 | 加入黑马