自己動手實現(xiàn)一個Java Class解析器
最近在寫一個私人項目,名字叫做ClassAnalyzer
,ClassAnalyzer
的目的是能讓我們對Java Class
文件的設(shè)計與結(jié)構(gòu)能夠有一個深入的理解。主體框架與基本功能已經(jīng)完成,還有一些細節(jié)功能日后再增加。實際上JDK
已經(jīng)提供了命令行工具javap
來反編譯Class
文件,但本篇文章將闡明我實現(xiàn)解析器的思路。
Class文件
作為類或者接口信息的載體,每個Class
文件都完整的定義了一個類。為了使Java
程序可以“編寫一次,處處運行”,Java虛擬機規(guī)范對Class
文件進行了嚴格的規(guī)定。構(gòu)成Class
文件的基本數(shù)據(jù)單位是字節(jié),這些字節(jié)之間不存在任何分隔符,這使得整個Class
文件中存儲的內(nèi)容幾乎全部是程序運行的必要數(shù)據(jù),單個字節(jié)無法表示的數(shù)據(jù)由多個連續(xù)的字節(jié)來表示。
根據(jù)Java
虛擬機規(guī)范,Class
文件采用一種類似于C
語言結(jié)構(gòu)體的偽結(jié)構(gòu)來存儲數(shù)據(jù),這種偽結(jié)構(gòu)中只有兩種數(shù)據(jù)類型:無符號數(shù)和表。Java
虛擬機規(guī)范定義了u1
、u2
、u4
和u8
來分別表示1
個字節(jié)、2
個字節(jié)、4
個字節(jié)和8
個字節(jié)的無符號數(shù),無符號數(shù)可以用來描述數(shù)字、索引引用、數(shù)量值或者是字符串。表是由多個無符號數(shù)或者其它表作為數(shù)據(jù)項構(gòu)成的符合數(shù)據(jù)類型,表用于描述有層次關(guān)系的符合結(jié)構(gòu)的數(shù)據(jù),因此整個Class
文件本質(zhì)上就是一張表。在ClassAnalyzer
中u1
、u2
、u4
和u8
分別對應(yīng)于byte
、short
、int
和long
,Class
文件被描述為如下Java
類。
public class ClassFile {
public U4 magic; // magic
public U2 minorVersion; // minor_version
public U2 majorVersion; // major_version
public U2 constantPoolCount; // constant_pool_count
public ConstantPoolInfo[] cpInfo; // cp_info
public U2 accessFlags; // access_flags
public U2 thisClass; // this_class
public U2 superClass; // super_class
public U2 interfacesCount; // interfaces_count
public U2[] interfaces; // interfaces
public U2 fieldsCount; // fields_count
public FieldInfo[] fields; // fields
public U2 methodsCount; // methods_count
public MethodInfo[] methods; // methods
public U2 attributesCount; // attributes_count
public BasicAttributeInfo[] attributes; // attributes
}
如何解析
組成Class
文件的各個數(shù)據(jù)項中,例如魔數(shù)、Class
文件的版本等數(shù)據(jù)項、訪問標志、類索引、父類索引,它們在每個Class
文件中都占用固定數(shù)量的字節(jié),在解析時只需要讀取相應(yīng)數(shù)量的字節(jié)。除此之外,需要靈活處理的主要包括4
部分:常量池、字段表集合、方法表集合和屬性表集合。字段和方法都可以具備自己的屬性,Class
本身也有相應(yīng)的屬性,因此,在解析字段表集合和方法表集合的同時也包含了屬性表的解析。
常量池占據(jù)了Class
文件很大一部分的數(shù)據(jù),用于存儲所有的常量信息,包括數(shù)字和字符串常量、類名、接口名、字段名和方法名等。Java
虛擬機規(guī)范定義了多種常量類型,每一種常量類型都有自己的結(jié)構(gòu)。常量池本身是一個表,在解析時有幾點需要注意。
- 每個常量類型都通過一個
u1
類型的tag來標識。 - 表頭給出的常量池大?。?code>constantPoolCount)比實際大
1
,例如,如果constantPoolCount
等于47
,那么常量池中有46
項常量。 - 常量池的索引范圍從
1
開始,例如,如果constantPoolCount
等于47
,那么常量池的索引范圍為1~46
。設(shè)計者將第0
項空出來的目的是用于表達“不引用任何一個常量池項目”。 CONSTANT_Utf8_info
型常量的結(jié)構(gòu)中包含u1
類型的tag
、u2
類型的length
和由length
個u1
類型組成的bytes
,這length
字節(jié)的連續(xù)數(shù)據(jù)是一個使用MUTF-8
(Modified UTF-8)
編碼的字符串。MUTF-8
與UTF-8
并不兼容,主要區(qū)別有兩點:一是null
字符會被編碼成2
字節(jié)(0xC0
和0x80
);二是補充字符是按照UTF-16
拆分為代理對分別編碼的,相關(guān)細節(jié)可以看這里(變種UTF-8)。
屬性表用于描述某些場景專有的信息,Class
文件、字段表和方法表都有相應(yīng)的屬性表集合。Java
虛擬機規(guī)范定義了多種屬性,ClassAnalyzer
目前實現(xiàn)了對常用屬性的解析。和常量類型的數(shù)據(jù)項不同,屬性并沒有一個tag
來標識屬性的類型,但是每個屬性都包含有一個u2
類型的attribute_name_index
,attribute_name_index
指向常量池中的一個CONSTANT_Utf8_info
類型的常量,該常量包含著屬性的名稱。在解析屬性時,ClassAnalyzer
正是通過attribute_name_index
指向的常量對應(yīng)的屬性名稱來得知屬性的類型。
字段表用于描述類或者接口中聲明的變量,字段包括類級變量以及實例級變量。字段表的結(jié)構(gòu)包含一個u2
類型的access_flags
、一個u2
類型的name_index
、一個u2
類型的descriptor_index
、一個u2
類型的attributes_count
和attributes_count
個attribute_info
類型的attributes
。我們已經(jīng)介紹了屬性表的解析,attributes
的解析方式與屬性表的解析方式一致。
Class
的文件方法表采用了和字段表相同的存儲格式,只是access_flags
對應(yīng)的含義有所不同。方法表包含著一個重要的屬性:Code
屬性。Code
屬性存儲了Java
代碼編譯成的字節(jié)碼指令,在ClassAnalyzer
中,Code
對應(yīng)的Java
類如下所示(僅列出了類屬性)。
public class Code extends BasicAttributeInfo {
private short maxStack;
private short maxLocals;
private long codeLength;
private byte[] code;
private short exceptionTableLength;
private ExceptionInfo[] exceptionTable;
private short attributesCount;
private BasicAttributeInfo[] attributes;
...
private class ExceptionInfo {
public short startPc;
public short endPc;
public short handlerPc;
public short catchType;
...
}
}
在Code
屬性中,codeLength
和code
分別用于存儲字節(jié)碼長度和字節(jié)碼指令,每條指令即一個字節(jié)(u1
類型)。在虛擬機執(zhí)行時,通過讀取code
中的一個個字節(jié)碼,并將字節(jié)碼翻譯成相應(yīng)的指令。另外,雖然codeLength
是一個u4
類型的值,但是實際上一個方法不允許超過65535
條字節(jié)碼指令。
代碼實現(xiàn)
ClassAnalyzer
的源碼已放在了GitHub上。在ClassAnalyzer
的README中,我以一個類的Class
文件為例,對該Class
文件的每個字節(jié)進行了分析,希望對大家的理解有所幫助。