机器码由什么组成（一文带你搞懂机器码）

程序语言(C,Java等)是人类能够理解的语言，因此我们可以用程序语言编写软件，交给CPU去执行，如果你直接将程序语言交给CPU去执行，CPU压根就不能理解这种语言，CPU只认识它自己的语言-机器语言即机器码，因此我们需要将程序语言翻译成机器码,翻译的方式有两种，一种是编译，另外一种是解释，编译的意思是把整个程序一次性翻译成机器码，解释的意思说，一句一句地翻译，不管怎么样，我们最终交给CPU的是机器码，让CPU去根据机器码去做它该做的事情。

C翻译成机器码

可以把计算机当做一个黑盒子，输入机器码和数据，CPU执行后输出内容到内存，如下图所示

机器码执行图

汇编语言是人类能够理解的机器指令，后续我们举例子时，直接用汇编语言表示机器指令，它们是等价的。

一.什么是机器码?

机器码也叫机器指令，就像我们人类发出的指令一样，比如：“小明,去卫生间里拿一把扫帚去打扫房间，机器码就是这条指令，这条指令里就包含了干什么事情，去哪里干。

1.1 机器码都有些什么内容

机器码是与计算机硬件紧密关联的，不同的CPU,机器码不一样，就好比不同的国家，语言不一样类似，比如我们常用的CPU如Inter Pentium系列,酷睿系列，AMD 锐龙，ARM，MIPS,IBM PowerPC等，他们的机器码就各不相同，但都有一个共同的规范就如下图所示。

机器码包含的内容

如上图所示机器码共同的规范就是他们都包括操作码，控制位(可选),操作数（可选），操作数可以有多个(一般1-3个)甚至没有。

操作码：表示指令类型,比如ADD表示加法指令，SUB表示减法指令。一个处理器可以包含非常复杂，面面俱到的指令，也可以包含十分精简，短小精干的指令，正因如此，在CPU界分成了两大门派CISC(复杂指令集)和RISC(精简指令集),CISC属于大包大揽，啥都想干，RISC是我只敢我能做的事情，其他的事情交给编译器，下面的表格为这两个门派的成员

CISC	RISC
Inter,AMD	ARM，MIPS,IBM PowerPC

控制位:几乎用不到，不做详解

操作数：表示指令需要操作的数据，在机器码中，操作数可不一定是放在那里,等着你直接去拿的，有以下几种获取的方式

立即数寻址:立即数是一个整数，例如5，不需要从寄存器或者内存中获取，它本身就是操作数,例如ARM CPU下的指令

ADDr1,r2,#5

上面代码中5就是立即数，是常量，直接将R2寄存器中的内容与5相加,存储到r1寄存器中。

直接寻址:从内存中直接获取操作数,例如Inter Pentium CPU下的指令

MOVAX,[2468]

上面代码将内存地址2468上指向的内容写入到ax寄存器

间接寻址:不直接从内存地址获取操作数，而是将内存地址存储在寄存器中，通过寄存器间接获取操作数，例如ARM下的指令

LDRr1, [r2]

上面代码，r2寄存器中存储的是内存地址，上面指令表达的意思是，将r2寄存器中存储的内存地址指向的内容写入到r1寄存器。

偏移量间接寻址:它是间接寻址变种的一种，例如ARM下的指令

LDRr2,[r3,#8]

上面代码，r3寄存器中存储的是内存地址，上面指令表达的意思是，将r3寄存器中存储的内存地址加上偏移8后算出的内存地址指向的内容写入到r2寄存器。

1.2 机器码的格式

正如上文提到不同的CPU类型机器码不同，有的CPU机器码支持动态长度，动态扩展，如Inter系列,它有时候可以一条指令中有多个操作码，有的CPU的机器码长度是固定的，如ARM,我们可以分析大多数的机器码，大多数的机器码占一个字（32位或64位），一般超过一个字的机器码不多，可能只有Inter系列会有,一般用不到，这里不做阐述。

大多数的机器码格式包括以下四种:

三地址机器码格式

三地址机器码格式主要在RISC CPU中用到，例如下边ARM一条汇编指令

ADDr1,r2,r3

上述代码表示将r2寄存器中的值加上r3寄存器中的值，写入达到r1寄存器

双地址机器码格式

双地址机器码格式主要在CISC CPU中用到,例如下边Inter Pentium的一条汇编指令

ADDAX BX

上述代码讲过BX寄存器的内容与AX相加后，写入到AX中，双地址机器码的坏处也很明显了,例如AX寄存器的值执行命令后就被覆盖了，不能够重用了。

单地址机器码格式

单地址机器码格式在RISC,CISC CPU都会用到，例如下边ARM一条汇编指令

LDAr1

上述代码表示将r1寄存器的值加到累加器(一种寄存器，用于存储中间结果)，单地址机器码其实也是有两个操作数，一个是r1,另一个就是累加器，因为LDA r1已经意味着追加累加器的意思，所有不需要指定。

零地址机器码格式

零地址机器码格式一般操作栈顶的数据，不需要寄存器参与,零地址机器码格式不会用到地址，对于单操作数运算，例如递增，递减，取负，清零等一元运算，直接用栈顶的数据,对于双操作数从栈顶陆续出栈两个数，然后运算,下边举例子,例如下边的表达式

Z=(A+B).(C-D)

PUSHA ;A入栈PUSHB ;B入栈ADD;栈顶两个数出栈,相加,然后结果入栈PUSHC ;C入栈PUSHD ;D入栈SUB;栈顶两个数据出栈,相减，然后结果入栈MUL;栈顶两个数据出栈,相乘,然后结果入栈POPZ;栈顶数据出栈

二.番外篇

2.1 寄存器

寄存器和内存一样都是存储器，从功能上讲跟内存没什么区别，都是用来存储数据,从其他角度来看，寄存器和内存有如下区别

a.寄存器的速度比内存快N的等级,因此为了加快CPU获取指令或者数据的速度，就会将最近要访问的数据放入到寄存器中。

b.寄存器的个数是有限制，一般计算机不到百个，寄存器寻址直接用名称，例如ARM CPU寄存器 r1,r1就是寄存器的名称,可以通过r1直接访问寄存器的内容,而内存则用地址，例如1234表示内存的地址

在CPU中寄存器分为以下几种

内存地址寄存器（程序员不可见）

保存了当前正在读或者正在写的内存地址

内存数据寄存器（程序员不可见）

保存了当前刚从内存读出的数据或者准备要写入内存的数据

PC 程序计数器（程序员不可见）

保存了下一条要执行的指令的内存地址

IR指令寄存器（程序员不可见）

保存了当前正在执行的指令

通用寄存器（程序员可见）

存储临时的数据例如中间结果）

特殊寄存器（程序员不可见）

例如累加器,条件寄存器等

2.2 机器码长度设计

在1.2章节中阐述了机器码的格式，没有指出机器码长度的设计，这里指出。

指令长度算法:

操作码长度+控制位长度+寄存器寻址个数*寄存器占用位数+内存直接取址个数*内存占用位数+立即数长度

操作码长度：

CPU支持的指令个数,如果支持8个指令，那操作码长度就是3

控制位长度：

这个是固定的

寄存器寻址个数*寄存器占用位数：

寄存器占用位数可以通过程序员可以访问的寄存器个数换算得知，如果寄存器可以访问的寄存器个数为32,那么寄存器占用位数就是5（2的5次方=32）

寄存器寻址个数表示机器码中通过寄存器获取操作数或者间接通过寄存器获取操作数的寄存器个数例如

ADD r1,r2 表示通过r1,r2两个寄存器获取操作数,那么寄存器寻址个数就是2

内存直接取址个数*内存占用位数：

内存直接取址个数表示有多少通过内存直接寻址获取操作数,例如

MOV BX,[1234] 表示从1234内存地址获取操作数,内存直接取址个数为1

立即数长度

根据立即数的范围得出,例如立即数范围为0-999，那么立即数长度就是10,2的10次方=1024刚好大于999，可以完全包含立即数的范围。

举例论证:

以三地址机器码格式为例，假设目的地址，源地址都是寄存器，那么一个寄存器占用5位,3个寄存器占用15位,对于32位字长的cpu，操作码+控制位就是17位，如果操作数部分不够15位，则操作数部分自动扩展为32位。