《深入浅出计算机组成原理》学习笔记 Day3
阿里云国内75折 回扣 微信号:monov8 |
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6 |
ELF和静态链接
1. 程序执行编译、链接和装载
有这么两个C文件
\\ add.c
int add(int a, int b) {
return a + b;
}
\\ test.c
#include <stdio.h>
int main() {
int a = 1;
int b = 2;
int c = add(a, b);
printf("c = %d \n", c);
return 0;
}
现在我们通过 gcc 命令来分别编译这两个文件并用 objdump 命令来查看其汇编代码。
gcc -c add.c
gcc -c test.c
objdump -d -M intel -S add.o
objdump -d M intel -S test.o
add_lib.o: file format elf64-x86-64
Disassembly of section .text:
0000000000000000 <add>:
0: 55 push rbp
1: 48 89 e5 mov rbp,rsp
4: 89 7d fc mov DWORD PTR [rbp-0x4],edi
7: 89 75 f8 mov DWORD PTR [rbp-0x8],esi
a: 8b 55 fc mov edx,DWORD PTR [rbp-0x4]
d: 8b 45 f8 mov eax,DWORD PTR [rbp-0x8]
10: 01 d0 add eax,edx
12: 5d pop rbp
13: c3 ret
link_example.o: file format elf64-x86-64
Disassembly of section .text:
0000000000000000 <main>:
0: 55 push rbp
1: 48 89 e5 mov rbp,rsp
4: 48 83 ec 10 sub rsp,0x10
8: c7 45 fc 0a 00 00 00 mov DWORD PTR [rbp-0x4],0xa
f: c7 45 f8 05 00 00 00 mov DWORD PTR [rbp-0x8],0x5
16: 8b 55 f8 mov edx,DWORD PTR [rbp-0x8]
19: 8b 45 fc mov eax,DWORD PTR [rbp-0x4]
1c: 89 d6 mov esi,edx
1e: 89 c7 mov edi,eax
20: b8 00 00 00 00 mov eax,0x0
25: e8 00 00 00 00 call 2a <main+0x2a>
2a: 89 45 f4 mov DWORD PTR [rbp-0xc],eax
2d: 8b 45 f4 mov eax,DWORD PTR [rbp-0xc]
30: 89 c6 mov esi,eax
32: 48 8d 3d 00 00 00 00 lea rdi,[rip+0x0] # 39 <main+0x39>
39: b8 00 00 00 00 mov eax,0x0
3e: e8 00 00 00 00 call 43 <main+0x43>
43: b8 00 00 00 00 mov eax,0x0
48: c9 leave
49: c3 ret
当我们想要执行这两个文件时会遇到程序格式不正确的错误。
原因是 add.o 和 test.o 都不是一个可执行文件而是目标文件。只有通过链接器把多个目标文件以及调用的各种函数库链接起来才能得到一个可执行文件。
重新生成可执行文件
$ gcc -o test test.o add.o
$ ./test
c = 3
实际上整个生成机器码的过程可以分成两个部分
- 第一个部分由编译Compile、汇编Assemble以及链接Link三个阶段组成。在这三个阶段完成后我们就生成了一个可执行文件。
- 第二个部分通过装载器Loader把可执行文件装载Load到内存中CPU 从内存中读取指令和数据来执行程序。
2. ELF 格式和链接
在Linux下可执行文件和目标文件所使用的都是一种叫 ELFExecutable and Linkable File Format的文件格式即可执行与可链接文件格式。
ELF 文件格式把各种信息分成一个一个的 Section 保存起来。ELF 有一个基本的文件头File Header用来表示这个文件的基本属性比如是否是可执行文件对应的 CPU、操作系统等等。除了这些基本属性之外大部分程序还有这么一些 Section
- 首先是.text Section也叫作代码段或者指令段Code Section用来保存程序的代码和指令
- 接着是.data Section也叫作数据段Data Section用来保存程序里面设置好的初始化数据信息
- 然后就是.rel.text Secion叫作重定位表Relocation Table。重定位表里保留的是当前的文件里面哪些跳转地址其实是我们不知道的。比如上面的 test.o 里面我们在 main 函数里面调用了 add 和 printf 这两个函数但是在链接发生之前我们并不知道该跳转到哪里这些信息就会存储在重定位表里
- 最后是.symtab Section叫作符号表Symbol Table。符号表保留了我们所说的当前文件里面定义的函数名称和对应地址的地址簿。
链接器会扫描所有输入的目标文件然后把所有符号表里的信息收集起来构成一个全局的符号表。然后再根据重定位表把所有不确定要跳转地址的代码根据符号表里面存储的地址进行一次修正。最后把所有的目标文件的对应段进行一次合并变成了最终的可执行代码。这也是为什么可执行文件里面的函数调用的地址都是正确的。
3. 总结延伸
Linux 下的可执行文件格式是 ELF 文件格式而 windows 的可执行文件格式是一种叫做 PEPortable Executable Format的文件格式。
通过静态链接的机制使得不同的文件之间既有分工又能通过静态链接来“合作”变成一个可执行的程序。
对于 ELF 格式的文件为了能够实现这样一个静态链接的机制里面不只是简单罗列了程序所需要执行的指令还会包括链接所需要的重定位表和符号表。
另外如果通过gcc来生成可执行程序一定要把库文件放在命令行的最右边链接器从左到右依次解析命令行中的文件里的符号
参考
- 极客时间《深入浅出计算机组成原理》http://gk.link/a/11UMi
- 《深入理解计算机系统》