c程序编译过程浅析

北纬395427 北纬395427     2022-08-23     521

关键词:

前几天看了《程序员的自我修养——链接、装载与库》中的第二章“编译和链接”,主要根据其中的内容简单总结一下C程序编译的过程吧。

我现在一般都是用gcc,所以自然以GCC编译hellworld为例,简单总结如下。
 

hello.c源代码如下:

1
2
3
4
5
6
[c] view plaincopy
 
 
  1. <span style="color:#339933">#include <stdio.h></span>  
  2. <span style="color:#993333">int</span> main<span style="color:#009900">(</span><span style="color:#009900">)</span>  
  3. <span style="color:#009900">{</span>  
  4.     <a href="http://www.opengroup.org/onlinepubs/009695399/functions/printf.html"><span style="color:#000066">printf</span></a><span style="color:#009900">(</span>“Hello<span style="color:#339933">,</span> world. ”<span style="color:#009900">)</span><span style="color:#339933">;</span>  
  5.     <span style="color:#b1b100">return</span> <span style="color:#0000dd">0</span><span style="color:#339933">;</span>  
  6. <span style="color:#009900">}</span>  

通常我们使用gcc来生成可执行程序,命令为:gcc hello.c,默认生成可执行文件a.out

其实编译(包括链接)的命令:gcc hello.c 可分解为如下4个大的步骤:

  • 预处理(Preprocessing)
  • 编译(Compilation)
  • 汇编(Assembly)
  • 链接(Linking)

 

技术分享

gcc compilation



 

 

1.       预处理(Preproceessing)

预处理的过程主要处理包括以下过程:

  • 将所有的#define删除,并且展开所有的宏定义
  • 处理所有的条件预编译指令,比如#if #ifdef #elif #else #endif等
  • 处理#include 预编译指令,将被包含的文件插入到该预编译指令的位置。
  • 删除所有注释 “//”和”/* */”.
  • 添加行号和文件标识,以便编译时产生调试用的行号及编译错误警告行号。
  • 保留所有的#pragma编译器指令,因为编译器需要使用它们

 

通常使用以下命令来进行预处理:

gcc -E hello.c -o hello.i

参数-E表示只进行预处理 或者也可以使用以下指令完成预处理过程

cpp hello.c > hello.i      /*  cpp – The C Preprocessor  */

直接cat hello.i 你就可以看到预处理后的代码

 

2.       编译(Compilation)

编译过程就是把预处理完的文件进行一系列的词法分析,语法分析,语义分析及优化后生成相应的汇编代码。

$gcc –S hello.i –o hello.s

或者

$ /usr/lib/gcc/i486-Linux-gnu/4.4/cc1 hello.c

注:现在版本的GCC把预处理和编译两个步骤合成一个步骤,用cc1工具来完成。gcc其实是后台程序的一些包装,根据不同参数去调用其他的实际处理程序,比如:预编译编译程序cc1、汇编器as、连接器ld

可以看到编译后的汇编代码(hello.s)如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
    .file   "hello.c"
    .section    .rodata
.LC0:
    .string "Hello, world."
    .text
.globl main
    .type   main, @function
main:
    pushl   %ebp
    movl    %esp, %ebp
    andl    $-16, %esp
    subl    $16, %esp
    movl    $.LC0, (%esp)
    call    puts
    movl    $0, %eax
    leave
    ret
    .size   main, .-main
    .ident  "GCC: (Ubuntu 4.4.3-4ubuntu5) 4.4.3"
    .section    .note.GNU-stack,"",@progbits

 

3.       汇编(Assembly)

汇编器是将汇编代码转变成机器可以执行的命令,每一个汇编语句几乎都对应一条机器指令。汇编相对于编译过程比较简单,根据汇编指令和机器指令的对照表一一翻译即可。

$ gcc –c hello.c –o hello.o

或者

$ as hello.s –o hello.co

由于hello.o的内容为机器码,不能以普通文本形式的查看(vi 打开看到的是乱码)。

 

4.       链接(Linking)

通过调用链接器ld来链接程序运行需要的一大堆目标文件,以及所依赖的其它库文件,最后生成可执行文件。

ld -static crt1.o crti.o crtbeginT.o hello.o -start-group -lgcc -lgcc_eh -lc-end-group crtend.o crtn.o (省略了文件的路径名)。

 

helloworld的大体编译和链接过程就是这样了,那么编译器和链接器到底做了什么呢?

 

编译过程可分为6步:扫描(词法分析)、语法分析、语义分析、源代码优化、代码生成、目标代码优化。

词法分析:扫描器(Scanner)将源代的字符序列分割成一系列的记号(Token)。lex工具可实现词法扫描。

语法分析:语法分析器将记号(Token)产生语法树(Syntax Tree)。yacc工具可实现语法分析(yacc: Yet Another Compiler Compiler)。

语义分析:静态语义(在编译器可以确定的语义)、动态语义(只能在运行期才能确定的语义)。

源代码优化:源代码优化器(Source Code Optimizer),将整个语法书转化为中间代码(Intermediate Code)(中间代码是与目标机器和运行环境无关的)。中间代码使得编译器被分为前端和后端。编译器前端负责产生机器无关的中间代码;编译器后端将中间代码转化为目标机器代码。

目标代码生成:代码生成器(Code Generator).

目标代码优化:目标代码优化器(Target Code Optimizer)。

 

链接的主要内容是把各个模块之间相互引用的部分处理好,使得各个模块之间能够正确地衔接。

链接的主要过程包括:地址和空间分配(Address and Storage Allocation),符号决议(Symbol Resolution),重定位(Relocation)等。

链接分为静态链接和动态链接。

静态链接是指在编译阶段直接把静态库加入到可执行文件中去,这样可执行文件会比较大。

动态链接则是指链接阶段仅仅只加入一些描述信息,而程序执行时再从系统中把相应动态库加载到内存中去。

静态链接的大致过程如下图所示:

技术分享

static linking

 

参考资料:

《程序员的自我修养——链接、装载与库》

http://www.stackpop.org/blog/html/y2011/53_cpp_compile_linking.html

http://blog.chinaunix.net/space.php?uid=20196318&do=blog&id=28797




c编译过程浅析

...                     ---standby编译(compile)预处理(也称预编译,Preprocessing)编译(C 查看详情

易语言算法原理浅析

...易语言代码,并且编译这段代码,从汇编角度分析易语言程序编译后,易语言算法在汇编中的实现过程。   .版本2.程序集窗口程序集_启动窗口.子程序_按钮1_被单击.局 查看详情

浅析v8引擎,让你更懂javascript!

...将源代码一次性转换成目标代码的过程。执行编译过程的程序叫编译器(Compiler)。解释:将源代码逐条转换成目标代码 查看详情

浅析c/c++编译流程(代码片段)

...,请看音视频系统学习的浪漫马车之总目录C/C++编译浅析C/C++编译本质一篇文章入门C/C++自动构建利器之Makefile升级构建工具,从Makefile到CMake如果你愿意一层一层一层地剥开我的心你会发现你会讶异你是... 查看详情

c/c++程序编译过程详解

C语言的编译链接过程要把我们编写的一个c程序(源代码)转换成可以在硬件上运行的程序(可执行代码),需要进行编译和链接。编译就是把文本形式源代码翻译为机器语言形式的目标文件的过程。链接是把目标文件、操作系... 查看详情

c/c++程序编译过程详解

C语言的编译链接过程要把我们编写的一个c程序(源代码)转换成可以在硬件上运行的程序(可执行代码),需要进行编译和链接。编译就是把文本形式源代码翻译为机器语言形式的目标文件的过程。链接是把目标文件、操作系... 查看详情

嵌入式linux—浅析makefile(代码片段)

Makefile文档组织管理程序不使用Makefile的缺点-otesta.cb.c执行过程:a.c文件通过预处理、编译、汇编得到a.o文件b.c文件通过预处理、编译、汇编得到b.o文件a.o文件与b.o文件通过链接,得到test可执行文件这种方式的缺点:如果仅仅对a... 查看详情

thrift原理浅析

...对象成员,接口方法等一系列信息。2.通过RPC框架提供的编译器,将接口说明文件编译成对应的语言文件。2.在客户端和服务端分别引用RPC编译器生成的文件,即可像调用本地方法一样远程调用。RPC通信过程如下:1.客户端以正常... 查看详情

c程序编译执行过程

...的代码。连接---->将目标代码与C函数库相连接,并将源程序所用的库代码与目标代码合并,并形成最终可执行的二进制机器代码(程序)。执行----->在特定的机器环境下运行C程序。 如果用一个图来表示: &nbs 查看详情

浅析jvm

...行时数据区什么是JVMJVM:指JAVA虚拟机,用来解释并执行编译后的.class文件。每运行一个JAVA进程,都会启动一个JVM。不同的操作系统有不同的JVM,JVM是实现JAVA“Writeonece,runanywhere”的核心。从源文件到JVM解释的过程  ... 查看详情

嵌入式开发gcc学习笔记-编译c程序及编译过程

一.C程序编译过程编译过程简单介绍:C语言的源文件编译成可运行文件须要四个步骤,预处理(Preprocessing)扩展宏,编译(compilation)得到汇编语言,汇编(assembly)得到机器码,连接(linking)得到可运行文件;--查看每一个步骤的编译细节:"-E"相应... 查看详情

入门c/c++自动构建利器之makefile(代码片段)

...,请看音视频系统学习的浪漫马车之总目录C/C++编译浅析C/C++编译本质一篇文章入门C/C++自动构建利器之Makefile升级构建工具,从Makefile到CMakeMakefile简介上一篇浅析C/C++编译本质已经比较详细地介绍... 查看详情

浅析c语言的一个关键字——register

1、register修饰符暗示编译程序相应的变量将被频繁地使用,如果可能的话,应将其保存在CPU的寄存器中,以加快其存储速度。例如下面的内存块拷贝代码,/*Procedurefortheassignmentofstructures,*//*iftheCcompilerdoesn‘tsupportthisfeature*/  #if... 查看详情

运行c程序的过程和简单的c程序结构

运行c程序的过程编译编译器可以将源代码转换成机器语言,在编译过程中,会找出错误并报告。这个阶段的输入是在编辑期间产生的文件,常称为源文件。编译器能找出程序中很多无效的和无法识别的错误,包括结构错误,例... 查看详情

李洪强ios开发之c语言程序编译过程

...记,这就是汇编语言人比较容易看懂汇编语言汇编直接和程序一一对应的有汇编器把程序翻译成机器码 把高级语言编译成计算机识别的语言      程序编译过程命令行UNIX系统中自带了C语言的编译器,编译... 查看详情

浅析c语言的一个关键字——register

1、register修饰符暗示编译程序相应的变量将被频繁地使用,如果可能的话,应将其保存在CPU的寄存器中,以加快其存储速度。例如下面的内存块拷贝代码,/*Procedurefortheassignmentofstructures,*//*iftheCcompilerdoesn'tsupport... 查看详情

浅析c/c++编译本质(代码片段)

...视频开发编译第三方库打下坚实的基础~~GCC编译器只要是程序员,都会知道编译是什么,不过这里还是要简单提两句,这样可以突显文章的完整性(^_^)。我们平时写的编程语言计算机根本看不懂,计算机... 查看详情

浅析jit即时编译技术

即时编译回顾HotSpot虚拟机执行Java程序时,先通过解释器对代码解释执行,发现某个方法或代码块执行比较频繁后,对热点代码进行编译,编译后生成与本地平台相关的机器码,再去执行机器码获得较高的运行效率。必要时,也... 查看详情