c语言编译器手册(读懂这4个函数528行代码)
c语言编译器手册(读懂这4个函数528行代码)
2024-06-09 06:53:12  作者:條件式接吻  网址:https://m.xinb2b.cn/know/wmj207795.html
引言

自从华为方舟编译器横空出世,一举成为全民网红之后,一下子点燃了大家对编译器的热情。不过,对于大多数人来说,编译器仍然是遥不可及的神秘存在。

今天,介绍一个国外大牛写的C语言编译器 - C4,揭开编译器的神秘面纱。原来实现一个具备基本功能的编译器,竟是如此简单!

C4:4个函数实现的C语言编译器

C4, C in four functions。

它是一个C语言编译器项目(项目地址在文末),整个实现只有:

一个C语言源码文件528行C语言代码4个函数

仅此而已。

c语言编译器手册(读懂这4个函数528行代码)(1)

C4代码仓库

它简洁,却不简单。

它具备完整的词法分析、语法分析、简单的语义检查、代码生成、运行时环境(即虚拟机)

与常见的C编译器不同的是,它把C语言源程序编译成字节码(bytecode),然后在一个精简的虚拟机中解释执行

你以为这样就完了?不,它令人称道之处远不止如此!

C4:可以自举的C语言编译器

若只是精简,或许它还并不那么令人惊奇,毕竟网上有很多类似的编译器项目,其中不乏一些非常简单优雅,且非常出色的项目。

然而,C4最惊艳的地方是,它可以自举

所谓自举,简单来说,就是自己编译自己。当然,最初始的那个C4编译器的可执行文件,还是必须要通过GCC、Clang等编译器进行编译生成。

我们下面演示一下“Hello, World!”的例子,和C4自举的例子。

Hello, World示例

先用GCC把C4编译成可执行文件:

gcc c4.c -o c4

运行“Hello, World!”测试程序hello.c:

c语言编译器手册(读懂这4个函数528行代码)(2)

结果如图:

c语言编译器手册(读懂这4个函数528行代码)(3)

其中,“hello, world”是hello.c 输出的,“exit(0) cycle = 9”是c4编译器输出的,表示程序正常运行结束,hello.c一共生成9条指令。

C4的自举示例

我们用GCC编译c4.c生成了可执行文件c4,我们称之为编译器A,然后用编译器A来编译c4的源码c4.c,则生成一个编译器B,然后再用编译器B来编译执行hello.c。

命令如下:

./c4c4.chello.c

结果如图:

c语言编译器手册(读懂这4个函数528行代码)(4)

C4自举执行

还可以这样:

./c4 c4.c c4.c hello.c

也就是GCC编译生成的c4是编译器A,./c4 c4.c生成的是编译器B, ./c4 c4.c c4.c编译生成的则是编译器C,最后用编译器C来编译运行hello.c。

c语言编译器手册(读懂这4个函数528行代码)(5)

C4递归自举

理论上可以一直递归下去。只不过,从图中可以看出,递归的层次越深,生成的字节码越多,执行所需的时间也越多。

C4实现的C语言子集

C4致力于用最少的代码,实现一个可以自举的C编译器。它的整个实现只有4个函数组成,可想而知,它不可能完整的实现整个C语言的规范,它只实现了C语言的一个子集。

数据类型

char int 指针 枚举(enum) 数组 字符串

不支持struct、typedef、union等数据类型。

语句结构

if-else控制语句while循环语句return语句函数

不支持do-while、switch-case、for、continue、break、goto等语句结构。

运算符

它支持除 =、%=、<<=、&=等符合运算符之外的几乎所有运算符。包括:

算术运算符关系运算符逻辑运算符位运算符赋值运算符杂项运算符(如三元运算符?:)

内建库函数

C4编译器实现时用到了一些系统库函数,因此,为了实现自举,它也内建支持了几个库函数。包括:

open、read、close、printf、malloc、free、memset、memcmp、exit

需要注意的是,它不支持以#开头的预处理命令,如#include、#define、#if等。

代码注释只支持“//”开头的单行注释,不支持“”标记的多行注释形式。

与传统的C语言编译器相比,C4在实现上有其独到之处。

下面,先简单介绍一些传统编译器的实现过程。

传统典型编译器的实现

典型的编译器的实现,一般都会有下面几个过程:

词法分析语法分析语义分析中间代码生成代码优化机器代码生成

如GCC、Clang、华为方舟编译器等均是如此。

c语言编译器手册(读懂这4个函数528行代码)(6)

这些阶段,会对代码进行多次扫描。这里的代码,包括文本形式的源代码、语法树、中间代码等表示形式。

典型的实现中,词法分析和语法分析通常会糅合在一起,在语法分析时,调用词法分析器逐个取得token。因此,理论上讲,词法分析和语法分析阶段,只需要对源码扫描一遍即可,并生成语法树,有时也叫抽象语法树(Abstract Syntax Tree)。

语义分析阶段操作的主要对象就是这棵树,至少要对这棵树扫描一遍。有些实现中,在进行语义检查的同时也会直接生成中间代码。

在代码优化阶段,根据编译器优化的力度的不同,可能会对中间代码进行多次扫描。

这里所谓的“扫描一遍”,在编译器术语中一般称为pass。对LLVM有了解的朋友应该知道,LLVM中每一种类型的优化都是一个pass,要应用多种优化技术,就需要有多个pass。

C4的独具特色之处

作为追求极简主义的C4编译器来说,它在实现上有很多独具特色之处。

对C源码解释执行

传统的C语言编译器,最终都把C语言源码编译成可执行文件,也就是二进制的机器码。

而C4则是把C语言源码先编译成其专门设计的字节码(bytecode),然后直接在虚拟机中解释执行。

C4设计了39个字节码指令,其中大部分与汇编语言中的指令有些类似,主要是内存加载指令,算术运算指令等,此外,还包含了为支持内建的库函数而专门设计的9条特殊的库函数调用指令。

它的虚拟机是典型的栈式虚拟机(Java虚拟机也是典型的栈式虚拟机,早期的Lua也是栈式虚拟机,但最新的Lua 5.x采用寄存器虚拟机)。

我们可以使用-d命令,把生成的字节码dump出来。下图是hello.c的字节码:

c语言编译器手册(读懂这4个函数528行代码)(7)

对源码只扫描一遍

与传统的编译器实现不同,C4它把词法分析、语法分析、语义分析、代码生成这几个步骤巧妙的结合在一起,在把C语言源码编译成字节码的整个过程中,只扫描了一遍源码。

Lua的解释器也是采用对源码扫描一遍的方式,因此,C4和Lua的性能都相当不错。

C4源码的可读性

对于C4的实现,网上也有一些讨论。有人认为C4的实现非常简洁、易读,也有人认为C4的实现稍显晦涩。

我个人认为,C4的实现确实非常简洁,毕竟只有4个函数,500多行代码。但是要真正完全理解,需要有一定的编译原理基础知识。

比如C4的语法分析过程中,就是典型的递归下降和算符优先算法相结合的实现方式。只要了解这些编译器的经典算法原理,C4的实现逻辑理解起来,还是比较轻松的。

c语言编译器手册(读懂这4个函数528行代码)(8)

此外,C4为了追求以最少的代码实现自举,在实现上采用了一些技巧。

比如,我们前面提到,C4不支持struct类型。这也意味着C4的源码中不能使用struct类型。为此,它选择使用数组来模拟struct结构。这样乍看起来,可能会产生一些困惑。

个人认为,C4的一个槽点,就是它变量的命名上,过于简洁。比如标记字节码的位置的变量用e表示,其实如果用emit的话,就会清晰许多,也会更容易理解。

C4的衍生实现

除了C4的原生实现外,网上也有很多基于C4的衍生实现。

比如有人给C4额外增加了80多行代码,却给C4添加了JIT功能,使得执行速度得到明显提升。

也有人对C4做了简单修改,使得它可以直接产生真实的机器码,并最终生成ELF可执行文件。

这些都是非常有趣的项目,都很值得研究。

C4的项目地址

在github上,找到用户名为rswier的大牛,就可以看到C4的项目了。

c语言编译器手册(读懂这4个函数528行代码)(9)

结语

现代的编译器项目,如GCC和Clang/LLVM,它们实现逻辑非常复杂,代码规模巨大,一个人几乎不可能完全搞清楚。即便是网上备受推崇的精简实现TCC和LCC,它们的实现也相对比较复杂的,作为一个新手来说,也很难彻底研究清楚。

而C4的实现,只有四个函数,500多行源码,个人认为是非常适合新手研究的一个项目。当然了,研究之前,最好具备一些编译器的基础知识,那样理解起来就会比较容易了。

c语言编译器手册(读懂这4个函数528行代码)(10)

本文只介绍了C4编译器项目的一些背景知识,并没有对C4的实现做过多探讨。感兴趣的朋友可以到github上面找到它,仔细研究一下,相信你会有不少收获!

如果对C4的代码实现感兴趣,或者有疑问的话,欢迎留言讨论!感兴趣的朋友多的话,我可以考虑更新几篇文章,详细讲解一下C4的代码实现。

原创不易,觉得有用的话,别忘了点赞!谢谢!

对编译器、OS内核、性能调优、虚拟化等技术感兴趣的童鞋,欢迎右上角关注!

版权声明:未经允许,禁止转载。文中部分图片来源网络,如有侵权,请通知删除!

  • 猫咪的7大不良行为(猫主子最害怕的惩罚方式)
  • 2024-06-09猫主子最害怕的惩罚方式毕竟猫咪还是比较向往自由且活泼可爱的动物,所以在饲养的过程中,它们难免会犯一些小错对于猫咪主子来说,以下是它最害怕的惩罚方式,每一个对于它来说,都是“死穴”“拿黄瓜吓唬它”应该很多铲屎官都听说过猫咪非。
  • 男孩长着一双招风耳好吗(头旋多招风耳脚趾长)
  • 2024-06-09头旋多招风耳脚趾长带着儿子在小区里晒太阳,各位遛娃的妈妈们兴致盎然地聊着孩子头上的旋一位妈妈总结:“老话说,一旋的孩子精明,二旋的孩子愣”各位妈妈赶快拉过自己孩子数数头旋有妈妈颇为担心地说:“哎,看来我家有两个旋的,肯。
  • 蒋欣穿蓝色百褶长裙(蒋欣美得太霸气)
  • 2024-06-09蒋欣美得太霸气俗话说时尚是个圈,如今越来越多古风造型和时尚元素受到了大家的认可,相对于那些吊带单品所展示的辣妹感不同,古典的国风元素所呈现的是东方美人的大气感,身穿宫廷风刺绣裙的蒋欣一秒变身为正宫娘娘,韵味十足,把。
  • 儒林外史范进内容详解赏析(儒林外史6.严贡生输官司)
  • 2024-06-09儒林外史6.严贡生输官司严监生死后,他的妻子赵氏守着孩子结果天有不测风云孩子不久生了天花病死了,赵氏琢磨在兄长严贡生那里过继一个儿子赵氏写了封信去请严贡生严贡生坐船去严监生家路上晕了船,吃了几片云片糕,这才好了船家看剩的云片。
  • 混元卧的功效与作用(混元卧的功效)
  • 2024-06-09混元卧的功效睡觉练着功入眠,早上起来再来收气,就等同于一个夜里都会练习晚上醒来想上厕所,先全身上下释放压力一遍,随后再去;然后睡时,再这般释放压力一遍那样,入睡也時刻拥有练习的內容混元卧功所取卧姿,可同于混元卧的。
  • 免费去广东十大最美古村之一(广东这10个千年古村落)
  • 2024-06-09广东这10个千年古村落海上丝绸之路重要港口,被誉为“粤东襟喉”;拥有4个国家级荣誉称号,素有“文墨乡”美誉;“千年瑶寨”传承一千多年,是全国规模最大的瑶寨;盛产荔枝的古村,据传苏东坡曾慕名来过……在广东大地上,分布着一批历。
  • 东山再起的历史典故解读(东山再起的典故是什么)
  • 2024-06-09东山再起的典故是什么中国文化博大精深,每个成语都有历史典故,东山再起的典故,出自于《晋书·谢安传》,说的是谢安辞官归隐东山后,又出山做官的事(谢安雕像)东晋名士中,谢安不论出身、相貌还是才学,都是名士中倍受追捧的偶像。
  • 新手养猫不建议养的四种猫(不建议养这几种猫)
  • 2024-06-09不建议养这几种猫现在还有很多年轻人都是“月光族”,并且还有很多都是负债的如果想要养猫,不建议“穷人”养以下这几种猫,养了就成了宠物医院的常客了!TOP.5无毛猫市场价:5000~2w烧钱指数:★★★★在一二线城市的猫。
  • 3系和5系操控谁更好(3系顶配和5系低配该选谁)
  • 2024-06-093系顶配和5系低配该选谁文:芝士驾道原创:diego有个朋友问,手头有40万左右的预算,是买宝马3系还是5系?这种鸡头还是凤尾的问题是很常见的,就像你是做普通班级的尖子生还是重点班的普通生,那当然也不能一概而论,所以我们就得。
  • 高频成语表及近义成语(成语也玩一词多义)
  • 2024-06-09成语也玩一词多义1.灯红酒绿:①形容寻欢作乐的腐化生活;②也形容都市或娱乐场所夜晚的繁华景象2.想入非非:①一般用来形容胡思乱想,不切实际,多用于贬义;②实际上“非非”是佛语,指“一般人认识达不到的境界”,因此也形容。
  • steam 找不到windows文件(steam登录windows找不到文件)
  • 2024-06-09steam登录windows找不到文件最近有玩家在使用steam时出现“steam登录windows找不到文件、steam.lnk文件找不到”的提示,下面是小编整理出来的一些解决办法,有需要的玩家一起来看看吧steam登录windows找。
  • 微信ios 8.0.27版本更新(微信iOS版v6.5.21更新)
  • 2024-06-09微信iOS版v6.5.21更新IT之家11月3日消息苹果iPhoneX在今天首发,不少的软件都已经在其发布之前对新的刘海屏进行了适配,但用户常用软件微信却没有提前上传升级包,于是用户下载的微信最终变成了下图这样:在今天临近中午,微。