从词法分析到优化Pass：自托管编译器的完整构建路径

自托管编译器（Self-Hosting Compiler）是指用自身语言编写的编译器，能够编译自身的源代码。这一直是编程语言生态中的标志性目标：从 C 语言的 gcc、Clang 到 Rust 的 rustc，完成自托管意味着语言本身已经足够成熟。构建这样一个编译器的过程，实际上是对编译原理的系统性工程实践。本文以 DoctorWkt 的 acwj（A Compiler Writing Journey）项目为线索，梳理从零构建自托管编译器的完整技术路径，并给出可落地的关键参数与监控点。

词法分析：compiler 的第一道门槛

词法分析（Lexical Analysis）是将源代码字符流转换为记号（Token）流的过程。在自托管编译器的工程实现中，词法分析器通常作为独立模块，遵循有限状态机的设计原则。一个最小可工作的词法分析器需要识别以下几类 Token：标识符、关键字、运算符、常量（整数与字符串）以及界符（如分号、括号）。在 acwj 项目中，词法分析器采用手工编写的方式实现，而非依赖 Lex 或 Flex 等工具生成，这样的选择有助于保持编译器的可移植性与代码可读性。

工程实践中的关键参数如下：词法分析器应保证单字符前瞻（Lookahead）即可完成分词，这对于大多数 C 语言子集已经足够；Token 缓冲区建议采用固定长度数组实现，大小推荐为 64 字节，可覆盖绝大多数标识符与数字常量；错误恢复策略上，遇到非法字符时应跳过并继续扫描，同时记录错误行号以便后续报告。建议在词法分析阶段记录每个 Token 的行列位置信息，这将大幅简化后续语法分析的报错定位工作。

语法解析：从 Token 到抽象语法树

语法解析器（Parser）的任务是将 Token 流转换为抽象语法树（AST）。自托管编译器的语法解析通常采用递归下降算法或算符优先分析。递归下降 parser 的实现直观易于调试，是入门编译器的首选方案。在 acwj 项目中，作者采用了递归下降加预读 Token 的方式实现语法分析，支持变量声明、函数定义、表达式求值、控制流语句等核心语言特性。

AST 的节点设计是语法分析阶段的核心决策。每个节点应至少包含节点类型枚举、孩子节点指针、属性数据（如变量名、常量值、运算符类型）以及源码位置信息。建议将 AST 节点设计为联合体结构，以减少内存开销。语法分析的监控要点包括：每条产生式对应一个递归函数，通过函数调用栈深度可以判断表达式嵌套深度 —— 递归深度超过 32 层时应考虑改为迭代实现或报错； Parser 应维护一个错误标志位，检测到首个语法错误后进入同步恢复模式，跳过若干 Token 后继续尝试解析，以收集更多错误信息。

中间表示与代码生成：从 AST 到目标代码

代码生成是编译器的后端核心环节。早期编译器往往直接由 AST 生成目标代码，但现代编译器通常引入中间表示（IR）作为过渡。IR 分为高级 IR（如 SSA 形式）与低级 IR（如三地址码）。在自托管编译器的构建过程中，建议先实现直接从 AST 到目标代码的朴素生成器，待系统稳定后再引入 IR 层进行优化。

目标代码可以是汇编代码、虚拟机字节码或 LLVM IR。acwj 项目选择生成 x86-64 汇编代码，这种方式便于理解底层机制且不需要额外依赖。代码生成的关键实现包括：寄存器分配策略 —— 对于初学者推荐使用贪心算法按需分配物理寄存器，超出数量限制时将变量溢出到栈帧；函数调用约定 —— 必须遵守目标平台的调用约定（如 x86-64 的 System V ABI），参数通过寄存器 rdi、rsi、rdx、rcx、r8、r9 传递，超出部分压栈；栈帧布局 —— 每个函数入口应分配栈帧，保存返回地址、_callee-saved 寄存器，并预留局部变量空间。

代码生成的性能监控指标包括：生成的汇编指令数量、函数调用深度、以及目标代码的大小。建议在代码生成器输出每条指令后进行校验，确保操作数类型匹配、跳转目标地址有效。

优化 Pass：提升生成代码质量

优化是编译器后端的关键环节。优化 Pass 通常在 IR 层实现，以保持与目标平台的独立性。入门级自托管编译器可以实现以下几类基础优化：常量折叠（Constant Folding）在编译期计算常量表达式的值，如将 2 加 3 替换为 5；代数简化（Algebraic Simplification）应用交换律、结合律等代数恒等式消除冗余计算；死代码消除（Dead Code Elimination）移除不会被执行或结果不会被使用的代码块。

进阶优化则需要引入数据流分析。活跃变量分析（Live Variable Analysis）确定每个程序点哪些寄存器或变量会被后续使用，以此为依据进行寄存器分配优化。循环不变代码外提（Loop-Invariant Code Motion）将循环内不变的计算移到循环外部，减少重复执行。这些优化的实现复杂度较高，建议在完成自托管闭环后再逐步引入。

工程实现中的优化 Pass 配置参数如下：优化级别可设为 0（无优化）、1（基础优化）、2（激进优化）三档；每次 Pass 遍历应记录是否发生变更，若无变更则提前终止迭代；优化耗时应在日志中记录，单个 Pass 超过 100ms 时应考虑算法优化或缓存策略。

自托管闭环：编译器编译自身

当编译器能够正确编译自身的完整源代码时，即实现了自托管。自托管的意义不仅在于技术炫耀，更在于验证编译器的完整性与正确性。要实现自托管，编译器必须支持完整的语言特性集，包括但不限于：指针运算、结构体与联合体、类型转换、预处理器宏（可简化实现）、标准库函数调用。

自托管的验证流程为：首先使用第一版编译器（通常用其他语言如 C 或 Python 实现）编译自托管编译器源码，得到可执行文件；然后用该可执行文件再次编译自身源码，比对两次编译生成的目标代码是否完全一致。若一致则说明编译器具有确定性，自托管成功。实际项目中，由于优化差异或运行环境不同，完全一致可能难以达成，此时可放宽为功能等价验证。

实践建议与可落地参数清单

构建自托管编译器是一个迭代过程，建议遵循以下工程路径。第一阶段实现完整的词法与语法分析，生成可运行的解释器或朴素代码生成器，验证语言特性覆盖度。第二阶段引入目标代码生成，实现完整的函数调用与栈帧管理。第三阶段添加优化 Pass，从常量折叠开始逐步增加。第四阶段尝试自托管闭环。

关键可落地参数包括：词法分析器缓冲区大小 64 字节、递归下降解析器栈深度限制 32 层、寄存器溢出阈值采用贪心分配策略、优化 Pass 超时阈值 100ms、编译错误恢复时跳过 Token 数量建议 5 到 10 个。这些参数并非绝对，需要根据实际目标平台与语言特性进行调校，但可为工程实现提供初始参考。

自托管编译器的构建过程，是对编译原理从理论到实践的系统性检验。通过词法分析、语法解析、代码生成与优化 Pass 的完整实现，开发者不仅能深入理解编译器工作原理，还能掌握系统级软件工程的架构能力。

资料来源：DoctorWkt/acwj (https://github.com/DoctorWkt/acwj)