6o6 v1.1：6502 二重虚拟化性能优化与 Apple-1 模拟器实践

在复古计算领域，模拟器开发一直面临着性能与保真度之间的永恒取舍。当你想在一台 Commodore 64 上运行 Apple-1 程序时，问题变得更加微妙：你需要用一个真实的 6502 CPU 来模拟另一个 6502 处理器 —— 这便是所谓的「6502 二重虚拟化」。6o6 项目正是这一领域的典型代表，其最新版本 v1.1 通过一系列精细的优化手段，将这一抽象层的执行开销降低了 2.6%。本文将深入解析这些优化技术的实现原理，并探讨其在构建 Apple-1 模拟器时的工程实践。

6o6 架构概述：虚拟机抽象的核心设计

6o6 是一个完全虚拟化的 NMOS 6502 核心，完全使用 6502 汇编语言编写，能够运行在任何具备足够内存的 6502 平台上。与传统模拟器不同，6o6 采用了分层架构设计：虚拟机本身提供完整的指令集模拟（仅包含文档化的指令），而与宿主硬件的交互则通过两个关键接口完成 ——harness（ Harness）和 kernel（内核）。

Harness 是虚拟机访问客户机内存的唯一窗口，它负责将虚拟地址映射到物理地址。这一设计赋予了 harness 极强的灵活性：它可以实现分页机制、按需加载内存、动态合成地址空间，甚至能够在发生访问违规时向内核抛出异常。Kernel 则扮演着管理者的角色，它反复调用虚拟机执行一条或多条客户机指令，随后检查并修改客户机处理器状态。整个执行过程被严格控制，确保宿主系统不会被客户机代码意外破坏。

这种架构的一个典型应用场景是从 Commodore 64 的 geoRAM 扩展内存中运行一个完整的客户机系统 —— 客户机的全部内存并不实际存在于主机内存中，而是由 harness 动态管理。一个更直观的例子是使用 6o6 在 C64 或 Apple II 上运行 Apple-1 模拟器，这正是 v1.1 版本发布时演示的核心场景。

v1.1 优化详解：指令融合与零页快速通道

v1.1 版本的核心改进聚焦于性能提升，而非功能扩展。这些优化虽然看似微小（仅 2.6% 的指令数减少），但在 6502 二重虚拟化的上下文中意义重大 —— 考虑到每条客户机指令平均需要超过 50 条宿主指令来模拟，减少 2.6% 意味着每条客户机指令节省了约 1.3 条宿主指令。

内存访问宏的内联优化是 6o6 性能的关键来源。该项目紧密绑定 xa65 交叉汇编器的宏系统，利用它将内存访问相关的大段代码内联到虚拟机中。虽然这会导致生成的代码体积膨胀，但显著提升了执行速度，因为热路径中避免了子程序调用的开销。最受益的宏当属内存访问宏 —— 由于即使读取一条指令也需要内存访问，这些宏可以被定义并内联到 harness 中。值得注意的是，6o6 为 6502 零页访问设置了特殊路径，而新版本进一步引入了零页存储的快速通道。

零页快速通道的引入是 v1.1 最重要的优化之一。6502 的零页（地址 $0000-$00FF）是其最具特色的寻址模式之一，因为零页位置的物理地址可以预先计算，从而减少虚拟地址解析的复杂度。在此之前，零页寻址模式的地址解析器在设置虚拟地址结果时效率低下。新的快速通道使得这些访问模式不再需要执行原本繁琐的地址计算逻辑，直接将零页访问重定向到预计算的物理位置。

指令分发的精简是另一项关键改进。在每一条客户机指令执行时，指令分发代码都必须运行。v1.1 审查了多个零页寻址模式的实现，发现它们存在冗余设置，最终将这些 opcode 从指令分发热路径中移除。这种「每一周期都重要」的优化思路贯穿整个开发过程，因为即使是微小的开销，乘以数百万次的执行累积也会成为显著的性能瓶颈。

量化视角：理解性能改进的实质

从量化的角度审视 6o6 v1.1 的改进，我们可以得到更清晰的认识。根据项目文档，原版 6o6 1.0 执行 Klaus Dormann 著名的 6502 验证套件需要 1,602,516,769 条宿主指令，平均每条客户机指令消耗 52.3 条宿主指令。v1.1 将这一数字降低到 1,561,780,659 条指令，平均值为 51.0，减少了超过 4000 万条指令的执行。

这个改进的 Delta 在特定场景下会更加显著。对于以读取为主或大量使用零页操作的代码，由于零页存储快速通道的加入，更多访问（包括存储操作）可以迁移到快速路径上执行。这意味着典型的 BASIC 解释器或监控程序 —— 它们频繁访问零页用于临时存储和堆栈操作 —— 将获得比平均水平更好的性能提升。

需要指出的是，这种性能改进是在保持完全指令集兼容性的前提下实现的。6o6 仍然通过完整的 6502 验证套件，没有任何指令被省略或简化。对于一个需要在真实硬件上运行的虚拟机而言，兼容性是底线，性能优化必须在不影响正确性的前提下进行。

构建 Apple-1 模拟器：VA1 的工程实践

使用 6o6 构建的 Apple-1 模拟器被称为 VA1（Virtual Apple-1），它能够在 Commodore 64 或 Apple II 上运行原生的 Apple-1 程序。VA1 提供了完整的 8K RAM 系统，默认配置包含位于虚拟地址 $E000 的 4K 高位 RAM（用于 Integer BASIC）和位于 $0000 的 4K 低位 RAM（用于用户程序）。

在 C64 上运行时，VA1 直接将测试程序放在 $0000 执行而不会崩溃 —— 这正是虚拟化隔离的体现。客户机代码被完全限制在虚拟地址空间中，无法访问宿主系统的实际硬件寄存器。屏幕输出通过 C64 的 jiffy 时钟同步到 Apple-1 的视频硬件速率（约 60Hz），光标闪烁也采用类似的同步机制。特殊键位如 ESCAPE（F1）和删除键都有对应的映射。

值得注意的是，VA1 在执行纯计算任务时大约比真实 Apple-1 慢 10 到 20 倍，具体取决于指令组合。但由于 Apple-1 的视频硬件本身限制了字符输出速率（每帧仅能接受一个字符），当程序进行屏幕输出时，模拟器的整体性能实际上受限于视频硬件而非 CPU，此时运行速度与真实机器几乎无异。

优化路径的局限与未来方向

尽管 6o6 已经实现了相当程度的优化，但开发者在博客中指出了未来的改进方向。栈操作（push 和 pull）是下一个优化目标 —— 此前的 KIM-1 模拟器由于内存限制并未大量使用子程序调用，但更大的程序会频繁使用栈来保存和恢复寄存器状态。通过引入专门的宏来加速栈操作，预期可以在不破坏现有 API 的前提下获得显著性能提升。

另一个更具雄心的计划是实现动态页表，本质上是一种声明式 harness。由于页表中已经包含了虚拟页的去引用物理位置，虚拟机可以直接获取数据，而标志位可以告知虚拟机何时需要直接咨询 harness。这种设计类似于传统操作系统中的页 fault 机制，但实现复杂度较高，需要在不破坏当前 API 的前提下进行。

小结

6o6 v1.1 展示了在极端资源受限环境下进行虚拟机优化的可能性：通过精细的指令融合、零页快速通道和地址解析优化，实现了 2.6% 的性能提升。对于在真实 6502 硬件上运行的双重虚拟化场景而言，每一滴性能提升都来之不易。这种优化思路不仅适用于复古计算模拟器，也为理解现代虚拟机（如 Java 虚拟机、WebAssembly 运行时）的优化策略提供了有价值的参考 —— 无论是内联热点代码、识别快速路径，还是通过预计算减少地址解析开销，这些原则在不同层级的虚拟化实现中具有普遍意义。

资料来源：6o6 v1.1 发布博客文章（oldvcr.blogspot.com, 2026 年 3 月）