悲催的袜子

Analyzing Modern NVIDIA GPU cores

Tue, 03 Mar 2026 00:00:00 GMT

引言

近年来，GPU 已不仅用于图形渲染，也被广泛用于通用计算负载[1]。GPU 架构提供的大规模并行性可被许多现代应用充分利用，例如生物信息学[2], [3]、物理模拟[4], [5]、化学计算[6], [7]等。如今，GPU 是加速现代机器学习工作负载的核心平台，这些工作负载对内存带宽与计算能力的需求极高[8]。近年来 GPU 微架构、互连技术（如 NVLink[9]）与通信框架（如 NCCL[10]）持续演进，这些进步使得需要数千块 GPU 的大语言模型训练与推理成为可能[11]。

然而，现代商业 GPU 的微架构细节信息十分稀缺，学术研究中常用的模型仍以 2006 年发布的 Tesla 架构为基线[12], [13], [14]。现代 GPU 相比 Tesla 已发生了显著变化，基于旧架构的模型可能导致结论偏差。本文旨在揭示现代 NVIDIA GPU 架构中的关键特性与组件细节，以提升学术界 GPU 微架构模型的准确性，从而帮助研究者更好地识别未来 GPU 的挑战与机会。本文的主要贡献如下：

描述发射阶段的运行机制，包括依赖处理、warp 就绪条件以及发射调度策略。
描述一种可信的取指阶段与其调度器，并说明其与发射阶段的协调方式。
给出寄存器文件的重要细节并解释寄存器文件缓存的行为，表明现代 NVIDIA GPU 不使用 operand collection 阶段或 collector units。
揭示内存流水线的多项细节。
重新设计 Accel-Sim 模拟器中的 SM/Core 模型，并整合本文揭示的全部细节。
将新模型与真实硬件进行验证并与 Accel-Sim 对比。对 NVIDIA RTX A6000（Ampere）而言，我们的新模型在执行周期上的 MAPE 为 13.98%，比旧模型提升 18.24%。
证明基于流缓冲的朴素指令预取在性能精度上优于预期，效果接近“完美指令缓存”。
分析寄存器文件缓存和寄存器文件读端口数量对仿真精度与性能的影响。
比较本文揭示的依赖管理机制与传统记分牌方法在性能、面积与仿真精度上的差异，表明这种软硬协同设计更高效。
证明模型对 NVIDIA 其他架构（如 Turing）的可移植性。

本文其余部分结构如下：第小节 2 节介绍背景与动机；第小节 3 节说明逆向方法；第小节 4 节描述现代 NVIDIA GPU 的控制位（control bits）及其行为；第小节 5 节呈现 GPU 核心微架构；第小节 6 节描述仿真模型；第小节 7 节评估模型准确性并分析指令预取、寄存器文件缓存与依赖管理机制等因素；第小节 8 节回顾相关工作；最后第小节 9 节总结全文。

背景与动机

学术界对 GPU 微架构的研究多依赖 GPGPU-Sim 模拟器所采用的模型[12], [15]。该模拟器近年来更新为包含 Volta 起引入的 sub-core（NVIDIA 术语为 Processing Blocks）方案。图 1 展示了该模型的架构示意图，可以看到其包含四个 sub-core 以及若干共享组件，如 L1 指令缓存、L1 数据缓存、共享内存与纹理单元。

图 1: 学术界常用的 SM/Core 设计示意。

在该 GPU 流水线的取指阶段，轮转调度器会选择一个 warp，其下一条指令位于 L1 指令缓存且其指令缓冲区有空位。每个 warp 维护一个独占的指令缓冲区，用于存放取指与译码后的连续指令，直到这些指令就绪并被发射。

在发射阶段，采用 GTO（Greedy Then Oldest）调度器[16]，只要 warp 不在等待 barrier 且其最老指令与流水线中的更早指令无数据依赖，就会被发射。以往工作通常假设每个 warp 有两个记分牌用于依赖检测：第一个记录寄存器待写入以追踪 WAW 与 RAW，只有当所有源操作数在该记分牌中清零时指令才可发射；第二个记分牌统计寄存器的在途消费者数量，用于防止 WAR 冒险[17]。第二个记分牌的必要性在于：虽然指令按序发射，但由于可变延迟指令（如内存指令）可能在发射后排队，其源操作数的读取可能晚于更年轻指令的写回，导致 WAR 冒险。

指令发射后进入 Collector Unit（CU），等待源寄存器操作数就绪。每个 sub-core 的私有寄存器文件由多个 bank 组成，每个 bank 有若干端口以在单周期内支持多次访问；仲裁器负责处理同一 bank 的并发访问冲突。当指令的所有源操作数都在 CU 中就绪后，进入 Dispatch 阶段并派发到对应的执行单元（如内存、单精度、特殊函数单元）。不同单元的延迟各不相同，写回阶段将结果写入寄存器文件。

Accel-Sim 所建模的 GPU 架构类似基于 Tesla 的 NVIDIA GPU[14]，该架构发布于 2006 年，并仅做了少量现代化更新（例如 sub-core 模型与类似 Volta 的分区缓存与 IPOLY 索引[13], [18]）。但该模型缺少现代 NVIDIA GPU 中存在的关键组件，例如 L0 指令缓存[19], [20], [21], [22], [23], [24], [25]与统一寄存器文件[25]。此外，sub-core 中的多个关键组件（如发射逻辑、寄存器文件、寄存器文件缓存）并未更新以反映当前设计。

本文旨在逆向现代 NVIDIA GPU 的核心微架构，并更新 Accel-Sim 以纳入这些新特性，从而让该模拟器的基线更贴近工业界已验证的商业设计。

逆向方法

本节阐述我们用于发现 NVIDIA Ampere GPU 核心（SM）微架构的研究方法。

我们的做法是编写由少量指令组成的 microbenchmarks，通过测量一段特定指令序列的执行时间来推断微架构特性。具体做法是：在代码段前后插入读取 GPU CLOCK 计数器的指令，将计数器保存到寄存器并写入主存，便于后续分析。被测指令序列通常由手写 SASS 指令及其控制位构成。根据测试需求，我们对记录的周期进行可视化，以验证或否定某一控制位语义或微架构特性。以下是两个示例：

使用下面代码揭示多 bank 寄存器文件的读冲突（见小节 5.3）。若将 R_X 与 R_Y 都设为奇数（例如 R19 和 R21），耗时为 5 个周期（每 sub-core 每周期可发射一条指令的理论最小值）。若将 R_X 改为偶数（如 R18）而 R_Y 仍为奇数（如 R21），耗时变为 6 个周期；若两个操作数均为偶数（如 R18 与 R20），耗时为 7 个周期。也就是说，两条连续指令之间可能出现 0 到 2 个气泡（bubble），取决于寄存器选择。
图 4 展示了多次记录的时间标记在图形上的体现，用于揭示 warp 发射策略（详见小节 5.1.2）。

# 用于检查寄存器文件读冲突的代码
CLOCK
NOP
FFMA R11, R10, R12, R14
FFMA R13, R16, R_X, R_Y
NOP
CLOCK

尽管 NVIDIA 没有官方工具可直接编写 SASS（NVIDIA 汇编语言），但已有多种第三方工具支持重排与修改汇编指令（包括控制位），常用于优化关键内核。MaxAS[26] 是最早的 SASS 修改工具；随后 KeplerAS[27], [28] 针对 Kepler 架构出现；之后 TuringAS[29] 与 CUAssembler[30] 支持更新架构。我们选择 CUAssembler，因为它具有更高的灵活性、可扩展性，并支持最新硬件。

现代 NVIDIA GPU 架构中的控制位

现代 NVIDIA GPU 的 ISA 包含控制位，编译器借此保证正确性并优化性能。与以往在运行时追踪寄存器读写以处理数据依赖的架构不同（见小节 2），现代 NVIDIA GPU 依赖编译器管理寄存器数据依赖[31]。因此，每条汇编指令都携带控制位用于依赖管理、性能与能耗优化。

下文描述每条指令中的控制位行为。我们的解释参考了多份文档[26], [30], [32], [33]，但这些文档常不完整或存在歧义，因此我们结合小节 3 的方法来验证这些控制位的语义。

sub-core 每周期最多发射一条指令。默认情况下，发射调度器倾向于从同一 warp 发射指令，只要该 warp 中程序顺序最老的指令已就绪。编译器通过控制位标记指令何时可发射；若上一周期被选中的 warp 的最老指令未就绪，则发射逻辑按照小节 5.1 描述的策略从其他 warp 中选择。

对于固定延迟指令的生产者—消费者依赖，每个 warp 有一个称为“停顿计数器（Stall counter）”的计数器。若该计数器非零，则该 warp 不可发射。编译器将“生产者指令的延迟 - 生产者与首个消费者之间的指令数”写入停顿计数器。所有 warp 的停顿计数器每周期减 1，直到为 0；发射逻辑仅需检查该计数器即可判断是否可从同一 warp 继续发射。

例如，一条延迟为 4 周期的加法指令，且其首个消费者是下一条指令，则停顿计数器被设为 4。我们验证了如果停顿计数器设置不正确，程序结果会出错，因为硬件不检查 RAW 冒险，而完全依赖编译器设置的计数器。该机制也节省面积与布线能耗，因为固定延迟单元到依赖处理逻辑的连线不再需要，而传统记分牌方案则需要这些连线。

另一个控制位是“Yield”，用于告知硬件下一周期不要从同一 warp 发射指令。如果其他 warp 也未就绪，则该周期不会发射任何指令。

每条指令都会设置停顿计数器与 Yield 位。当停顿计数器大于 1 时，warp 至少停顿一个周期，此时无论 Yield 是否置位均无影响。

另一方面，部分指令（如内存或特殊函数）具有可变延迟，编译器无法预知其执行时间，因此不能仅靠停顿计数器处理。这类冒险通过“依赖计数器（Dependence counters）”解决。每个 warp 有 6 个专用寄存器（SB0 到 SB5），每个计数器可计数至 63。

这些计数器在 warp 启动时置零。对于生产者—消费者依赖，生产者在发射后增加某计数器，并在写回时减小；消费者指令会等待该计数器归零后才能发射。

对于 WAR 冒险，机制类似，但计数器在读取源操作数后减小，而非在写回时减小。

每条指令的控制位可以指明最多两个在发射时递增的计数器，其中一个在写回时递减（用于 RAW/WAW），另一个在寄存器读取时递减（用于 WAR）。为此，每条指令有两个 3 位字段用于指示这两个计数器，并有一个 6 位掩码，用于指定该指令在发射前需要检查哪些依赖计数器（最多可检查 6 个）。

如果一条指令有多个源操作数且其生产者均为可变延迟指令，那么这些生产者可共用同一个依赖计数器而不降低并行性。但当存在超过 6 个不同可变延迟生产者时，会受到并行度限制，编译器需在“合并计数器”与“重排指令”之间权衡。

依赖计数器的自增发生在生产者发射后的下一周期，因此不会在当周期生效。如果消费者紧随其后，则生产者需要将停顿计数器设为 2，以避免下一周期错误发射消费者指令。

图 2: 使用依赖计数器处理依赖的示例。

如图 2 所示，该代码包含四条指令（3 条 load 与 1 条 add）及其编码。由于 add 依赖于可变延迟的 load，需依赖计数器避免数据冒险。PC 为 0x80 的指令对 0x50 与 0x60 存在 RAW 依赖，因此 SB3 在 0x50 与 0x60 发射时增加，在写回时减少。另一方面，add 对 0x60 与 0x70 有 WAR 依赖，于是 SB0 在 0x60 与 0x70 发射时增加，在读取源操作数后减少。add 的依赖计数器掩码要求 SB0 与 SB3 在发射前均为 0。注意 0x70 还使用 SB4 控制与后续指令的 RAW/WAR 冒险，但 0x80 与该 load 无依赖，因此不等待 SB4。在读取源操作数后清除 WAR 依赖是重要的优化，因为源操作数往往在结果写回之前很早就已读取，尤其在内存指令中更为明显。

另一种检查计数器就绪性的方式是使用 DEPBAR.LE 指令。例如，DEPBAR.LE SB1, 0x3, {4,3,2} 要求依赖计数器 SB1 的值小于等于 3 才能继续执行；最后一个参数是可选项，如果使用，则该指令还要求指定的依赖计数器（例中为 4、3、2）全部为 0 才能发射。

DEPBAR.LE 在某些场景非常有用。例如，当有一串 N 条可变延迟指令按序写回（如带 STRONG.SM 的内存指令），而消费者只需等待前 M 条指令完成时，可设置 DEPBAR.LE 的参数为 N-M 来等待前 M 条。另一个例子是复用同一依赖计数器来同时保护 RAW/WAW 与 WAR：由于 WAR 先于 RAW/WAW 解决，后续的 DEPBAR.LE SBx, 0x1 可等待 WAR 解除并继续执行，而真正的消费者则等待计数器归零以确保结果写回。

此外，GPU 还使用寄存器文件缓存（RFC）以节能并减少寄存器文件读端口竞争。该结构由软件管理：每个源操作数都有一个 reuse 控制位，指示硬件是否缓存该寄存器内容。RFC 的组织细节见小节 5.3.1。

最后，虽然本文聚焦 NVIDIA 架构，但 AMD GPU ISA 的公开文档[34], [35], [36], [37], [38], [39], [40], [41], [42], [43] 显示 AMD 同样依赖软硬协同机制管理依赖、提升性能。类似 NVIDIA 的 DEPBAR.LE，AMD 使用 waitcnt 指令；根据架构，每个 wavefront（warp）有 3 或 4 个计数器，且每个计数器绑定特定指令类型并必须使用以避免相关冒险。AMD 不允许普通指令通过控制位等待计数器归零，必须显式插入 waitcnt，这增加了指令数量。该设计降低了解码开销，但提高了指令数。相比之下，NVIDIA 提供更多计数器且不与指令类型绑定，因此可在同一指令类型内部保持更多并发依赖链。虽然 AMD 的 ALU 指令不需要软件或编译器干预即可避免冒险，但在 RDNA 3/3.5 中引入了 DELAY_ALU 以缓解依赖导致的流水线停顿[39], [40]。而 NVIDIA 则依赖编译器为固定延迟指令正确设置停顿计数器，以较少的指令数换取更高的解码开销。

GPU 核心微架构

本节基于小节 3 所述的方法，介绍我们对现代 NVIDIA 商用 GPU 核心微架构的发现。图 3 展示了 GPU 核心的关键组件。下文分别展开介绍发射调度器、前端、寄存器文件以及内存流水线。

图 3: 现代 NVIDIA GPU 的 SM/Core 设计。

发射调度器

本小节解析现代 NVIDIA GPU 的发射调度器。我们先在小节 5.1.1 中描述每周期哪些 warp 会被视为“可发射”，再在小节 5.1.2 中说明选择策略。

图 4: 四个 warp 发射时间线示例。

Warp 就绪条件

若一个 warp 在某周期要被视为其最老指令的候选发射者，需要满足若干条件。这些条件既依赖该 warp 的历史指令状态，也依赖核心的全局状态。

显然，需要指令缓冲区中存在有效指令。另一个条件是该 warp 的最老指令不能与同一 warp 中尚未完成的更老指令存在数据依赖。依赖由控制位进行软件处理，如小节 4 所述。

此外，对于固定延迟指令，只有在能够保证其发射后执行所需资源可用时，该 warp 才能在该周期发射最老指令。

其中一类资源是执行单元。执行单元存在输入锁存器，指令到达执行阶段时该锁存器必须为空。当执行单元宽度为半个 warp 时，锁存器会被占用两个周期；宽度为一个 warp 时则占用一个周期。

对于源操作数位于常量缓存（Constant Cache）的指令，标签查找在发射阶段进行。若所选 warp 的最老指令需要常量缓存而发生 miss，则调度器不会发射任何指令直到 miss 被服务；如果 4 个周期后 miss 仍未完成，则调度器切换到另一条指令就绪的 warp（选择最年轻的）。

关于寄存器文件读端口的可用性，我们观察到发射调度器并不会考虑“未来若干周期是否会发生端口冲突”。我们的实验表明，即使移除最后一个 FFMA 与 CLOCK 之间的 NOP，寄存器读冲突也不会阻止第二个 CLOCK 的发射。我们进行了大量实验以推断从发射到执行之间的流水线结构，虽然无法完全拟合所有案例，但以下模型对绝大多数实验有效，因此采用该模型：固定延迟指令在发射阶段与读操作数阶段之间有两个中间阶段。第一个阶段称为 Control，适用于固定和可变延迟指令，用于递增依赖计数器或读取时钟计数器等。由此可以解释：如果一条指令递增依赖计数器，紧随其后的指令又需要等待该计数器归零，则两者之间至少需要插入一个周期，否则递增在下一周期才生效，因此连续指令无法依赖计数器直接避免冒险，除非前一条指令设置了 Yield 或设置了大于 1 的停顿计数器。

第二个阶段仅用于固定延迟指令，我们称之为 Allocate。在该阶段检查寄存器文件读端口是否可用，若无法保证在后续周期无冲突读取操作数，则在该阶段停顿，直到可以保证读取。寄存器文件读写流水线及其缓存细节见小节 5.3。

可变延迟指令（如内存指令）在通过 Control 阶段后直接进入队列，不经过 Allocate。队列中的指令只有在确认不会发生读端口冲突时才进入寄存器文件读流水线。固定延迟指令优先于可变延迟指令获得读端口分配，因为固定延迟指令必须在固定周期内完成以保证依赖正确性。

调度策略

为揭示发射调度策略，我们设计了多种涉及多个 warp 的测试，记录每周期调度器选择哪个 warp 发射。该信息通过保存 GPU CLOCK 计数器的指令获取，但硬件不允许连续发射两条此类指令，因此我们在中间插入固定数量的其他指令（通常为 NOP），并变化 Yield 与停顿计数器控制位的取值。

实验结果表明，warp 调度器采用贪心策略：若同一 warp 满足就绪条件，则继续从该 warp 发射；当需要切换 warp 时，选择满足就绪条件的“最年轻”warp。

图 4 展示了四个 warp 在同一 sub-core 中执行时的发射时间线。每个 warp 执行相同的代码，包含 32 条彼此独立的指令，理论上每周期可发射 1 条。

在情况 (a) 中，所有停顿计数器、依赖掩码与 Yield 均为 0。调度器从最年轻的 warp（W3）开始发射，直到其 ICache miss；此时 W3 没有有效指令，调度器切换到 W2。由于 W2 复用了 W3 带入的指令，因此其 ICache 命中；当 W2 执行到 W3 miss 的位置时，miss 已被服务，后续指令命中，于是调度器继续贪心地完成 W2。随后调度器继续从 W3（最年轻）发射至结束，再转到 W1、W0。

情况 (b) 中，每个 warp 的第二条指令将停顿计数器设为 4。调度器在 W3 发射两条后切换至 W2，再两条后切换至 W1，然后回到 W3（其停顿计数器已归零）。当 W3、W2、W1 结束后，调度器开始发射 W0。W0 发射第二条指令后，由于没有其他 warp 可隐藏停顿，产生 4 个气泡。

情况 (c) 中，每个 warp 的第二条指令设置 Yield。调度器在发射第二条指令后切换到其他 warp 中最年轻的一个，例如 W3 切换到 W2，W2 再切回 W3。我们还测试了“Yield 置位且无其他 warp 可选”的情况（图中未示），此时调度器产生 1 个周期的气泡。

我们将该策略称为“编译器引导的贪心后选最年轻（CGGTY）”，因为调度器由控制位（停顿计数器、Yield 与依赖计数器）引导。

需要说明的是，我们仅验证了同一 CTA 内 warp 的行为；尚未有可靠方法分析不同 CTA 之间 warp 的交互。

前端

根据 NVIDIA 多份文档中的 SM 结构图[19], [20], [21], [22], [23], [24], [25]，SM 包含四个 sub-core，warp 以轮转方式分配到 sub-core（即 warp ID mod 4）[32], [33]。每个 sub-core 有私有 L0 指令缓存，并连接到全 SM 共享的 L1 指令缓存。我们假设存在仲裁器协调多个 sub-core 的请求。

每个 L0 ICache 都有指令预取器[44]。我们的实验印证了 Cao 等人关于 GPU 指令预取有效性的结论[45]。尽管我们无法确认 NVIDIA 的具体实现，但推测为类似流缓冲的简单方案[46]，即在 miss 发生时预取后续连续的缓存行。基于分析，我们假设流缓冲大小为 16（见小节 7.3）。

我们无法通过实验确认精确的取指策略，但若其与发射策略差异过大，将频繁出现“指令缓冲区无有效指令”的情况，而我们并未观察到这一现象。因此，我们假设每个 sub-core 每周期可取指并译码 1 条指令。取指调度器优先从上次（或最近一次）发射指令的 warp 取指，除非该 warp 的指令缓冲区中已存在的指令数加上在途取指数达到缓冲区容量。此时调度器切换到指令缓冲区有空位的最年轻 warp。我们假设每个 warp 有 3 个指令缓冲区条目，足以支撑“贪心发射”策略，因为从取指到发射有 2 个流水阶段。如果缓冲区仅有 2 项，贪心策略将被破坏：例如在所有请求 ICache 命中、所有 warp 缓冲区均满的情况下，若第 1 周期发射 W1 同时取指 W0，第 2 周期将发射 W1 的第 2 条并取指第 3 条；第 3 周期 W1 的第 3 条仍在译码中，缓冲区无有效指令，贪心策略失败，被迫切换 warp。3 项缓冲区可避免该问题，这与我们的实验一致。多数文献假设取指/译码宽度为 2 且缓冲区为 2 项，并且只有当缓冲区为空才取指，这会导致每两个连续指令后就切换 warp，与我们的观察不符。

寄存器文件

我们通过大量实验（不同 SASS 指令组合、不同寄存器文件端口压力、是否使用寄存器文件缓存）来揭示寄存器文件组织。

现代 NVIDIA GPU 具有多种寄存器文件：

常规寄存器（Regular）：最近架构每个 SM 有 65536 个 32 位寄存器[19], [20], [21], [22], [23]，用于保存线程计算值。寄存器按 32 个为一组，对应 warp 中 32 个线程，形成 2048 个“warp 寄存器”。寄存器在 sub-core 间均匀分布，每个 sub-core 的寄存器文件分成两个 bank[32], [33]。每个 warp 可使用 1 至 256 个寄存器，编译时确定。每 warp 使用寄存器越多，SM 并行 warp 数越少。
统一寄存器（Uniform）：每个 warp 有 64 个私有 32 位寄存器，用于保存该 warp 所有线程共享的值[33]。
谓词寄存器（Predicate）：每个 warp 有 8 个 32 位寄存器，每个 bit 对应 warp 中一个线程，用于指示是否执行指令及分支走向。
统一谓词寄存器（Uniform Predicate）：每个 warp 有 8 个 1-bit 寄存器，用于全 warp 共享的谓词。
SB 寄存器：每个 warp 有 6 个“依赖计数器”寄存器，用于追踪可变延迟依赖（见小节 4）。
B 寄存器：每个 warp 至少有 16 个 B 寄存器用于控制流重汇合（re-convergence）[47]。
特殊寄存器：用于存放线程 ID、block ID 等特殊值。

与以往假设存在 operand collector 以处理寄存器端口冲突的工作不同[13], [15], [48]，现代 NVIDIA GPU 并未使用 operand collector。若使用 collector，会引入发射到写回的可变延迟，使得 NVIDIA ISA 的固定延迟无法在编译期确定，无法正确依赖管理（见小节 4）。我们通过多组生产者—消费者指令序列的实验验证了 collector 的不存在：无论寄存器端口冲突数量如何，停顿计数器所需值与指令执行时间均保持不变。

实验显示，每个寄存器文件 bank 有一个 1024-bit 专用写端口。此外，当一条 load 指令与一条固定延迟指令在同周期完成时，被延迟的是 load 指令；而当两个固定延迟指令（如 IADD3 与 IMAD）写同一 bank 时，两者都不延迟。这表明固定延迟指令使用了类似 Fermi 中引入的结果队列[49]。其消费者不被延迟，说明存在旁路（bypass）以在写回前转发结果。

在读方面，我们观察到每 bank 1024-bit 带宽。通过连续 FADD、FMUL、FFMA 指令测得这一结果。¹

例如，当 FMUL 的两个源操作数来自同一 bank 时会产生 1 个周期气泡；若来自不同 bank 则无气泡。FFMA 的三个源操作数都在同一 bank 时会产生 2 个周期气泡。

我们未能找到一个完全匹配所有案例的读端口仲裁策略，因为气泡生成还依赖指令类型与操作数角色。最接近实验结果的模型为：固定延迟指令在发射与读操作数之间有两个中间阶段 Control 与 Allocate（见小节 5.1.1）。Allocate 负责保留寄存器文件读端口；每 bank 有一个 1024-bit 读端口，并通过寄存器文件缓存缓解读冲突。实验显示所有固定延迟指令读取操作数会持续 3 个周期，即便某些周期空闲（例如仅有两个源操作数），因为 FADD 与 FMUL 的延迟与 FFMA 相同，而 FFMA 不论三操作数是否在同一 bank 延迟都相同。若指令在 Allocate 阶段发现无法在后续三周期内读取完所有操作数，则其被阻塞在该阶段并向上游施加气泡，直到能够预留所需端口。

寄存器文件缓存

寄存器文件缓存（RFC）可缓解寄存器文件端口争用并节能，这一思路已被多项研究探讨[50], [51], [52], [53], [54]。

我们的实验表明 NVIDIA 的设计与 Gebhart 等人的方案类似[51]。RFC 由编译器控制，仅用于常规寄存器操作数。关于 Last Result File 结构，我们称之为结果队列，其行为类似，但并未采用两级发射调度器（见小节 5.1.2）。

RFC 组织结构如下：每个 sub-core 的两个寄存器 bank 各有一个入口，每个入口存放三个 1024-bit 值，对应三类常规寄存器源操作数。总容量为 6 个 1024-bit 操作数值（子条目）。某些指令的一个操作数可能需要连续两个寄存器（如张量核心指令），此时两个寄存器分别来自不同 bank，并缓存到对应入口。

编译器控制分配策略。当指令发射并读取操作数时，若该操作数设置了 reuse，其值将被写入 RFC。若后续指令来自同一 warp，且寄存器 ID 与 RFC 中一致、并且该操作数在指令中的位置一致，则可从 RFC 命中。若有新的读请求到达同一 bank 和同一操作数位置，则该缓存值将失效（无论命中与否）。这一行为在下面示例 2 中展示：为了让第三条指令命中 R2，第二条指令必须再次为 R2 设置 reuse，即便 R2 已经缓存。

# 寄存器文件缓存行为示例
# Example 1
IADD3 R1, R2.reuse, R3, R4 # Allocates R2
FFMA R5, R2, R7, R8 # R2 hits and becomes unavailable
IADD3 R10, R2, R12, R13 # R2 misses

# Example 2
IADD3 R1, R2.reuse, R3, R4 # Allocates R2
FFMA R5, R2.reuse, R7, R8 # R2 hits and is retained
IADD3 R10, R2, R12, R13 # R2 hits

# Example 3. R2 misses in the second instruction since it is
# cached in another slot. R2 remains available in the first
# slot since R7 uses a different bank
IADD3 R1, R2.reuse, R3, R4 # Allocates R2
FFMA R5, R7, R2, R8 # R2 misses
IADD3 R10, R2, R12, R13 # R2 hits

# Example 4. R2 misses in the third instruction since the
# second instruction uses a different register that goes to
# the same bank in the same operand slot
IADD3 R1, R2.reuse, R3, R4 # Allocates R2
FFMA R5, R4, R7, R8 # R4 misses and R2 becomes unavailable
IADD3 R10, R2, R12, R13 # R2 misses

内存流水线

现代 NVIDIA GPU 的内存流水线包含每个 sub-core 本地的初始阶段，而实际访存的后续阶段由四个 sub-core 共享，因为数据缓存与共享内存为 SM 共享结构[24], [25]。本节揭示每个 sub-core 的 load/store 队列大小、sub-core 向共享结构发送请求的速率，以及不同内存指令的延迟。

注意内存访问分为两大类：共享内存访问（SM 内部、线程块共享）与全局内存访问（GPU 主存）。

为了确定队列大小与内存带宽，我们进行了一系列实验，每个 sub-core 要么执行一个 warp，要么空闲。每个 warp 执行一串相互独立的 load/store 指令，这些指令始终命中数据缓存或共享内存，并使用常规寄存器。表 1 展示实验结果。第一列为指令序号，其余四列为不同活跃 sub-core 数量下该指令的发射周期（每格按周期升序列出所有活跃 sub-core）。

表 1: 每条内存指令的发射周期（每格为所有活跃 sub-core 按周期升序的列表）。

指令编号	活跃 sub-core 数 = 1	活跃 sub-core 数 = 2	活跃 sub-core 数 = 3	活跃 sub-core 数 = 4
1	2	2/2	2/2/2	2/2/2/2
2	3	3/3	3/3/3	3/3/3/3
3	4	4/4	4/4/4	4/4/4/4
4	5	5/5	5/5/5	5/5/5/5
5	6	6/6	6/6/6	6/6/6/6
6	13	13/15	13/15/17	13/15/17/19
7	17	17/19	19/21/23	21/23/25/27
8	21	21/23	25/27/29	29/31/33/35

可以看到，在 Ampere 中每个 sub-core 可连续 5 条内存指令按每周期一条发射，第 6 条指令的发射会产生停顿，且停顿周期取决于活跃 sub-core 数量。这表明每个 sub-core 可无阻塞地缓冲 5 条指令，而全局共享结构可每两周期从任一 sub-core 接收一个内存请求。观察多 sub-core 情形可知：第 6 条及之后的指令在每个 sub-core 上以两周期间隔发射。

我们还可推断 sub-core 中的地址计算吞吐率为每 4 周期一条指令：当只有一个 sub-core 活跃时，第 6 条指令之后出现 4 周期间隔。两 sub-core 活跃时，由于共享结构吞吐率为每 2 周期一条，故每个 sub-core 可每 4 周期发射一条；更多 sub-core 活跃时共享结构成为瓶颈。例如四 sub-core 活跃时，每个 sub-core 只能每 8 周期发射一条，因为共享结构最大吞吐为每 2 周期一条。

关于每个 sub-core 内存队列大小，我们估计为 4，尽管每个 sub-core 可缓冲 5 条连续指令。指令进入单元时占用槽位，离开单元时释放槽位。

我们测量了不同内存指令在缓存命中且单线程执行时的两类延迟。第一类是从 load 发射到消费者或覆盖同一目的寄存器的指令可以发射的最早时间（RAW/WAW 延迟；store 不产生寄存器 RAW/WAW）。第二类是从 load/store 发射到能够写入其源寄存器的指令可发射的最早时间（WAR 延迟）。结果见表 2。

表 2: 内存指令延迟（周期）。带 * 的值为近似值。

指令	地址寄存器类型	WAR	RAW/WAW
Load Global 32 bit	Uniform	9	29
Load Global 64 bit	Uniform	9	31
Load Global 128 bit	Uniform	9	35
Load Global 32 bit	Regular	11	32
Load Global 64 bit	Regular	11	34
Load Global 128 bit	Regular	11	38
Store Global 32 bit	Uniform	10	-
Store Global 64 bit	Uniform	12*	-
Store Global 128 bit	Uniform	16*	-
Store Global 32 bit	Regular	14	-
Store Global 64 bit	Regular	16	-
Store Global 128 bit	Regular	20	-
Load Shared 32 bit	Uniform	9	23
Load Shared 64 bit	Uniform	9	23
Load Shared 128 bit	Uniform	9	25
Load Shared 32 bit	Regular	9	24
Load Shared 64 bit	Regular	9	24
Load Shared 128 bit	Regular	9	26
Store Shared 32 bit	Uniform	10	-
Store Shared 64 bit	Uniform	12	-
Store Shared 128 bit	Uniform	16	-
Store Shared 32 bit	Regular	12	-
Store Shared 64 bit	Regular	14	-
Store Shared 128 bit	Regular	18	-
Load Constant 32 bit	Immediate	10	26
Load Constant 32 bit	Regular	29	29
Load Constant 64 bit	Regular	29	29
`LDGSTS` 32 bit	Regular	13	39
`LDGSTS` 64 bit	Regular	13	39
`LDGSTS` 128 bit	Regular	13	39

我们观察到：使用统一寄存器计算地址的全局内存访问比使用常规寄存器更快，因为前者所有线程共享同一地址，仅需计算一个地址，而后者每线程可能不同。

共享内存 load 的延迟低于全局内存。其 WAR 延迟对常规与统一寄存器相同，而 RAW/WAW 延迟在统一寄存器时少 1 个周期。这表明共享内存的地址计算在共享结构中完成，WAR 依赖在源寄存器读取后即可解除。

如预期，延迟也受访问粒度影响。对于 WAR 依赖，load 延迟不随数据大小变化，因为源操作数仅用于地址计算且大小固定；对于 store，写入数据也是源操作数，数据越大 WAR 延迟越高。RAW/WAW 依赖（仅适用于 load）随数据大小增大而增大，因为需要更多数据传输到寄存器文件。我们测得该传输带宽为每周期 512 bit。

此外，常量缓存的 WAR 延迟显著高于全局内存 load，而 RAW/WAW 延迟略低。我们尚无法给出合理解释。但我们发现，固定延迟指令访问常量空间使用不同的缓存层级：通过 LDC 预加载常量地址并等待完成后，再发射使用同一常量地址的固定延迟指令，会出现约 79 周期的 miss 延迟，而非命中。这表明固定延迟指令访问常量空间使用 L0 FL（固定延迟）常量缓存，而 LDC 指令使用 L0 VL（可变延迟）常量缓存。

最后，我们分析 LDGSTS 指令，该指令用于减少寄存器文件压力并提升数据传输效率[55]。它从全局内存加载数据并直接写入共享内存，绕过寄存器文件，节省指令与寄存器。其延迟与指令粒度无关。WAR 依赖在地址计算完成后解除；RAW/WAW 依赖在读阶段完成后解除。

建模

我们重新设计 Accel-Sim 框架的 SM/core 模型[13]，通过修改流水线实现小节 4 与小节 5 解释的所有细节（见图 3）。主要新增组件如下：

首先，我们为每个 sub-core 添加了 L0 指令缓存与流缓冲预取器。L0 指令与常量缓存通过可参数化延迟连接到 L1 指令/常量缓存。缓存容量、层级与延迟依据既有测量与 Jia 等人关于 Ampere 的研究确定[56]。

我们修改了发射阶段以支持控制位、固定延迟指令对新 L0 常量缓存的标签查询，以及新的 CGGTY 发射调度器。我们加入了 Control 阶段（递增依赖计数器）与 Allocate 阶段（固定延迟指令检查寄存器文件与 RFC 冲突）。

针对内存指令，我们为每个 sub-core 建模了新的本地单元，并为 sub-core 共享部分建模了共享单元，其延迟与上一节一致。

此外，Abdelkhalik 等人表明张量核心指令延迟依赖其操作数数值类型与尺寸[57]，因此我们在模型中为不同操作数类型与尺寸设置了对应延迟。

我们还建模了以下细节：在缺乏每 sub-core 双精度执行单元的架构中，双精度指令使用全 sub-core 共享的执行流水线；对使用多个寄存器的操作数，精确建模读写时序（此前模型常将其简化为一个寄存器）；修正此前工作中指令地址报告的部分不准确之处[58]。

除模拟器的 SM/core 模型更新外，我们还扩展了 tracer 工具：导出所有操作数类型的 ID（常规、统一、谓词、立即数等）；并增加获取控制位的能力（NVBit 不提供），通过 CUDA 二进制工具[59]在编译时提取 SASS。为此，我们修改应用编译流程，使其在编译期生成与微架构相关的代码而非 JIT。遗憾的是，少数内核（均来自 Deepbench）无法获取 SASS，导致控制位无法提取。对此我们采用“混合依赖模式”：无法获取控制位的内核使用传统记分牌，其他内核使用控制位。

我们还扩展工具以捕获通过描述符访问常量缓存或全局内存的指令。尽管该访问方式被认为在 Hopper 才引入[59]，我们发现 Ampere 已使用。描述符是编码内存访问的新方式，包含两个操作数：第一个为统一寄存器，用于编码指令语义；第二个编码地址。我们扩展 tracer 捕获地址，但未能追踪统一寄存器中编码的语义。

我们计划公开 Accel-Sim 框架中的所有模拟器与 tracer 改动。

验证

本节评估所提出 GPU 核心微架构的准确性。首先在小节 7.1 描述方法；随后在小节 7.2 验证设计；在小节 7.4 中研究寄存器文件缓存与读端口数量的影响；在小节 7.3 中分析指令预取器，在小节 7.5 中分析依赖检查机制；最后在小节 7.6 讨论模型向其他 NVIDIA 架构的迁移。

方法

我们通过将模拟器结果与真实 GPU 的硬件计数器指标进行对比来验证准确性。使用了四种 Ampere GPU[21]（规格见表 4），CUDA 版本为 11.4，NVBit 为 1.5.5。我们也将模型与原始 Accel-Sim 进行对比，因为新模型基于其构建。

我们选取了来自 12 个基准套件的广泛基准。各套件、应用数量与输入集数量见表 3。总计 143 个基准，其中 83 个为不同应用，其余为同应用不同输入。

表 3: 基准套件。

套件	应用数	输入集
Cutlass[60]	1	17
Deepbench[61]	3	27
Dragon[62]	4	6
GPU Microbenchmark[13]	15	15
ISPASS 2009[12]	8	8
Lonestargpu[63]	3	6
Pannotia[64]	7	11
Parboil[65]	6	6
Polybench[66]	8	8
Proxy Apps DOE[67]	3	4
Rodinia 2[68]	10	10
Rodinia 3[68]	15	25
合计	83	143

性能准确性

表 4: GPU 规格与性能准确性。

	RTX 3080	RTX 3080 Ti	RTX 3090	RTX A6000	RTX 2080 Ti
规格
核心频率	1710 MHz	1365 MHz	1395 MHz	1800 MHz	1350 MHz
显存频率	9500 MHz	9500 MHz	9750 MHz	8000 MHz	7000 MHz
SM 数量	68	80	82	84	68
每 SM warp 数	48	48	48	48	32
每 SM 共享内存/L1D	128 KB	128 KB	128 KB	128 KB	96 KB
内存分区数	20	24	24	24	22
L2 总容量	5 MB	6 MB	6 MB	6 MB	5.5 MB
验证
我们模型 MAPE	17.15%	18%	17.93%	13.98%	19.73%
Accel-Sim MAPE	27.95%	28.19%	28.5%	32.22%	26.67%
我们模型相关系数	0.99	0.99	0.98	0.98	0.98
Accel-Sim 相关系数	0.98	0.98	0.98	0.97	0.95

表 4 展示了我们模型与 Accel-Sim 相对于真实硬件的 MAPE。可以看到，我们模型在所有 GPU 上都更准确，且对最大规模的 NVIDIA RTX A6000，MAPE 不到 Accel-Sim 的一半。相关系数方面，两者接近，但我们略优。

图 5: NVIDIA RTX A6000 在各基准下的绝对百分比误差。基准按误差从小到大排序。

图 5 展示了 RTX A6000 上两种模型的 APE 分布（基准按误差排序）。我们模型在所有应用上 APE 更低，并且对约半数应用差距显著。Accel-Sim 在 10 个应用上 APE 大于等于 100%，最坏达到 543%，而我们的模型 APE 从未超过 62%。以 90 分位为衡量尾部准确性，Accel-Sim 为 82.64%，而我们为 31.47%。这表明我们的模型明显更准确且更稳健。

指令预取的敏感性分析

流缓冲指令预取器的参数对模型准确性影响很大。我们评估了多种配置：关闭预取、完美指令缓存，以及流缓冲大小为 1、2、4、8、16、32 的配置，均基于 RTX A6000。结果见表 5，可见最佳准确性对应流缓冲大小为 16。

表 5: 不同预取配置的 MAPE 与相对性能提升。

配置	关闭	1	2	4	8	16	32	完美 ICache
MAPE	56.61%	43.94%	28.59%	18.55%	14.67%	13.98%	14.35%	15.2%
加速比	1	1.08x	1.2x	1.33x	1.42x	1.47x	1.46x	1.58x

从表 5 的加速结果还可得出一条结论：简单的流缓冲预取器在 GPU 上的行为接近完美指令缓存。这是因为 sub-core 中的不同 warp 往往执行同一代码区域，而典型 GPGPU 应用控制流较简单，预取连续行通常有效。由于 GPU 不进行分支预测，采用 Fetch-Directed 预取[69] 不划算。

就仿真准确性而言，当不研究指令缓存增强时，完美指令缓存通常能以更高速度提供近似准确性。但对控制流较复杂的基准（如 Rodinia 的 dwt2d、lud、nw），完美指令缓存或不使用流缓冲会导致显著不准确（相对完美 ICache 误差超过 20%，相对无预取甚至超过 200%）。这是因为完美 ICache 无法体现频繁跳转带来的性能惩罚，而无预取则过度惩罚程序的其他部分，这也表明这些基准仍有改进空间。

寄存器文件架构的敏感性分析

表 6 展示了寄存器文件缓存（RFC）与每 bank 读端口数量对准确性与性能的影响，并给出了理想配置（所有操作数可在一个周期取回）。总体平均性能与准确性在各配置间相近，但特定基准表现更微妙：例如计算密集型的 MaxFlops（Accel-Sim GPU Microbenchmark）与使用 sgemm 参数的 Cutlass[13], [60]。这两者高度依赖固定延迟算术指令，而这类指令通常有 3 个操作数，易受寄存器文件访问限制影响。

表 6: 不同寄存器文件配置的 MAPE 与相对性能。

配置	1R + RFC 开	1R + RFC 关	2R + RFC 关	理想
MAPE	13.98%	16.05%	13.38%	13.57%
加速比	1x	0.984x	1.012x	1.013x
MaxFlops APE	2.82%	2.82%	28.97%	28.97%
MaxFlops 加速比	1x	1x	1.44x	1.44x
Cutlass APE	9.72%	39.35%	0.97%	2.3%
Cutlass 加速比	1x	0.79x	1.11x	1.12x

对 MaxFlops 而言，RFC 是否存在对性能影响不大，因为仅有一条静态指令使用 RFC。但当每 bank 读端口数增至 2（总共 4 个读端口）时，性能提升约 44%，因为每条指令常有 3 个操作数。相对地，从仿真准确性角度看，2 端口配置偏差明显。

对 Cutlass（sgemm）而言，单端口且无 RFC 会导致性能显著下降（0.78x），与程序中约 35.9% 的静态指令至少有一个操作数使用 RFC 的观察一致。引入每 bank 2 个读端口则提升约 12% 性能，说明寄存器文件与缓存结构仍有优化空间。

总之，寄存器文件架构及其缓存对个别基准影响显著，准确建模十分关键。平均而言，单端口 + 简单缓存已接近“无限端口”效果，但对某些基准差距仍很大，值得进一步研究。

依赖管理机制分析

本小节比较本文揭示的软硬协同依赖管理机制与传统记分牌方法在性能与面积上的影响。表 7 给出结果。面积开销相对于一个 SM 的常规寄存器文件（256 KB）。

表 7: 不同依赖管理机制的速度、面积与 MAPE。

指标	控制位方案	记分牌（最大消费者 63）	记分牌（无限制）
加速比	1	0.97x	0.97x
面积开销	0.09%	5.32%	-
MAPE	13.98%	14.87%	14.87%

传统记分牌机制需要为所有可写寄存器提供条目，即每 warp 332 个条目（255 常规寄存器、63 统一寄存器、7 谓词寄存器、7 统一谓词寄存器）。此外需两个记分牌：一个处理 RAW/WAW，另一个处理 WAR[17]，因为虽然发射顺序严格，但可变延迟指令的读写可能乱序，导致 WAR。WAR 记分牌需要记录每条目消费者数量。若支持最多 63 个消费者，则单 warp 需要 2324 bit（）。按 48 个 warp 的 SM 计算，总计 111,552 bit，占寄存器文件面积的 5.32%。

相比之下，本文的软硬协同机制仅需每 warp 6 个 6-bit 依赖计数器、4-bit 停顿计数器与 1-bit Yield，共 41 bit。每个 SM 仅 1968 bit，占寄存器文件面积的 0.09%，远小于记分牌方案。

综上，基于控制位的软硬协同机制在性能与面积上优于其他方案，且面积开销极小。在支持 64 个 warp/SM 的架构（如 Hopper[22]）中，对比更显著：控制位方案开销为 0.13%，而记分牌方案（63 消费者）为 7.09%。此外，在无法获取控制位的应用场景（如部分 Deepbench 内核）中，使用双记分牌（RAW/WAW 与 WAR）且最大消费者 63 的方案在仿真准确性上与控制位接近，因此是有效替代方案。

向其他 NVIDIA 架构的可移植性

本文主要聚焦 Ampere，但结论同样适用于 Turing 等架构。除四种 Ampere GPU 的结果外，表 4 还给出 Turing GPU 结果，显示对 NVIDIA RTX 2080 Ti 的 MAPE 相比 Accel-Sim 提升 6.94%。

虽然我们仅在 Turing 与 Ampere 上验证了模型，但认为其结论可适用于更广泛的 NVIDIA 架构。公开资料与 SM 结构图显示，近期架构的重大变化主要集中在张量核心、光线追踪单元，以及如 TPC 内 SM 之间共享内存的分布式特性等小幅改动[22]。不过，为适配其他架构仍需重新估计部分指令（如内存指令）的延迟。

结论

本文通过在真实硬件上的逆向分析，揭示了现代 NVIDIA GPU 微架构。我们剖析了发射阶段逻辑，分析了 warp 就绪条件，并发现 warp 间发射调度遵循 CGGTY 策略；揭示了寄存器文件的端口数量与宽度，以及寄存器文件缓存的行为；分析了内存流水线的重要特性，如 load/store 队列大小、sub-core 间争用以及不同粒度访问对延迟的影响；并提出满足现代 NVIDIA GPU 需求的取指阶段设计。

本文还系统整理并扩展了控制位的公开信息。

此外，我们在模拟器中建模了这些细节，并与真实硬件对比，证明其在执行周期准确性上比以往模型提升超过 18.24%。

我们进一步展示，使用简单流缓冲的指令预取在准确性与性能上接近完美指令缓存；控制位驱动的依赖管理机制优于传统记分牌。

最后，我们分析了寄存器文件缓存与读端口数量对仿真准确性与性能的影响。

总体而言，GPU 是一种硬件—编译器协同设计：编译器引导硬件处理依赖，并通过提示位改进性能与能耗。

参考文献

[1]

M. Burtscher, R. Nasre, 和 K. Pingali, 《A quantitative study of irregular programs on GPUs》, 收入 Proceedings - 2012 IEEE International Symposium on Workload Characterization, IISWC 2012, 2012, 页 141–151. doi: 10.1109/IISWC.2012.6402918.

[2]

M. S. Nobile, P. Cazzaniga, A. Tangherloni, 和 D. Besozzi, 《Graphics processing units in bioinformatics, computational biology and systems biology》, Briefings in Bioinformatics, 卷 18, 期 5, 页 870–885, 7月 2016, doi: 10.1093/bib/bbw058.

[3]

A. Bustamam, K. Burrage, 和 N. A. Hamilton, 《Fast Parallel Markov Clustering in Bioinformatics Using Massively Parallel Computing on GPU with CUDA and ELLPACK-R Sparse Format》, IEEE/ACM Transactions on Computational Biology and Bioinformatics, 卷 9, 期 3, 页 679–692, 2012, doi: 10.1109/TCBB.2011.68.

[4]

W. Liu, B. Schmidt, G. Voss, 和 W. Müller-Wittig, 《Accelerating molecular dynamics simulations using Graphics Processing Units with CUDA》, Computer Physics Communications, 卷 179, 期 9, 页 634–641, 2008, doi: https://doi.org/10.1016/j.cpc.2008.05.008.

[5]

C. Warren 等, 《A CUDA-based GPU engine for gprMax: Open source FDTD electromagnetic simulation software》, Computer Physics Communications, 卷 237, 页 208–218, 2019, doi: https://doi.org/10.1016/j.cpc.2018.11.007.

[6]

F. E. Hernández Pérez 等, 《Direct numerical simulations of reacting flows with detailed chemistry using many-core/GPU acceleration》, Computers & Fluids, 卷 173, 页 73–79, 2018, doi: https://doi.org/10.1016/j.compfluid.2018.03.074.

[7]

J. L. Xiaoxia Li Zheng Mo 和 L. Guo, 《´Revealing chemical reactions of coal pyrolysis with GPU-enabled ReaxFF molecular dynamics and cheminformatics analysis》.

[8]

S. Chetlur 等, 《cuDNN: Efficient Primitives for Deep Learning》, 10月 2014, doi: 10.48550/arxiv.1410.0759.

[9]

NVIDIA, 《NVIDIA NVLink TM High-Speed Interconnect: Application Performance》, Nvidia, 2014.

[10]

NVIDIA, 《NVIDIA Collective Communications Library (NCCL)》. https://developer.nvidia.com/nccl, 2016年.

[11]

Microsoft, 《How Microsoft’s bet on Azure unlocked an AI revolution.》 https://news.microsoft.com/source/features/ai/how-microsofts-bet-on-azure-unlocked-an-ai-revolution/, 2023年.

[12]

A. Bakhoda, G. L. Yuan, W. W. L. Fung, H. Wong, 和 T. M. Aamodt, 《Analyzing CUDA workloads using a detailed GPU simulator》, 收入 2009 IEEE International Symposium on Performance Analysis of Systems and Software (ISPASS), 2009, 页 163–174. doi: 10.1109/ISPASS.2009.4919648.

[13]

M. Khairy, Z. Shen, T. M. Aamodt, 和 T. G. Rogers, 《Accel-Sim: An Extensible Simulation Framework for Validated GPU Modeling》, 收入 2020 ACM/IEEE 47th Annual International Symposium on Computer Architecture (ISCA), 5月 2020, 页 473–486. doi: 10.1109/ISCA45697.2020.00047.

[14]

E. Lindholm, J. Nickolls, S. Oberman, 和 J. Montrym, 《NVIDIA Tesla: A Unified Graphics and Computing Architecture》, IEEE Micro, 卷 28, 期 2, 页 39–55, 2008, doi: 10.1109/MM.2008.31.

[15]

T. M. Aamodt, W. W. L. Fung, 和 T. G. Rogers, General-purpose Graphics Processor Architectures. Morgan & Claypool Publishers, 2018.

[16]

T. G. Rogers, M. Oconnor, 和 T. M. Aamodt, 《Cache-conscious wavefront scheduling》, 收入 Proceedings - 2012 IEEE/ACM 45th International Symposium on Microarchitecture, MICRO 2012, IEEE Computer Society, 2012, 页 72–83. doi: 10.1109/MICRO.2012.16.

[17]

M. Mishkin, 《Write-after-Read Hazard Prevention in GPGPUsim》, 2016.

[18]

B. R. Rau, 《Pseudo-randomly interleaved memory》, 收入 Proceedings of the 18th Annual International Symposium on Computer Architecture, 收入 ISCA ’91. New York, NY, USA: Association for Computing Machinery, 1991, 页 74–83. doi: 10.1145/115952.115961.

[19]

NVIDIA, 《NVIDIA Tesla V100 GPU architecture the world’s most advanced data center GPU》, NVIDIA, 2017.

[20]

NVIDIA, 《NVIDIA TURING GPU architecture Graphics Reinvented NVIDIA Turing GPU Architecture》, NVIDIA, 2018.

[21]

NVIDIA, 《NVIDIA AMPERE GA102 GPU architecture Second-Generation RTX NVIDIA Ampere GA102 GPU Architecture》, NVIDIA, 2020.

[22]

NVIDIA, 《NVIDIA H100 Tensor Core GPU Architecture》, NVIDIA, 2022.

[23]

NVIDIA, 《NVIDIA ADA GPU architecture》, NVIDIA, 2022.

[24]

J. Choquette, O. Giroux, 和 D. Foley, 《Volta: Performance and Programmability》, IEEE Micro, 卷 38, 期 2, 页 42–52, 2018, doi: 10.1109/MM.2018.022071134.

[25]

J. Burgess, 《RTX on—The NVIDIA Turing GPU》, IEEE Micro, 卷 40, 期 2, 页 36–44, 2020, doi: 10.1109/MM.2020.2971677.

[26]

S. Gray, 《MaxAS: Assembler for NVIDIA Maxwell architecture》. 载于: https://github.com/NervanaSystems/maxas

[27]

X. Zhang, 《KeplerAs: An Open Source Kepler GPU Assembler》. 载于: https://github.com/xiuxiazhang/KeplerAs

[28]

X. Zhang, G. Tan, S. Xue, J. Li, K. Zhou, 和 M. Chen, 《Understanding the GPU Microarchitecture to Achieve Bare-Metal Performance Tuning》, 收入 Proceedings of the 22nd ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming, 收入 PPoPP ’17. New York, NY, USA: Association for Computing Machinery, 2017, 页 31–43. doi: 10.1145/3018743.3018755.

[29]

D. Yan, 《TuringAS: Assembler for NVIDIA Volta and Turing GPUs》. 载于: https://github.com/daadaada/turingas

[30]

Cloudcores, 《CuAssembler: An unofficial cuda assembler, for all generations of SASS》. 载于: https://github.com/cloudcores/CuAssembler

[31]

NVIDIA, 《Technology Overview NVIDIA GeForce GTX 680》, NVIDIA, 2012.

[32]

Z. Jia, M. Maggioni, B. Staiger, 和 D. P. Scarpazza, 《Dissecting the NVIDIA Volta GPU Architecture via Microbenchmarking》, CoRR, 卷 abs/1804.06826, 2018, 载于: http://arxiv.org/abs/1804.06826

[33]

Z. Jia, M. Maggioni, J. Smith, 和 D. P. Scarpazza, 《Dissecting the NVIDIA Turing T4 GPU via Microbenchmarking Technical Report》, 2019.

[34]

AMD, 《"AMD Instinct MI100" Instruction Set Architecture. Reference Guide.》, AMD, 2020.

[35]

AMD, 《"AMD Instinct MI200" Instruction Set Architecture. Reference Guide.》, AMD, 2022.

[36]

AMD, 《"AMD Instinct MI300" Instruction Set Architecture. Reference Guide.》, AMD, 2024.

[37]

AMD, 《"RDNA 1.0" Instruction Set Architecture. Reference Guide.》, AMD, 2020.

[38]

AMD, 《"RDNA 2" Instruction Set Architecture. Reference Guide.》, AMD, 2020.

[39]

AMD, 《"RDNA 3.5" Instruction Set Architecture. Reference Guide.》, AMD, 2024.

[40]

AMD, 《"RDNA 3" Instruction Set Architecture. Reference Guide.》, AMD, 2023.

[41]

AMD, 《Vega 7nm Instruction Set Architecture. Reference Guide.》, AMD, 2020.

[42]

AMD, 《AMD Graphics Core Next Architecture, Generation 3. Reference Guide.》, AMD, 2016.

[43]

AMD, 《Vega Instruction Set Architecture. Reference Guide.》, AMD, 2020.

[44]

NVIDIA, 《NVIDIA Developer Forums: Instruction cache and instruction fetch stalls》. 载于: https://forums.developer.nvidia.com/t/instruction-cache-and-instruction-fetch-stalls/76883

[45]

J. Cao, Z. Chen, Y. Wang, H. Guo, 和 P. Wang, 《Instruction prefetch for improving GPGPU performance》, IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences, 卷 E104A, 页 773–785, 2021, doi: 10.1587/TRANSFUN.2020EAP1105.

[46]

N. P. Jouppi, 《Improving direct-mapped cache performance by the addition of a small fully-associative cache and prefetch buffers》, 收入 1990 17th Annual International Symposium on Computer Architecture, 1990, 页 364–373. doi: 10.1109/ISCA.1990.134547.

[47]

M. A. Shoushtary, J. T. Murgadas, 和 A. Gonzalez, 《Control Flow Management in Modern GPUs》. 2024年. 载于: https://arxiv.org/abs/2407.02944

[48]

A. Barnes, F. Shen, 和 T. G. Rogers, 《Mitigating GPU Core Partitioning Performance Effects》, 收入 2023 IEEE International Symposium on High-Performance Computer Architecture (HPCA), 2023, 页 530–542. doi: 10.1109/HPCA56546.2023.10070957.

[49]

NVIDIA, 《NVIDIA’s Next Generation CUDA TM Compute Architecture: Fermi》, NVIDIA, 2009.

[50]

M. Gebhart 等, 《Energy-efficient mechanisms for managing thread context in throughput processors》, 收入 2011 38th Annual International Symposium on Computer Architecture (ISCA), 2011, 页 235–246. doi: 10.1145/2000064.2000093.

[51]

M. Gebhart, S. W. Keckler, 和 W. J. Dally, 《A compile-time managed multi-level register file hierarchy》, 收入 2011 44th Annual IEEE/ACM International Symposium on Microarchitecture (MICRO), 2011, 页 465–476.

[52]

H. A. Esfeden, A. Abdolrashidi, S. Rahman, D. Wong, 和 N. Abu-Ghazaleh, 《BOW: Breathing Operand Windows to Exploit Bypassing in GPUs》, 收入 2020 53rd Annual IEEE/ACM International Symposium on Microarchitecture (MICRO), 2020, 页 996–1008. doi: 10.1109/MICRO50266.2020.00084.

[53]

M. Sadrosadati 等, 《LTRF: Enabling High-Capacity Register Files for GPUs via Hardware/Software Cooperative Register Prefetching》, 收入 Proceedings of the Twenty-Third International Conference on Architectural Support for Programming Languages and Operating Systems, 收入 ASPLOS ’18. New York, NY, USA: Association for Computing Machinery, 2018, 页 489–502. doi: 10.1145/3173162.3173211.

[54]

M. Abaie Shoushtary, J. M. Arnau, J. Tubella Murgadas, 和 A. Gonzalez, 《Memento: An Adaptive, Compiler-Assisted Register File Cache for GPUs》, 收入 2024 ACM/IEEE 51th Annual International Symposium on Computer Architecture (ISCA), 2024.

[55]

S. J. Heinrich 和 A. L. Madison, 《Techniques for efficiently transferring data to a processor》, 卷 417, 2019.

[56]

Z. Jia 和 P. V. Sandt, 《Dissecting the Ampere GPU Architecture through Microbenchmarking》, 收入 NVIDIA GTC 2021, NVIDIA, 2021. 载于: https://www.nvidia.com/en-us/on-demand/session/gtcspring21-s33322/

[57]

H. Abdelkhalik, Y. Arafa, N. Santhi, 和 A.-H. A. Badawy, 《Demystifying the Nvidia Ampere Architecture through Microbenchmarking and Instruction-level Analysis》, 收入 2022 IEEE High Performance Extreme Computing Conference (HPEC), 2022, 页 1–8. doi: 10.1109/HPEC55821.2022.9926299.

[58]

R. Huerta, M. A. Shoushtary, 和 A. González, 《Analyzing and Improving Hardware Modeling of Accel-Sim》. 2024年. 载于: https://arxiv.org/abs/2401.10082

[59]

NVIDIA, 《CUDA binary utilities documentation》. n.d. 载于: https://docs.nvidia.com/cuda/cuda-binary-utilities/

[60]

NVIDIA, 《CUTLASS: CUDA Templates for Linear Algebra Subroutines》. n.d. 载于: https://github.com/NVIDIA/cutlass

[61]

S. Narang 和 G. Diamos, 《DeepBench: Benchmarking Deep Learning operations on different hardware》. 2016年. 见于: 2022年4月21日. [在线]. 载于: https://github.com/baidu-research/DeepBench

[62]

J. Wang 和 S. Yalamanchili, 《Characterization and analysis of dynamic parallelism in unstructured GPU applications》, 收入 2014 IEEE International Symposium on Workload Characterization (IISWC), 2014, 页 51–60. doi: 10.1109/IISWC.2014.6983039.

[63]

M. Burtscher, R. Nasre, 和 K. Pingali, 《A quantitative study of irregular programs on GPUs》, 收入 2012 IEEE International Symposium on Workload Characterization (IISWC), 2012, 页 141–151. doi: 10.1109/IISWC.2012.6402918.

[64]

S. Che, B. M. Beckmann, S. K. Reinhardt, 和 K. Skadron, 《Pannotia: Understanding irregular GPGPU graph applications》, 收入 2013 IEEE International Symposium on Workload Characterization (IISWC), 2013, 页 185–195. doi: 10.1109/IISWC.2013.6704684.

[65]

J. A. Stratton 等, 《Parboil: A Revised Benchmark Suite for Scientific and Commercial Throughput Computing》, Center for Reliable and High-Performance Computing, 2012.

[66]

S. Grauer-Gray, L. Xu, R. Searles, S. Ayalasomayajula, 和 J. Cavazos, 《Auto-tuning a high-level language targeted to GPU codes》, 收入 2012 Innovative Parallel Computing (InPar), 2012, 页 1–10. doi: 10.1109/InPar.2012.6339595.

[67]

O. Villa 等, 《Scaling the Power Wall: A Path to Exascale》, 收入 SC ’14: Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis, 2014, 页 830–841. doi: 10.1109/SC.2014.73.

[68]

S. Che 等, 《Rodinia: A benchmark suite for heterogeneous computing》, 收入 Proceedings of the 2009 IEEE International Symposium on Workload Characterization, IISWC 2009, 2009, 页 44–54. doi: 10.1109/IISWC.2009.5306797.

[69]

G. Reinman, B. Calder, 和 T. Austin, 《Fetch directed instruction prefetching》, 收入 MICRO-32. Proceedings of the 32nd Annual ACM/IEEE International Symposium on Microarchitecture, 1999, 页 16–27. doi: 10.1109/MICRO.1999.809439.

[70]

A. Akram 和 L. Sawalha, 《A Survey of Computer Architecture Simulation Techniques and Tools》, IEEE Access, 卷 7, 页 78120–78145, 2019, doi: 10.1109/ACCESS.2019.2917698.

[71]

O. Villa 等, 《Need for Speed: Experiences Building a Trustworthy System-Level GPU Simulator》, 收入 2021 IEEE International Symposium on High-Performance Computer Architecture (HPCA), 2021, 页 868–880. doi: 10.1109/HPCA51647.2021.00077.

[72]

Y. Sun 等, 《MGPUSim: Enabling Multi-GPU Performance Modeling and Optimization》, 收入 2019 ACM/IEEE 46th Annual International Symposium on Computer Architecture (ISCA), 2019, 页 197–209.

[73]

H. Yavarzadeh, M. Taram, S. Narayan, D. Stefan, 和 D. Tullsen, 《Half&Half: Demystifying Intel’s Directional Branch Predictors for Fast, Secure Partitioned Execution》, 收入 2023 IEEE Symposium on Security and Privacy (SP), 2023, 页 1220–1237. doi: 10.1109/SP46215.2023.10179415.

[74]

C. Maurice, N. Le Scouarnec, C. Neumann, O. Heen, 和 A. Francillon, 《Reverse Engineering Intel Last-Level Cache Complex Addressing Using Performance Counters》, 收入 Research in Attacks, Intrusions, and Defenses, H. Bos, F. Monrose, 和 G. Blanc, 编, Cham: Springer International Publishing, 2015, 页 48–65.

[75]

G. Irazoqui, T. Eisenbarth, 和 B. Sunar, 《Systematic Reverse Engineering of Cache Slice Selection in Intel Processors》, 收入 2015 Euromicro Conference on Digital System Design, 2015, 页 629–636. doi: 10.1109/DSD.2015.56.

[76]

J. Ahn 等, 《Network-on-Chip Microarchitecture-based Covert Channel in GPUs》, 收入 MICRO-54: 54th Annual IEEE/ACM International Symposium on Microarchitecture, 收入 MICRO ’21. New York, NY, USA: Association for Computing Machinery, 2021, 页 565–577. doi: 10.1145/3466752.3480093.

[77]

Z. Jin 等, 《´Uncovering Real GPU NoC Characteristics: Implications on Interconnect Architecture》, doi: 10.1109/MICRO61859.2024.00070.

[78]

A. Lashgar, E. Salehi, 和 A. Baniasadi, 《A Case Study in Reverse Engineering GPGPUs: Outstanding Memory Handling Resources》, SIGARCH Comput. Archit. News, 卷 43, 期 4, 页 15–21, 4月 2016, doi: 10.1145/2927964.2927968.

[79]

M. Khairy, J. Akshay, T. Aamodt, 和 T. G. Rogers, 《Exploring Modern GPU Memory System Design Challenges through Accurate Modeling》, 2018, 载于: http://arxiv.org/abs/1810.07269 http://dx.doi.org/10.1109/ISCA45697.2020.00047

[80]

S. Markidis, S. Chien, E. Laure, I. Peng, 和 J. S. Vetter, 《NVIDIA Tensor Core Programmability, Performance & Precision》, 收入 2018 IEEE International Parallel and Distributed Processing Symposium Workshops (IPDPSW), Los Alamitos, CA, USA: IEEE Computer Society, 5月 2018, 页 522–531. doi: 10.1109/IPDPSW.2018.00091.

[81]

M. Martineau, P. Atkinson, 和 S. McIntosh-Smith, 《Benchmarking the NVIDIA V100 GPU and Tensor Cores》, 收入 Euro-Par 2018: Parallel Processing Workshops: Euro-Par 2018 International Workshops, Turin, Italy, August 27-28, 2018, Revised Selected Papers, Berlin, Heidelberg: Springer-Verlag, 2019, 页 444–455. doi: 10.1007/978-3-030-10549-5_35.

[82]

M. A. Raihan, N. Goli, 和 T. M. Aamodt, 《Modeling Deep Learning Accelerator Enabled GPUs》, 收入 2019 IEEE International Symposium on Performance Analysis of Systems and Software (ISPASS), 2019, 页 79–92. doi: 10.1109/ISPASS.2019.00016.

[83]

D. Yan, W. Wang, 和 X. Chu, 《Demystifying Tensor Cores to Optimize Half-Precision Matrix Multiply》, 收入 2020 IEEE International Parallel and Distributed Processing Symposium (IPDPS), 2020, 页 634–643. doi: 10.1109/IPDPS47924.2020.00071.

[84]

M. Fasi, N. J. Higham, M. Mikaitis, 和 S. Pranesh, 《Numerical behavior of NVIDIA tensor cores》, PeerJ Computer Science, 卷 7, 页 1–19, 2月 2021, doi: 10.7717/PEERJ-CS.330/FIG-1.

[85]

W. Sun, A. Li, T. Geng, S. Stuijk, 和 H. Corporaal, 《Dissecting Tensor Cores via Microbenchmarks: Latency, Throughput and Numeric Behaviors》, IEEE Transactions on Parallel and Distributed Systems, 卷 34, 期 1, 页 246–261, 2023, doi: 10.1109/TPDS.2022.3217824.

[86]

Z. Zhang, T. Allen, F. Yao, X. Gao, 和 R. Ge, 《TunneLs for Bootlegging: Fully Reverse-Engineering GPU TLBs for Challenging Isolation Guarantees of NVIDIA MIG》, 收入 Proceedings of the 2023 ACM SIGSAC Conference on Computer and Communications Security, 收入 CCS ’23. New York, NY, USA: Association for Computing Machinery, 2023, 页 960–974. doi: 10.1145/3576915.3616672.

[87]

T. Amert, N. Otterness, M. Yang, J. H. Anderson, 和 F. D. Smith, 《GPU Scheduling on the NVIDIA TX2: Hidden Details Revealed》, 收入 2017 IEEE Real-Time Systems Symposium (RTSS), 2017, 页 104–115. doi: 10.1109/RTSS.2017.00017.

[88]

H. Wong, M.-M. Papadopoulou, M. Sadooghi-Alvandi, 和 A. Moshovos, 《Demystifying GPU microarchitecture through microbenchmarking》, 收入 2010 IEEE International Symposium on Performance Analysis of Systems and Software (ISPASS), 2010, 页 235–246. doi: 10.1109/ISPASS.2010.5452013.

[89]

A. Gutierrez 等, 《Lost in Abstraction: Pitfalls of Analyzing GPUs at the Intermediate Language Level》, 收入 2018 IEEE International Symposium on High Performance Computer Architecture (HPCA), 2018, 页 608–619. doi: 10.1109/HPCA.2018.00058.

[90]

C. Jamieson, A. Chandrashekar, I. McDougall, 和 M. D. Sinclair, 《gem5 GPU Accuracy Profiler (GAP)》, 收入 4th gem5 Users’ Workshop, 2022.

[91]

V. Ramadas, D. Kouchekinia, N. Osuji, 和 M. D. Sinclair, 《Closing the Gap: Improving the Accuracy of gem5’s GPU Models》, 收入 5th gem5 Users’ Workshop, 2023.

[92]

V. Ramadas, D. Kouchekinia, 和 M. D. Sinclair, 《Further Closing the GAP: Improving the Accuracy of gem5’s GPU Models》, 收入 6th Young Architects’ (YArch) Workshop, 2024.

[93]

P. Gera, H. Kim, H. Kim, S. Hong, V. George, 和 C.-K. Luk, 《Performance Characterisation and Simulation of Intel’s Integrated GPU Architecture》, 收入 2018 IEEE International Symposium on Performance Analysis of Systems and Software (ISPASS), Los Alamitos, CA, USA: IEEE Computer Society, 4月 2018, 页 139–148. doi: 10.1109/ISPASS.2018.00027.

[94]

A. Shrivastava 和 J. Cai, 《Hardware-aware compilation》, 收入 Handbook of Hardware/Software Codesign, Netherlands: Springer Netherlands, 2017, 页 795–827. doi: 10.1007/978-94-017-7267-9_26.

脚注

Ampere 允许 FP32 操作在 FP32 与 INT32 执行单元上执行[21]，因此两个连续 FP32 指令之间不会因执行单元冲突产生气泡。↩︎

深入理解 LLVM code generator (一)

Fri, 27 Aug 2021 11:20:38 GMT

在上一篇文章中，我介绍了指令在 LLVM 中从源语言编译为机器代码时所采用的各种形式。本文简要地提到了 LLVM 中的许多层，每一层都很有趣且不平凡。

在这里，我想重点讨论最重要和最复杂的层之一——代码生成器，特别是指令选择机制。简单来说，代码生成器的任务是将高级的、目标无关的 LLVM IR 转换为低级的、目标相关的机器语言。指令选择是将 IR 中的抽象操作映射到目标体系结构的具体指令的过程。

本文将通过一个简单的示例来展示实际的指令选择机制(LLVM 中的 ISel)。

入门

这是一个乘法 IR 的例子。

define i64 @imul(i64 %a, i64 %b) nounwind readnone {
entry:
  %mul = mul nsw i64 %b, %a
  ret i64 %mul
}

它是用 Clang (-emit-llvm 选项)在 x64 机器上从以下 c 代码编译而成的。

long imul(long a, long b) {
    return a * b;
}

代码生成器完成的第一件事是将 IR 转换为 Selection DAG。这是最初的 DAG。

Selection DAG

这里并没有太多值得关注的内容，所有类型对于目标架构来说都是合法的；因此，这个 DAG 可以直接用于指令选择。

指令选择 pattern

指令选择可以说是代码生成阶段最重要的部分。它的任务是将合法的 Selection DAG 转换为包含 target machine code 的新 DAG。换句话说，就是输入抽象的、独立于目标的 DAG 输出具体的、依赖于目标的新 DAG。为此，LLVM 使用由两个主要步骤组成的 pattern 匹配算法。

第一个步骤是离线进行的，即发生在 LLVM 本身正在构建时，涉及 TableGen 工具，该工具根据指令的定义生成 pattern 匹配表。 TableGen 是 LLVM 生态系统的重要组成部分，在指令选择中起着特别重要的作用，因此花几分钟讨论它是值得的(官方文档TableGen Overview)。

TableGen 的问题在于，它的一些用途非常复杂(我们很快就会看到，指令选择是最严重的问题之一)，以至于很容易忘记其核心思想是多么简单。 LLVM 开发人员很久以前就意识到，必须为每个新目标编写大量重复代码。比如，同一条机器指令被用于代码生成、汇编程序、反汇编程序、优化器和许多其他地方。每一次这样的使用都会产生一个“表”，将指令映射到某些信息。如果我们可以在一个位置定义所有指令，收集所有我们需要的关于它们的有用信息，然后自动生成所有表，这不是很好吗？这正是 TableGen 生来就要做的。

让我们检查与本文相关的指令定义（取自lib/Target/X86/X86InstrArithmetic.td并重新格式化）：

def IMUL64rr : RI<0xAF, MRMSrcReg, (outs GR64:$dst),
                                   (ins GR64:$src1, GR64:$src2),
                  "imul{q}\t{$src2, $dst|$dst, $src2}",
                  [(set GR64:$dst, EFLAGS,
                        (X86smul_flag GR64:$src1, GR64:$src2))],
                  IIC_IMUL64_RR>,
                 TB;

如果你觉得这像一堆垃圾，别担心，大家的第一印象都是如此。为了充分提取通用代码，TableGen 开发了一些高级功能，如多重继承、模板等。所有这些都使定义有些难以理解，如果要查看 IMUL64rr 的“裸”定义，可以从 LLVM 源代码树的根目录运行它：

$ llvm-tblgen lib/Target/X86/X86.td -I=include -I=lib/Target/X86

13.5 MB 的输出只包含简单的 defs 条目，TableGen 后端可以从中获取所需的内容。IMUL64rr 的 def 大约有 75 个字段，但我们只关注本文需要的内容。

我们讨论的最重要的字段是上面的 def 中的第六个模板参数。

[(set GR64:$dst, EFLAGS,
      (X86smul_flag GR64:$src1, GR64:$src2))],

这是匹配 IMUL64rr 的 pattern。它本质上是一个描述要匹配的 DAG 的 s-expression。在这种情况下，它大致意味着：匹配一个带有两个 64 位 GPR(通用寄存器)子节点的 X86ISD:：SMUL 节点（包含在 X86smul_flag 的定义中），该节点返回两个结果，一个分配给目标 GPR，另一个分配给状态寄存器。当自动指令选择在 DAG 中看到这样的序列时，就将其与 IMUL64rr 指令相匹配。

细心的读者会注意到我在这里有点说谎。如果此模式匹配的节点是 X86ISD::SMUL，那么它如何匹配上面所示的具有 ISD::MUL 节点的 DAG 呢? 事实上,它并不能匹配。稍后我将展示与 DAG 实际匹配的模式，但我认为演示指令定义很重要，以便稍后讨论如何将所有模式组合在一起。

那么 ISD::MUL 和 X86ISD::SMUL 之间有什么区别？前者不关心受乘法影响的标志位，而后者关心。 C 语言中的乘法通常不关心标志位，因此选择了 ISD::MUL。但是 LLVM 提供了一些特殊的内在函数，例如 llvm.smul.with.overflow，其中可以从操作中返回溢出标志。对于这些（可能还有其他用途），LLVM 定义了 X86ISD::SMUL 节点。

那么，实际匹配 ISD::MUL 节点的是什么呢? 这个模式来自lib/Target/X86/X86InstrCompiler.td。

def : Pat<(mul GR64:$src1, GR64:$src2),
          (IMUL64rr GR64:$src1, GR64:$src2)>;

这是一个匿名 TableGen 记录，它定义了一个独立于特定指令的 pattern。该 pattern 定义了从输入 DAG 到输出 DAG 的映射，后者包含选定的指令。我们不关心如何手动调用此 pattern，因此 TableGen 允许我们定义匿名 pattern。下面是 include/llvm/Target/TargetSelectionDAG.td 中一个有趣的片段，其中定义了 pattern 类（及其特化的 Pat 类）：

// Selection DAG Pattern Support.
//
// Patterns are what are actually matched against by the target-flavored
// instruction selection DAG.  Instructions defined by the target implicitly
// define patterns in most cases, but patterns can also be explicitly added when
// an operation is defined by a sequence of instructions (e.g. loading a large
// immediate value on RISC targets that do not support immediates as large as
// their GPRs).
//

class Pattern resultInstrs> {
  dag             PatternToMatch  = patternToMatch;
  list       ResultInstrs    = resultInstrs;
  list Predicates      = [];  // See class Instruction in Target.td.
  int             AddedComplexity = 0;   // See class Instruction in Target.td.
}

// Pat - A simple (but common) form of a pattern, which produces a simple result
// not needing a full list.
class Pat : Pattern;

这段代码顶部的大注释很有帮助，它描述了与 IMUL64rr 完全相反的情况。在我们的例子中，在指令内定义的模式实际上更复杂，而基本模式是在指令外用 pattern 定义的。

pattern 匹配机制

TableGen 支持多种类型的 pattern 来描述目标机器支持的指令。我们已经学习了在指令定义中隐式定义的 pattern 和显式定义的独立 pattern。此外，还存在指定 C++函数的 complex pattern，以及包含任意 C++代码片段的 pattern fragments。如果您感兴趣，include/llvm/Target/TargetSelectionDAG.td 中的注释对这些类型提供了描述。

之所以在 TableGen 中混合 c++ 代码是可行的，是因为 TableGen 最终被翻译成一个 c++方法(面向特定 DAG ISel 后端)，并嵌入到目标对 SelectionDAGISel 接口的实现中。

更具体地说，顺序是：

通用的SelectionDAGISel::DoInstructionSelection方法针对每个 DAG 节点调用 Select 函数。
Select是一个抽象方法，由具体的后端实现。例如X86DAGToDAGISel:：Select。
X86DAGToDAGISel::Select会拦截一些节点进行手动匹配，但将大部分工作委托给X86DAGToDAGISel:：SelectCode。
X86DAGToDAGISel::SelectCode 由 TableGen [4] 自动生成，包含匹配表，然后调用通用 SelectionDAGISel::SelectCodeCommon在匹配表中查找匹配项。

什么是匹配器表?从本质上说，它是一个“程序”，以某种特定于指令选择的“字节码”编写。为了在保持效率的同时兼顾灵活性，TableGen 将后端定义的所有 pattern 混合在一起，并生成一个程序，给定任意的 DAG，该程序将找出与之匹配的 pattern。 SelectionDAGISel::SelectCodeCommon 充当这个字节码的解释器。

不幸的是，用于 pattern 匹配的字节码在任何地方都没有文档。要了解它是如何工作的，除了查看解释器代码和为某些后端生成的字节码之外，别无他法。

示例

让我们学习一下示例 DAG 中的 ISD::MUL 节点是如何匹配的。为此，将 -debug 选项传递给 llc，这使其转储整个 code generate 过程的详细调试信息，每个 DAG 节点的选择过程都可以被追踪。下面是与 ISD::MUL 节点有关部分：

Selecting: 0x38c4ee0: i64 = mul 0x38c4de0, 0x38c4be0 [ORD=1] [ID=7]

ISEL: Starting pattern match on root node: 0x38c4ee0: i64 = mul 0x38c4de0, 0x38c4be0 [ORD=1] [ID=7]

  Initial Opcode index to 57917
  Match failed at index 57922
  Continuing at 58133
  Match failed at index 58137
  Continuing at 58246
  Match failed at index 58249
  Continuing at 58335
  TypeSwitch[i64] from 58337 to 58380
MatchAddress: X86ISelAddressMode 0x7fff447ca040
Base_Reg nul Base.FrameIndex 0
 Scale1
IndexReg nul Disp 0
GV nul CP nul
ES nul JT-1 Align0
  Match failed at index 58380
  Continuing at 58396
  Match failed at index 58407
  Continuing at 58516
  Match failed at index 58517
  Continuing at 58531
  Match failed at index 58532
  Continuing at 58544
  Match failed at index 58545
  Continuing at 58557
  Morphed node: 0x38c4ee0: i64,i32 = IMUL64rr 0x38c4de0, 0x38c4be0 [ORD=1]

ISEL: Match complete!
=> 0x38c4ee0: i64,i32 = IMUL64rr 0x38c4de0, 0x38c4be0 [ORD=1]

这里提到的索引指向匹配表的某一项。您可以在生成的 X86GenDAGISel.inc 文件的每一行开头的注释中看到它们。下面是表格的开头部分:

// The main instruction selector code.
SDNode *SelectCode(SDNode *N) {
  // Some target values are emitted as 2 bytes, TARGET_VAL handles
  // this.
  #define TARGET_VAL(X) X & 255, unsigned(X) >> 8
  static const unsigned char MatcherTable[] = {
/*0*/     OPC_SwitchOpcode /*221 cases */, 73|128,103/*13257*/,  TARGET_VAL(ISD::STORE),// ->13262
/*5*/       OPC_RecordMemRef,
/*6*/       OPC_RecordNode,   // #0 = 'st' chained node
/*7*/       OPC_Scope, 5|128,2/*261*/, /*->271*/ // 7 children in Scope

在位置 0 有一个 OPC_SwitchOpcode 操作，这是关于 Opcode 的一个巨大的 switch 表，接下来是一系列 case，每个 case 都从它的 size 开始(如果匹配失败，匹配器就知道要去哪里开始新的匹配)，然后是 Opcode。例如，如上面的清单所示，表中的第一个 case 的 Opcode 是ISD::STORE，其 size 为 13257(由于表是基于字节的，所以 size 采用特殊的变长编码方式编码)。

查看 llc 的输出，MUL 节点的匹配从偏移量 57917 开始。这是表的相关部分：

          /*SwitchOpcode*/ 53|128,8/*1077*/,  TARGET_VAL(ISD::MUL),// ->58994
/*57917*/   OPC_Scope, 85|128,1/*213*/, /*->58133*/ // 7 children in Scope

正如预期的那样，这是 ISD::MUL 的 case。这个 case 的匹配从 OPC_Scope 开始，它是一个指令，指示解释器保存当前状态。如果在该 Scope 内匹配失败，则可以恢复状态以继续匹配下一个 case。在上面的片段中，如果在该 Scope 内匹配失败，它将在偏移量 58133 处继续匹配。

你可以在 llc 输出中看到:

Initial Opcode index to 57917
Match failed at index 57922
Continuing at 58133

在 57922 时，解释器尝试将节点的子节点匹配到 ISD::LOAD，但失败了，并跳转到作用域指示的 58133。同样，可以跟踪匹配过程的其余部分 - 按照 llc 输出和匹配表作为参考。不过，在偏移量 58337 处发生了一些有趣的事情。这是相关的表格部分：

/*58337*/     OPC_SwitchType /*2 cases */, 38,  MVT::i32,// ->58378
/*58340*/       OPC_Scope, 17, /*->58359*/ // 2 children in Scope
/*58342*/         OPC_CheckPatternPredicate, 4, // (!Subtarget->is64Bit())
/*58344*/         OPC_CheckComplexPat, /*CP*/3, /*#*/0, // SelectLEAAddr:$src #1 #2 #3 #4 #5
/*58347*/         OPC_MorphNodeTo, TARGET_VAL(X86::LEA32r), 0,
                      1/*#VTs*/, MVT::i32, 5/*#Ops*/, 1, 2, 3, 4, 5,
                  // Src: lea32addr:i32:$src - Complexity = 18
                  // Dst: (LEA32r:i32 lea32addr:i32:$src)

这是上面描述的 complex pattern 的对应的 match 表。 SelectLEAAddr 是一个 c++方法(由 X86 backend 的 ISel 的实现定义)，它尝试将节点的操作数与 LEA 匹配。下面的输出来自该方法，正如我们所看到的，最终会匹配失败。

最后，当解释器到达偏移量 58557 时，匹配成功。以下是相关的表格部分:

/*58557*/       /*Scope*/ 12, /*->58570*/
/*58558*/         OPC_CheckType, MVT::i64,
/*58560*/         OPC_MorphNodeTo, TARGET_VAL(X86::IMUL64rr), 0,
                      2/*#VTs*/, MVT::i64, MVT::i32, 2/*#Ops*/, 0, 1,
                  // Src: (mul:i64 GR64:i64:$src1, GR64:i64:$src2) - Complexity = 3
                  // Dst: (IMUL64rr:i64:i32 GR64:i64:$src1, GR64:i64:$src2)

简单地说，当匹配一系列优化和特殊情况失败后，匹配器最终选择了一个通用的 64 位寄存器之间的整数乘法，这个整数乘法与 IMUL64rr 指令相匹配。

debug 信息显示指令选择器寻找合适指令的过程非常复杂。为了生成好的代码，必须先尝试匹配各种优化的指令序列，然后再回到通用指令序列。在本文的下一部分，我将展示一些更高级的优化指令选择案例。

最终代码

下面的 DAG 是在指令选择后的样子：

Selection DAG

由于 DAG 的入口是基本项，所以这一部分都很相似；主要区别在于乘法和返回节点被选择为实际指令。

如果您还记得文章 the life of an instruction in LLVM 的内容，那么在指令选择器选择指令之后，指令还将经历两个额外的版本。发出的最终代码是:

imul:                                   # @imul
      imulq   %rsi, %rdi
      movq    %rdi, %rax
      ret

imulq 是X86::IMUL64rr的汇编(GAS 风格)表示。它将函数的参数相乘(根据 AMD64 ABI，前两个整数是%rsi 和%rdi); 然后将结果移动到返回寄存器%rax。

结论

本文深入介绍了指令选择过程 - LLVM 代码生成器的关键部分。虽然它使用了一个相对简单的例子，但它应该包含足够的信息来初步了解所涉及的机制。在本文的下一部分中，我将研究几个额外的示例，通过这些示例，代码生成过程的其他方面应该会变得更加清晰。

参考文献

本文翻译自A deeper look into the LLVM code generator, Part 1，如有侵权，请联系博主。

为LLVM添加简易RISCV后端(五)：算术指令

Fri, 11 Dec 2020 03:30:38 GMT

为一个新的指令集编写编译器是一件复杂的事情，尽管LLVM的出现使这个过程比之前简单多了！一个匪夷所思的困难是缺乏一个简单的、循序渐进的教程¹²。因此，本系列博客试图提供一个从头开始编写LLVM后端的简易教程来解决（部分）问题。

算术指令

现在，我们将把上一篇文章讨论的关于LLVM后端中的指令选择付诸实践。我们将通过查看RISCW后端的算术指令(比如加法、减法和乘法)的具体实现来做到这一点。

注意：这篇文章中讨论的代码可以在这里找到。

RISCW的算术指令相对简单，在指令选择过程中仅需要配置指令选择器和合法化器，这主要需编写三部分代码。首先，使用TableGen描述目标平台支持的指令集。其次，通知LLVM需要合法化的算术运算和类型。最后，添加自定义C++代码来增强指令选择器的功能。

注意：在为不同体系结构实现指令选择时，总体思路大致相似，但是具体情况将有所不同。例如，您的指令集可能具有有趣的/复杂的算术指令，例如长乘或多次累加，可能需要额外的代码来正确地支持这些指令。另外，我们不会自定义优化，但是您可以查看其他后端有关自定义优化的内容，例如XCore和ARM有很多很好的例子。

注意：这里显示的大部分代码最初来自LLVM现有的RISCV后端，但是为了照顾本教程的读者，它已经被大大简化了。

TableGen

TableGen是描述体系结构（包括寄存器，指令集，调用约定等）的专用编程语言，其目标是创建可维护、易于阅读的代码来描述体系结构。在构建LLVM时，TableGen工具将TableGen代码翻译为C++并将其与手工编码的C++文件一起编译。

注意：实际上，我发现TableGen代码很难阅读，更难编码！

简而言之，TableGen是具有以下功能的声明性编程语言：

有两个主要组件： record和class。 record是class的实例，包含了名称和相关字段的值。 class是record的抽象，可用于生成具体的record。两者相互配合可以很好地提取公共代码并减少重复。
record可以从一个或多个class继承，还可以定义自己的字段。
字段具有名称和值（或值列表），值具有特定的类型（如bit或int）。这是类型列表。
include指令用于将TableGen代码从一个文件包含到另一个文件中，就像C的#include一样。

以下是从LLVM文档中获取的示例，其中显示了一个非常简单的TableGen文件。它包含一个classC，该class定义了值为1的bit类型的字段V，还声明了一个从类C派生的记录X。

class C {
  bit V = 1;
}
def X : C;

后端需要定义TableGen的record，用以声明指令、寄存器等。这些record必须从内部类继承，这样TableGen工具才能魔术地为这些record生成适当的C++代码。例如，声明寄存器的record必须从内部的Register类继承。在这篇文章中，我们将查看声明寄存器和指令的TableGen代码。

注意:TableGen文档在解释它是什么和语法方面做得很好。但是，介绍后端应该重用的内部类和预定义记录的文档却很少；要了解这些内容您必须查看源代码。

注意:回想一下之前的文章，我们的CMake文件使用带各种参数的TableGen命令把扩展名为.td的TableGen代码文件转化为扩展名为.inc的C++文件。在构建系统发出TableGen命令之后，可以在build/lib/Target/RISCW的构建目录中找到生成的文件。 Tablegen的参数可以这里(非常简短地)查看。

注意:TableGen还可以配置指令选择过程中的调度和形成阶段，但是我不会在本教程中讨论这一点。如果你感兴趣，可以看看这个视频。

定义寄存器

RISCW的寄存器定义非常简单，可以在llvm/lib/Target/RISCW/RISCWRegisterInfo.td中找到。让我们对其进行剖析，以了解TableGen的工作方式。

在文件的顶部，我们找到以下类。

let Namespace = "RISCW" in {
class RISCWReg5> Enc, string n, list alt = []> : Register {
  let HWEncoding{4-0} = Enc;
  let AltNames = alt;
}
} // end Namespace

该代码声明了一个RISCWReg类，该类继承自在include/llvm/Target/Target.td中定义的内部类Register。该代码还告诉我们，从此类继承时，我们必须提供最多三个参数：

寄存器编码Enc，它是类型为bits<5>的5位整数。
字符串n，表示人类可读的寄存器名称，如RISCV中的x0、x1等。
寄存器的别名列表，该列表是可选的。例如，RISCV中的x2也可以称为sp，即堆栈指针。但请注意，此列表是可选的，因为可以声明没有别名的寄存器，如果寄存器没有别名，则把alt设置[]。

另外，请注意Register类接受一个参数：类型为字符串的寄存器名称。 RISCWReg的其余两个参数（Enc和alt）被let语句用于覆盖Register类定义的HWEncoding和AltNames域。您可以在这里和这里阅读Register的代码。

接下来，我们在该文件中找到以下Register定义。每一行代码都是一个record，它定义了一个寄存器。这些record继承自两个类:RISCWReg(我们已经讨论过了)和DwarfRegNum。 DwarfRegNum是这里定义的另一个内部类，用于为GCC和GDB提供调试信息。

def X0  : RISCWReg<0, "x0", ["zero"]>, DwarfRegNum<[0]>;
...
def X31 : RISCWReg<31,"x31", ["t6"]>, DwarfRegNum<[31]>;

文件的最后几行定义寄存器组， RISCW定义了两种寄存器组：GPR通用寄存器和堆栈指针SP寄存器。

def GPR : RegisterClass<"RISCW", [i32], 32, (add
    (sequence "X%u", 10, 17),
    (sequence "X%u", 5, 7),
    (sequence "X%u", 28, 31),
    (sequence "X%u", 8, 9),
    (sequence "X%u", 18, 27),
    (sequence "X%u", 0, 4)
  )>;

def SP : RegisterClass<"RISCW", [i32], 32, (add X2)>;

定义Register组的record继承自RegisterClass类，后者具有四个参数（还有一个可选的第五个参数，我们将不讨论）：

命名空间在我们的例子中是RISCW，这与我们在上面的RISCWReg类中重写的名称空间字段相匹配。
此组寄存器支持的数据类型列表。这是一个列表，因为某些体系结构中的寄存器可以支持多种数据类型。例如，一些64位计算机的寄存器可以在32位和64位模式下工作。 RISCW只适用于32位机器，因此寄存器总是32位，它们的类型就是i32。
从内存中存储或加载寄存器时寄存器的对齐方式。
一个DAG，指示此寄存器组包含的寄存器。还有…
- 我是说DAG！注意，GPR的DAG有一个ADD模式，该模式有6个sequence节点。 sequence是一种操作，它接受字符串格式参数以及起始值和结束值。序列中的每个元素都是TableGen工具根据格式参数指定的格式生成。所以，这个DAG的另一种写法是(add X10, X17,…, X3, X4)。
- 此DAG还指定了寄存器分配器使用寄存器的顺序。例如，如果两者都可用，分配器将优先使用来自GPR的x10而不是x4。

寄存器组稍后用于配置合法化器。

定义指令

计算机体系结构使用一组格式对指令进行编码。例如，RISCV体系结构使用32位编码和4种基本指令格式来编码指令³。此外，每种格式都有一组唯一的操作码(或操作码)。然后使用格式和操作码对特定指令进行编码，这使处理器能够识别指令并确定它们的操作数。

在LLVM中，定义指令的方式与定义指令集编码的方式类似。定义指令的代码通常由两部分组成: 格式定义和指令定义。

定义格式

定义格式的同时也定义了唯一的标识符，这些标识符指示指令的格式， C++代码使用它来正确地发出指令编码。 RISCW后端定义格式的代码，如下所示:

class InstFormat5> val> {
  bits<5> Value = val;
}
def InstFormatPseudo : InstFormat<0>;
def InstFormatR      : InstFormat<1>;
...
def InstFormatOther  : InstFormat<17>;

注意： 在LLVM后端中，定义指令格式的代码通常在文件llvm/lib/Target//InstrFormats.td中，而实际定义指令的代码在文件llvm/lib/Target//InstrInfo.td中。但是在复杂的后端中，指令定义可以拆分为多个文件，例如，RISCV的每个扩展都对应一个不同的文件。这些文件称为llvm/lib/Target/RISCV/RISCVInstrInfo.td，其中是扩展字母，如M，A等。 RISCW后端相对简单，用于定义格式和指令的TableGen代码分别存储在llvm/lib/Target/RISCW/RISCWInstrFormats.td和llvm/lib/Target/RISCWInstrInfo.td中。

注意:RISCW后端基于RISCV后端。两者都试图严格地根据RISCV的参考手册定义指令，但这不是必须的。你也可以针对你的体系结构和编译器构造只属于你的TableGen代码。

RISCW后端为操作码定义了如下record:

class RISCWOpcode7> val> {
  bits<7> Value = val;
}
def OPC_LOAD      : RISCWOpcode<0b0000011>;
def OPC_LOAD_FP   : RISCWOpcode<0b0000111>;
...
def OPC_SYSTEM    : RISCWOpcode<0b1110011>;

所有指令必须继承自LLVM内部的Instruction类。方便起见，RISCW后端还定义了Instruction的子类RWInst，它覆盖了许多字段，例如Size和TSFlags，同时添加了额外的字段。 Instruction类实际上非常庞大，需要配置许多选项，我建议您通读LLVM的源代码以了解什么样的配置可以满足你的需求。

class RWInst
             list pattern, InstFormat format>
    : Instruction {
  field bits<32> Inst;
  field bits<32> SoftFail = 0;
  let Size = 4;
  ...
  let TSFlags{4-0} = format.Value;
}

注意：Instruction类中的许多字段仅对特定任务有用。例如，仅当发出目标代码时才使用Inst字段和opcode。因此，不要理会您不需要的东西！

再次为方便起见， RISCW后端为每种格式定义了RWInst类的子类。我们实际的指令将继承这些“低级的”格式，以避免代码重复。

格式类根据相关格式的编码覆盖Inst字段的值。另外，还有一个特殊的Pseudo类，用于设置Instruction类中的isPseudo字段。这些pseudo指令通常是栈调整和函数返回等操作的占位符，我们将在后面的文章中进行探讨。

class Pseudo pattern, string opcodestr = "",
             string argstr = "">
    : RWInst,
      Sched<[]> {
  let isPseudo = 1;
  let isCodeGenOnly = 1;
}

class RWInstR7> funct7, bits<3> funct3, RISCWOpcode opcode, dag outs,
              dag ins, string opcodestr, string argstr>
    : RWInst {
  bits<5> rs2;
  bits<5> rs1;
  bits<5> rd;

  let Inst{31-25} = funct7;
  ...
  let Opcode = opcode.Value;
}
...

关于这些TableGen类，有几点需要强调：

funct *和opcode参数用于形成唯一的操作码，该操作码用于将指令编码为二进制。
outs和ins参数是DAG，分别指定指令的输出和输入操作数。操作数通常是寄存器或立即数，但也可以是堆栈帧位置，全局地址等。
opcodestr是指令的助记符，例如ADD用于加法，SUB用于减法，等等。
argstr参数是一种格式字符串，用于告诉LLVM如何在汇编中打印指令的操作数。例如，如果outs参数说有一个$r1寄存器操作数，而ins参数说有一个$r2寄存器操作数并且argstr的格式为"$r1,$r2"，则该指令的汇编将首先显示输出操作数（即紧随助记符之后）然后显示,，然后显示输入操作数。
在Pseudo中，还有一个pattern操作数，它告诉LLVM在目标指令选择阶段可以用该指令替换DAG中的哪些节点。更详细的细节以后再讨论！

定义指令

为了方便起见，还定义了另一个类，该类可以根据操作数以及操作是否涉及ALU、内存等来简化指令的定义。例如，我们有下面的ALU_rr类来定义使用ALU（算数逻辑单元）的指令，该类有三个GPR类型的操作数:两个是输入，一个是输出。显然，所有ALU_rr指令都是R格式的，因为该类继承自 RWInstR。另外，ALU_rr的定义位于let块中，它覆盖了Instruction中值为0的hasSideEffects、mayLoad和mayStore字段；这些字段中的大多数都是不言自明的，不过我鼓励您阅读代码以获得更多信息。

let hasSideEffects = 0, mayLoad = 0, mayStore = 0 in
class ALU_rr7> funct7, bits<3> funct3, string opcodestr>
    : RWInstRGPR:$rd), (ins GPR:$rs1, GPR:$rs2),
              opcodestr, "$rd, $rs1, $rs2">;

通过继承ALU_rr类来定义指令实际上非常简单。例如，以下是定义ADD指令的代码：

def ADD : ALU_rr<0b0000000, 0b000, "add">, Sched<[WriteIALU, ReadIALU, ReadIALU]>;

TableGen代码很难理解，因为大多数后端都使用深层继承来减少代码重复。您可能需要拿出笔和纸来手动展开一些记录，以了解其工作原理。例如，展开ADD的第一级看起来如下所示。这个较长版本的ADD也是有效的TableGen代码，将以前版本的ADD替换为这个较长的版本， LLVM仍然可以毫无问题地构建！

let hasSideEffects = 0, mayLoad = 0, mayStore = 0 in
def ADD : RWInstR<0b0000000, 0b000, OPC_OP, (outs GPR:$rd),
              (ins GPR:$rs1, GPR:$rs2), "add", "$rd, $rs1, $rs2">,
          Sched<[WriteIALU, ReadIALU, ReadIALU]>;

定义带有立即数(而不是寄存器)的指令的方法大致相同，但必须调整输入操作数。例如，下面显示的ALU_ri类的第二个输入是名为$imm12的12位立即数(类型为simm12)。 simm12的定义证实该类的类型为i32还指明了编译器后端处理该操作数时，解码器和编码器使用的C++类。最后，simm12继承自ImmLeaf类，该类带有一个必须满足的条件，指令选择期间， DAG中的叶节点必须满足该条件才能匹配simm12类(稍后将详细介绍!)。

def simm12 : Operand<i32>, ImmLeaf<i32, [{return isInt<12>(Imm);}]> {
  let ParserMatchClass = SImmAsmOperand<12>;
  let EncoderMethod = "getImmOpValue";
  let DecoderMethod = "decodeSImmOperand<12>";
  let MCOperandPredicate = [{
    int64_t Imm;
    if (MCOp.evaluateAsConstantImm(Imm))
      return isInt<12>(Imm);
    return MCOp.isBareSymbolRef();
  }];
  let OperandType = "OPERAND_SIMM12";
  let OperandNamespace = "RISCWOp";
}

...

let hasSideEffects = 0, mayLoad = 0, mayStore = 0 in
class ALU_ri3> funct3, string opcodestr>
    : RWInstIGPR:$rd), (ins GPR:$rs1, simm12:$imm12)
              opcodestr, "$rd, $rs1, $imm12">,
      Sched<[WriteIALU, ReadIALU]>;

在一些计算机体系结构中（如RISCV）有一些指令是其他指令的别名。通常，这样做只是为了方便或提高汇编代码的可读性。例如，RISCV没有专门的寄存器-寄存器移动指令，只能使用不带立即数的ADDI指令代替。我们可以通过InstAlias和MnemonicAlias类告诉LLVM我们的别名:

合法化

类型和操作的合法化阶段均在后端的TargetLowering子类中使用C++代码进行配置。在RISCW中，此类为RISCWTargetLowering，其代码在lib/Target/RISCW/RISCWISelLowering.cpp和lib/Target/RISCW/RISCWISelLowering.h中。我们为支持算术指令所做的大多数更改实际上都在构造函数中。

RISCWTargetLowering::RISCWTargetLowering(const TargetMachine &TM,
                                         const RISCWSubtarget &STI)
    : TargetLowering(TM), Subtarget(STI)
{
  addRegisterClass(MVT::i32, &RISCW::GPRRegClass);
  ...

  setSchedulingPreference(Sched::RegPressure);
  ...

  setOperationAction(ISD::SRA_PARTS, MVT::i32, Custom);
  ...

  setOperationAction(ISD::ROTL,  MVT::i32, Expand);
  ...
}

有几件事值得注意：

addRegisterClass用于配置LLVM寄存器组和对应的寄存器类型，此信息用于类型合法化。
setSchedulingPreference用于配置调度和形成阶段。这里我们告诉LLVM使用一个最小化寄存器压力的算法。
setOperationAction用于配置LLVM如何使操作合法化，即合法化Section DAG中的节点。回想一下，有三个选项：扩展、提升和自定义。 LLVM会自动处理前两个操作，例如，RISCV没有位旋转指令，因此我们要求编译器将该操作扩展为其他操作，如移位和ors以模拟旋转。标记为自定义的操作在TargetLowering子类中由C++代码处理。

每当LLVM在合法化过程中遇到具有custom操作的DAG节点时，都会生成对TargetLoweing类的LowerOperation方法的回调。例如，SHL_PARTS操作用于将64位整数左移。我们通过构造函数中的setOperationAction(ISD:：SHL_PARTS，MVT:：i32，Custom)来告诉LLVM，我们实现了一个LowerShlParts函数来来合法化此操作。 LowerShlParts用32位移位和ors等其他合法操作来代替SHL_PARTS节点。我鼓励您看看代码，看看这是如何工作的！

注意：需要合法化的操作完全取决于后端实现的指令集，以及TableGen代码中DAG节点与指令匹配的程度（下一节将对此进行详细介绍！）。如果使某些操作合法化太复杂或发出的代码效率低下，则说明您的指令集可能缺少某些指令！

目标指令选择

目标指令选择阶段将后端TableGen文件中提供的DAG模式匹配到Section DAG中的节点。匹配成功时，Section DAG中的节点将被替换为具体机器(或伪)指令的节点。因此，TableGen定义的模式的质量对于发出好的代码至关重要，您应该多花费些时间来调整这些模式!

注意：TableGen模式通常定义在llvm/lib/Target//InstrInfo.td文件的末尾。

模式records继承自LLVM的Pat类，该类有两个参数，第一个参数是一个包含要匹配的模式DAG，第二个参数是一个带有机器指令的DAG。当模式匹配DAG中的某个内容时，匹配的节点被第二个参数中的DAG替换。

不出所料，我们将使用一些类来帮助我们简化模式的定义。这里有两个这样的类：

class PatGprGpr
    : Pat<(OpNode GPR:$rs1, GPR:$rs2), (Inst GPR:$rs1, GPR:$rs2)>;
class PatGprSimm12
    : Pat<(OpNode GPR:$rs1, simm12:$imm12), (Inst GPR:$rs1, simm12:$imm12)>;

PatGprGpr用带有两个通用寄存器操作数作为输入的指令替换DAG中的节点。例如，下面是ADD指令的模式声明:

def : PatGprGpr<add, ADD>;

PatGprSimm12将DAG中的节点替换为具有一个通用输入操作数和一个12位立即数的指令。为了实现这一点，用simm12取代了Pat中第一个和第二个参数中的GPR。回想一下，simm12是我们在本文前一节中讨论过的一个record。它继承自Operand类，因此可以在指令的定义中使用。 simm12也继承自ImmLeaf类，因此也可以在模式定义中使用。下面是ADDI指令的定义，该指令接受一个立即数:

def : PatGprSimm12<add, ADDI>;

注意：ImmLeaf类是用于匹配立即数的模式。它的参数是即时类型，例如I32、I16以及谓词等。谓词即C++代码块，它检查指定模式必须满足的条件。例如，simm12有一个谓词return isInt<12>(Imm)来检查整数是否在12位范围内。

注意：有时，同一条指令可以与Selection DAG中的多个模式匹配。在这种情况下，使用LLVM的PatFrag类和Pat来避免代码重复，如RISCW的bit-shift模式。

注意:RISCW和RISCV后端首先声明指令，并分别提供模式record。然而，其他后端，如ARM或XCore，以不同的方式创建Instruction的子类，以便它们接受一个模式参数。这种方法减少了代码行数，因为模式可以在定义指令的同一record中提供，但在我看来，这使得TableGen代码更难阅读(也更难解释!)

当在DAG中找到匹配时， Pat的第二个参数也可以转换操作数(通常是立即数)。为此，我们首先需要声明一个继承自SDNodeXForm的操作节点。 SDNodeXForm以实现所需转换的一段c++代码作为参数。然后，我们在模式中使用新声明的节点，如下面的示例所示。在本例中，HI20节点提取立即数的20个最重要的比特位。

def HI20 : SDNodeXForm
  return CurDAG->getTargetConstant(((N->getZExtValue()+0x800) >> 12) & 0xfffff,
                                   SDLoc(N), N->getValueType(0));
}]>;

def : Pat<(simm32hi20:$imm), (LUI (HI20 imm:$imm))>;

注意：SDNodeXForm节点不插入实际指令。它们通常用于转换即时数据，因此可以在代码发出之前就完全解析。

随着指令选择的进行，LLVM每个Selection DAG节点调用SelectionDAGISel子类的Select方法。因此，后端可以在Select方法中提供代码，实现复杂的模式匹配，而这种匹配在TableGen中很难表达。例如，RISCW的Select方法包括用x0寄存器来替换常量0的代码。

注意:SelectionDAGISel子类通常在文件llvm/lib/Target//ISelDAGToDAG.h和llvm/lib/Target//ISelDAGToDAG.cpp中。例如，RISCW后端相关代码在llvm/lib/Target/RISCW/RISCWISelDAGToDAG.h和llvm/lib/Target/RISCW/RISCWISelDAGToDAG.cpp中。

结束语

实际上有很多方法可以实现一个体系结构的LLVM后端，所以在使用任何一种方法之前，请确保评估最适合您的需求的方法。另外，请记住下面的TableGen类的简介，在编写后端时几乎肯定需要这些类。

Register        //Register declarations

RegisterClass   //Register Class declarations

Instruction     //Instruction declarations

Operand         //Instruction operands

ImmLeaf         //Pattern-matching immediates

SDNodeXForm     //Transforming immediates after a match

Pat             //Providing a pattern to match in the Selection DAG

PatFrag         //Providing a pattern fragment with multiple patterns to match in the Selection DAG

注释

脚注

公平地说，有不少关于LLVM的书籍和网站，但大多数都是对这个工具的一般性描述，还有是关于如何编写新前端的实践教程，但后端的教程非常少。↩︎
这个教程描述了如何开发LLVM后端，但我发现很难理解。↩︎
关于RISCV指令格式的完整描述见参考手册的第2章↩︎

为LLVM添加简易RISCV后端(四)：指令选择

Tue, 08 Dec 2020 11:30:38 GMT

指令选择

我们先前简要介绍了LLVM后端的工作过程。在这篇文章中，我们将更深入地了解这个过程的第一个阶段：指令选择。我们的目的是在了解RISCW后端的具体实现之前，了解它的工作原理以及如何配置它。

注意：LLVM文档对指令选择的工作原理给出了简短而清晰的描述，这篇文章通过示例来重新说明这一点。

注意：本文中显示的示例是使用我们的RISCW后端框架构建的。可以在这里找到它的来源。

指令选择过程将LLVM IR转化为指令序列，该指令序列使用了无穷数量的寄存器。该过程分为以下几个阶段： 1. 构建初始DAG 2. 优化 3. 类型合法化 4. 优化 5. 操作合法化 6. 优化 7. 目标指令选择 8. 调度和形成

我觉得通过例子来了解发生的事情会比较容易，我们将考虑指令选择如何转换下面的C程序。该代码包含一个MUL函数，该函数接受64位参数x和32位参数y。参数相乘，并返回32位整数结果。

unsigned int MUL(unsigned long long int x, unsigned int y)
{
    return x * y;
}

构建DAG

这是指令选择的第一阶段。它接受LLVM IR作为输入，并产生Selection DAG(有向无环图)作为输出。指令选择过程中的每个其他阶段都在DAG上执行，直到产生输出指令序列。正如前面几篇文章所讨论的，LLVM IR是前端工具(如Clang)根据C代码生成，随后由LLVM优化器进行优化。下面是C程序的LLVM IR:

define dso_local i32 @MUL(i64 %x, i32 %y) local_unnamed_addr #0 {
entry:
  %0 = trunc i64 %x to i32
  %conv1 = mul i32 %0, %y
  ret i32 %conv1
}

Selection DAG实际上是一种精巧的树型数据结构，它表示LLVM IR中的基本块。基本块是不包含分支目的地（入口除外）和分支指令（出口除外）的指令序列。示例MUL函数非常简单，它只有一个称为入口的基本块，其他函数通常具有多个基本块。例如，下面的hello函数具有四个基本块：entry，if.then，if.else和return。每个基本块都将被转换为单独的DAG。

define dso_local i32 @hello(i32 %x) local_unnamed_addr #0 {
entry:
  %cmp = icmp eq i32 %x, 100
  br i1 %cmp, label %if.then, label %if.else

if.then:                                          ; preds = %entry
  %call = tail call i32 bitcast (i32 (...)* @hello100 to i32 (i32)*)(i32 100) #2
  br label %return

if.else:                                          ; preds = %entry
  %call1 = tail call i32 bitcast (i32 (...)* @helloOther to i32 (i32)*)(i32 %x) #2
  br label %return

return:                                           ; preds = %if.else, %if.then
  %retval.0 = phi i32 [ %call, %if.then ], [ %call1, %if.else ]
  ret i32 %retval.0
}

Selection DAG具有以下属性： + 每个节点都是SDNode类的实例，代表一个操作，如加、减、乘等。操作类型都定义在文件include/llvm/CodeGen/ISDOpcodes.h中。 + 每个节点都有0个或多个操作数，操作数由其他节点定义，用指向该节点的边表示，边是SDValue类的实例。 + 操作产生的值的类型为MTV（Machine Value Type），比如i1和i8，它们分别表示1位和8位整数。 + 具有副作用的节点会强制对操作进行排序，例如return和loads语句，它们具有类型为MVT::Other的特殊chain值，既作为输入操作数又作为输出操作数。 + ISD::EntryToken类型的叶节点是代码的入口。 + DAG的根节点是带有链操作数的最终副作用节点。这是的代码块的最后一个操作，例如函数结尾处的返回。

警告！LLVM后端的类型系统非常有限。当输入的LLVM IR被转换为DAG时，许多有用的类型信息被丢弃。最值得注意的丢弃是指针类型，MVT类的类型列表完全没有包含指针类型。因此，指针在DAG中使用整数类型表示，所以很难判断一个节点(如add)的操作数是指针还是整数。

这是我从MUL函数获得的初始Selection DAG。

入口节点位于图的顶部，而根节点位于底部。还有一个由蓝色边连接的节点链，从根节点开始，到入口节点结束。这些蓝边就是前面讨论过的链操作数。黑色边显示的是值的流动，如整数和浮点数。此Selection DAG的等效文本表示如下所示：

t0: ch = EntryToken
        t2: i32,ch = CopyFromReg t0, Register:i32 %0
        t4: i32,ch = CopyFromReg t0, Register:i32 %1
      t7: i64 = build_pair t2, t4
    t8: i32 = truncate t7
    t6: i32,ch = CopyFromReg t0, Register:i32 %2
  t9: i32 = mul t8, t6
t11: ch,glue = CopyToReg t0, Register:i32 $x0, t9
t12: ch = RISCWISD::Ret t11, Register:i32 $x0, t11:1

注意：Selection DAG可以同时包含目标独立和目标相关的节点。目标独立的操作定义在文件ISDOpcodes.h中。目标相关的操作由每个后端定义，通常定义在声明TargetLowering子类的同一文件中。您可以在llvm/lib/Target/RISCW/RISCWISelLowering.h中找到目标相关节点的定义。上面显示的用于MUL的Selection DAG具有节点t12，该节点代表目标相关操作RISCWISD::Ret，该函数表示从函数返回。

注意：在指令选择过程的各个阶段，您可以通过向llc命令传递-view-dag-combine1-dags，-view-legalize-dags，-view-dag-combine2-dags参数告诉LLVM生成Selection DAG的可视化表示，还可以通过向llc命令传递-debug参数告诉LLVM生成Selection DAG的文本表示。

优化

指令选择阶段会有三次DAG优化过程，第一次优化发生在LLVM IR构建Selection DAG之后。其余两次将在合法化阶段后执行。根据LLVM文档，这些优化旨在简化可能由其他阶段(如合法化)生成的不必要的复杂Selection DAGs。

就我所知，LLVM的优化过程就是通过运行一个编译pass将一组节点组合成更简洁的节点。为了实现这一点，LLVM用这个巨大的C++文件(>20,000行)遍历DAG，并通过模式匹配来寻找优化机会。例如，合并器可以将Selection DAG的(add (add x, y) z)节点，转换为(add x，y + z)节点，从而消除了add节点。

下图显示了MUL示例函数第一遍优化后的Selection DAG。与上一节中的Selection DAG相比，优化的DAG用节点t13代替了节点t3和t4。该优化将丢弃64位整数x的高32位，因为函数MUL的返回值仅依赖x的低32位，因此，可以通过消除t3和t4简化DAG。

LLVM的DAG合成器只优化目标独立的操作，即ISDOpcodes.h中定义的add、sub、load、store等。通过覆盖targetlower子类中的PerformDAGCombine函数，后端可以为合成器提供额外的优化功能，这些功能可以是目标独立的也可以是目标依赖的。此外，后端必须通知优化器受支持的目标独立的节点，这通过在targetlower类的子类的构造函数中调用setTargetDAGCombine函数完成。

注意：令人困惑的是，LLVM后端的TargetLowering子类通常在ISelLowering.cpp文件中实现。您可以在llvm/lib/Target/RISCW/RISCWISelLowering.cpp中找到RISCW的实现。

注意：XCore后端有一个很好的PerformDAGCombine和setTargetDAGCombine例子（参见这里和这里） ——我的意思是很容易阅读。另外，看看这个后端是如何将add(add(mul(x，y)，a)，b)节点组合到更简单的目标依赖的lmul(x，y，a，b)节点，因为XCore架构有一个乘法累加指令³。

类型和操作合法化

上面显示的优化的DAG包含一个节点t7，它会产生一个i64类型的值，但是RISCW机器只支持32位。合法化阶段会解决这些问题。

首先执行的是类型合法化，它将DAG转换为仅使用本地计算机原生支持的数据类型。为了实现这一点，它将小类型转换或提升为较大的类型；例如，i1类型的1位整数转换为i32类型的32位整数。此外，编译器将大整数分解或展开为较小的整数，例如在32位计算机中，i64类型的64位整数被转换为i32类型的32位整数。下面的DAG是前面展示的DAG的合法化版本。在本例中，编译器消除了t3和t7节点，以确保新的DAG只使用i32整数。

Selection DAG

操作合法化在第二个优化阶段之后执行。它将DAG转换为仅使用本地计算机原生支持的操作。例如，DAG可能包含bit-rotate left（rotl）节点，但目标指令集可能不支持该指令，因此，操作合法化把该操作转化为移位和或运算的联合操作。

有三种使操作合法化的策略。首先，将不受支持的操作扩展为一组受支持的操作来模拟原不受支持的操作。其次，把类型提升为更大的类型，以支持缺失的操作。第三，使用TargetLowering类的子类中的钩子在C++中实现自定义的合法化。

注意：在以后的文章中，我将解释后端如何配置合法化阶段。这可以在TargetLowering类的子类的构造函数中完成。

指令选择

此时，DAG包含大部分目标独立（如加和减）节点，以及一小部分目标依赖节点（如RISCWISD::Ret）。下一步，需要将这些抽象操作映射到目标架构的具体机器指令， LLVM在指令选择阶段会对此进行处理。处理方法很简单：编译器通过模式匹配将DAG中的节点映射成机器指令。指令的模式和描述由编译器后端的开发人员通过TableGen代码提供。另外，可以使用C++直接编写难以使用TableGen描述的复杂模式。

我们将在以后的文章中更仔细地研究TableGen。现在，让我们考虑一下LLVM如何将合法且优化的DAG映射成下面显示的新DAG。在这种情况下，只有两个节点需要更改。 t9用指令MUL替换了mul操作，而t12用指令PseudoRet替换了RISCWISD::Ret。

Selection DAG

调度和形成

谢天谢地，这里没什么好说的，因为帖子已经很长了！此阶段根据某些约束将DAG转换为指令列表。例如，后端可以通过TargetLowering子类的构造函数调用setSchedulingPreference来指定调度选项。

警告！ 一定要尝试不同的调度首选项！如果调度策略与体系结构和处理器的特性不匹配，那么调度策略会显著降低所发出的代码的质量。这里列出了各种调度选项。

下面是我们MUL函数的指令清单。有几个重要的事情要注意。首先，与实际机器的寄存器相反，生成的代码仍然使用一组无限多的虚拟寄存器；编译器稍后会通过寄存器分配器来处理这个问题。第二，已经存在一些对寄存器分配过程有用的生命周期信息；例如，有两个寄存器，即x0和x2，它们在基本块的开始处就处于活动状态。

bb.0.entry:
  liveins: $x0, $x2
  %2:gpr = COPY $x2
  %0:gpr = COPY $x0
  %3:gpr = MUL %0:gpr, %2:gpr
  $x0 = COPY %3:gpr
  PseudoRET implicit $x0

注释

脚注

公平地说，有不少关于LLVM的书籍和网站，但大多数都是对这个工具的一般性描述，还有是关于如何编写新前端的实践教程，但后端的教程非常少。↩︎
这个教程描述了如何开发LLVM后端，但我发现很难理解。↩︎
查看XCore XS1体系结构参考手册，了解乘法累加（LMUL）指令的详细说明。↩︎

为LLVM添加简易RISCV后端(三)：配置构建系统

Tue, 08 Dec 2020 04:30:38 GMT

配置构建系统

在前面，我们提到每个LLVM后端都有一个单独的目录LLVM/lib/Target，后端的大部分代码都在其中。此外，LLVM依赖CMake为实际的构建系统(如Make、Ninja等)生成构建文件。在这篇文章中，我们将仔细研究其中的一些CMake配置文件。

注意:RISCW后端代码可以在这里找到。

CMake配置文件

回想一下，RISCW后端存放在llvm/lib/Target/RISCW目录下。该目录及其子目录都有两个构建文件(CMakeLists.txt和LLVMBuild.txt)，描述后端模块的结构，提供链接信息等。 RISCW后端目前非常简单，目录结构是这样的:

llvm/lib/Target/RISCW
|- CMakeLists.txt
|- LLVMBuild.txt
|- Other C++, TableGen, etc files
|- TargetInfo/
|  |- CMakeLists.txt
|  |- LLVMBuild.txt
|  |- Other C++, TableGen, etc files
|- MCTargetDesc/
   |- CMakeLists.txt
   |- LLVMBuild.txt
   |- Other C++, TableGen, etc files

每个使用CMake的项目都会包含CMakeLists.txt文件³，RISCW也不例外。这些文件包含一系列CMake指令，这些指令用于驱动构建文件的生成。在LLVM后端中，CMake会根据这些指令执行一些操作，例如指示要编译的C++源文件或生成TableGen指令。 LLVMBuild.txt文件对当前目录中包含的组件提供了描述。

LLVMBuild.txt文件

让我们看一下llvm/lib/Target/RISCW/LLVMBuild.txt的内容。

[common]
subdirectories = MCTargetDesc TargetInfo

[component_0]
type = TargetGroup
name = RISCW
parent = Target
has_asmprinter = 1

[component_1]
type = Library
name = RISCWCodeGen
parent = RISCW
required_libraries = AsmPrinter CodeGen Core MC RISCWDesc RISCWInfo
  SelectionDAG Support Target

add_to_library_groups = RISCW

该文件告诉构建系统RISCW后端具有两个组件。其中一个是顶级组件RISCW，其类型为TargetGroup，该类型表明RISCW是一个后端，构建系统对该类型有一些特殊处理。 Target是RISCW的父组件。请注意，此命名与LLVM后端的目录结构匹配，即llvm/lib/Target/RISCW。 RISCW的名称也不是任意的，它必须与后端的TableGen文件中的定义匹配。

LLVM后端提供了一系列可选功能，例如assembly printing，assembly parsing等， LLVMBuild.txt文件表明了后端支持哪些可选功能。比如，最后一行告诉构建系统RISCW后端实现了assembly printing功能。

注意：查看现有后端（如ARM或RISCV）中的代码，以了解它们除了has_asmprinter之外还启用了哪些功能。

LLVMBuild.txt文件还定义了第二个名为RISCWCodeGen的组件，其类型为Library，其父级为RISCW。另外，文件还指明了RISCWCodeGen需要的依赖库，例如AsmPrinter，CodeGen等，构建LLVM时，缺少库会导致链接错误。

llvm/lib/Target/RISCW的每个子目录也会包含一个LLVMBuild.txt文件，该文件使用RISCW作为父级来定义自己的组件。

CMakeLists.txt文件

让我们看一下llvm/lib/Target/RISCW/CMakeLists.txt文件的内容。

set(LLVM_TARGET_DEFINITIONS RISCW.td)

tablegen(LLVM RISCWGenRegisterInfo.inc -gen-register-info)
tablegen(LLVM RISCWGenInstrInfo.inc -gen-instr-info)
# Other TableGen commands

add_public_tablegen_target(RISCWCommonTableGen)

# RISCWCodeGen should match with LLVMBuild.txt RISCWCodeGen
add_llvm_target(RISCWCodeGen
  RISCWAsmPrinter.cpp
  # Other files
)

# Should match with "subdirectories =  MCTargetDesc TargetInfo" in LLVMBuild.txt
add_subdirectory(TargetInfo)
add_subdirectory(MCTargetDesc)

文件顶部的set命令将LLVM_TARGET_DEFINITION定义为`RISCW.td**。这个文件通常包含一些顶级定义，并通过包含其他文件的方式来引入其他TableGen定义——我们将在后面的文章中更仔细地研究TableGen，但是请随时查看代码库中的RISCW.td。

然后我们在CMake文件中看到一些TableGen命令。它们命令构建系统使TableGen工具根据*.td文件生成RISCWGen*.inc。这些*.inc文件实际上就是传统的C++代码，在编译完LLVM之后，你可以在build/lib/Target/RISCW的构建目录中找到它们；它们可以用于调试，但是不容易阅读。

接下来的命令，也就是add_llvm_target，指定了当前目录中要构建的C++文件，被指定的文件不能位于子目录中。 add_llvm_target命令的第一个参数是目标的名称，并且应该与LLVMBuild.txt中定义名称匹配。

最后，CMakeLists.txt指定了CMake应该查看的子目录，在后端RISCW中，只有两个:TargetInfo和MCTargetDesc。子目录中的CMakeLists.txt与此类似，但要简单得多!

注意:后端文件的命名约定通常很重要，显然应该与构建文件的内容相匹配。例如，set(LLVM_TARGET_DEFINITIONS RISCW.td)命令要求RISCW.td存在! 一定要仔细检查这些错误，因为构建错误可能有点含糊不清。

注释

脚注

公平地说，有不少关于LLVM的书籍和网站，但大多数都是对这个工具的一般性描述，还有是关于如何编写新前端的实践教程，但后端的教程非常少。↩︎
这个教程描述了如何开发LLVM后端，但我发现很难理解。↩︎
您可以在此处找到有关CMake的更多信息。↩︎

为LLVM添加简易RISCV后端(二)：创建后端

Sun, 06 Dec 2020 05:30:38 GMT

创建后端

开发LLVM后端并不是一件特别吸引人的事情。您很快就会意识到，这项工作在很大程度上就是从其他现有后端复制代码。在线论坛上，LLVM开发者建议从“复制一个现有的后端，重命名并修改它以适应您的需要”开。但是即使是相对较小的后端，比如Lanai或XCore，也相当复杂，而且代码也不容易理解！

在本系列文章中，将采取略有不同的方法。我们将使用现有的LLVM后端作为起点，但我已经删除了大部分代码，并将其减少到编译一个(很小的)程序所需的最低限度。精简的后端，称为RISCW，非常简单，可以帮助理解LLVM目标独立代码生成器，而不必纠缠于细节。在这篇文章的其余部分，我将使用RISCW后端来展示如何创建一个新的LLVM后端。我们还将看到如何用一个实验性的后端构建LLVM，甚至编译一个(非常简单的) C程序到汇编。

Triple和ELF配置

我们首先为后端配置一个新的目标描述Triple。由于历史原因，Triple编码了目标平台的重要信息（如体系结构、供应商和操作系统）。以下是配置一个新的Triple的步骤:

在llvm/include/llvm/ADT/Triple.h用Triple声明一个新的体系结构 (见这里)。
提供字符串和Triple之间的类型转换(参见这里,这里及这里)。
指出后端支持的目标文件类型，例如ELF、COFF等，ricw只支持ELF(参见这里)。
指出目标平台的字平台，例如32位或64位，以及指针的大小(请参阅这里,这里及这里)。

注意:你可以在这里和这里找到更多关于Triple的信息。

注意:指令集并不一定意味着指针的大小。例如，在为RV64编译时，指针并不总是64位的。指针大小通常由ABI给出，在64位机器中，它可以是ilp32(即int、long和指针为32位)。

下面的参数用于配置ELF:

创建一个枚举值作为RISCW的体系结构的标识(见此处)。这个值被编码在ELF文件头的e_machine字段中。这个值不是随意设置的; 它必须取得授权，例如:0xF3 for RISCV。但是我们现在将它设置为一个未使用的值。
声明ELF重定位类型(见这里和这里)。同样，这些是依赖于架构的，这里列出了用于RISCV的类型。在这个阶段，我们将简单地为RISCW放置了占位符。
文件格式名称(见此处)。
指示给定类的目标描述Triple(见此处)。目前，ELF头中的类是一个字节，用于对格式是32位还是64位进行编码。

注意:查看wikipedia获取更多关于ELF文件的信息。

配置驱动器

回想一下，我们使用clang将输入的C代码编译成LLVM IR。但是clang不仅仅是我们的编译器前端，它也是一个驱动器，类似GCC，驱动编译流水线将输入的C程序转换为另一个表示，比如把C转换为汇编或目标代码。因此，我们需要告诉clang

新后端的支持特性。例如，clang需要知道RISCW是32位还是64位。
新后端的编译流程。例如，它应该使用什么汇编程序? 什么连接器? 有哪些包括路径等等。

我们可以通过添加一个新的target类RISCWTargetInfo来告诉clang有关RISCW的信息，该类与LLVM已有的target类一起被实例化，如这里所示。该类在这里和这里分别被声明和定义。在这段代码中有一些重要的事情需要强调:

RISCWTargetInfo通过字符串描述数据布局。这个字符串编码许多重要信息，比如指针中每一位、堆栈对齐要求等。
基本C数据类型的大小。
函数RISCWTargetInfo::getTargetDefines(**指示编译时定义的C预处理器宏，例如，这些宏是在使用RISCV后端编译代码时定义的。宏通常描述后端支持的体系结构、ABI、启用/禁用任何特性等

注意:一个后端可能支持多个指令集和ABI，因此驱动器的配置必须根据选定的目标Triple进行更改。例如，RISCWTargetInfo根据Triple包含riscv32还是riscv64来更改数据布局字符串。

注意:这里可以查看RISCWTargetInfo的父类TargetInfo的声明。它包含了更多的可以配置的选项。

配置工具链相对简单。我们只需要实现一个从Toolchain继承的RISCWToolChain类，如下所示。代码基本上是不言自明的，通过覆盖ToolChain类的成员，您可以修改更多的选项(见此处)。

创建新Target

每个后端在llvm/lib/Target下都有一个单独的目录，其中包含后端的大部分代码。我们不会在这篇文章中深入讨论代码的细节(稍后我们会这样做) ，因为即使是一个很小的后端，比如RISCW，也有很多文件。目前，我们可以将这些文件大致分为三类:

TableGen文件LLVM目标无关代码生成框架实现了一个精心设计的模式匹配算法，用于为输入的程序选择指令。待匹配的模式使用TableGen语法描述。此外，TableGen文件还描述了target在体系结构方面的重要特性，如寄存器的数量和调用约定等。
Build文件后端的每个目录都必须被声明，否则它将不会被构建。此外，我们的后端的顶部目录(llvm/lib/Target/RISCW) ，以及每个子目录必须包含两个构建文件:CMakeLists.txt和LLVMBuild.txt，前者将源文件和任何子目录添加为生成目标，而后者为生成目标设置简单的生成参数，参数包括生成目标的名称、链接所需的库等。
C++文件包含了大量的后端代码，实现了从简单的配置选项到更复杂的指令选择功能(TableGen没有实现或不能实现)的所有功能。

建立实验性后端

现在，一切都已经建立，我们可以构建带有RISCW后端的LLVM。但是我们不能简单地根据上一章的内容修改CMake的-DLLVM_TARGETS_TO_BUILD选项，以包含RISCW，因为后端仍处于试验阶段。相反，我们使用-DLLVM_EXPERIMENTAL_TARGETS_TO_BUILD选项，如下:

cmake -G "Ninja" -DLLVM_ENABLE_PROJECTS="clang" -DLLVM_TARGETS_TO_BUILD="ARM;Lanai;RISCV" -DLLVM_EXPERIMENTAL_TARGETS_TO_BUILD="RISCW" -DCMAKE_BUILD_TYPE="Debug" -DLLVM_ENABLE_ASSERTIONS=On ../llvm
ninja

当构建完成后，你可以检查RISCW现在是否是一个可用的后端，如下所示:

$ ./build/bin/llc --version
LLVM (http://llvm.org/):
  LLVM version 10.0.1
  DEBUG build with assertions.
  Default target: x86_64-unknown-linux-gnu
  Host CPU: znver2

  Registered Targets:
    arm     - ARM
    armeb   - ARM (big endian)
    lanai   - Lanai
    riscv32 - 32-bit RISC-V
    riscv64 - 64-bit RISC-V
    riscw   - 32-bit RISC-V         <== YAY!!
    thumb   - Thumb
    thumbeb - Thumb (big endian)

编译C程序

我们的RISCW后端只能发出两条add和ret指令，而且它不能正确处理函数调用、堆栈和几乎所有其他的东西！因此，我们将约束自己，只编译这个小函数:

int test(int a, int b)
{
    return a + b;
}

就这样，我们得到了这样一个代码:

    .text
    .file   "test.c"
    .globl  test                    ; -- Begin function test
    .type   test,@function
test:                                   ; @test
; %bb.0:                                ; %entry
    add x0, x1, x0
    ret
.Lfunc_end0:
    .size   test, .Lfunc_end0-test
                                        ; -- End function
    .ident  "clang version 10.0.1 (https://github.com/llvm/llvm-project 89f2d2cc3bba7cb12cee346b3205cb0335e758cd)"
    .section    ".note.GNU-stack","",@progbits

有很多东西缺失了，代码实际上是不正确的，在RISCV中的x0是一个硬编码为0的只读寄存器。但是我认为我们已经达到了目标: 建立了一个最小的LLVM后端，可以很容易地用更多的特性进行扩展。

注意:如果您使用上一篇文章中的命令来编译上面的测试函数，请确保为clang设置了-target riscw和为llc设置了-march=riscw。

注意:试图编译更复杂的程序将导致cannot select...错误。如果你感兴趣，就试一试。

注意:您可以通过将-debug选项传递给llc来指示编译器打印调试信息。

注释

脚注

公平地说，有不少关于LLVM的书籍和网站，但大多数都是对这个工具的一般性描述，还有是关于如何编写新前端的实践教程，但后端的教程非常少。↩︎
这个教程描述了如何开发LLVM后端，但我发现很难理解。↩︎

为LLVM添加简易RISCV后端(一)：入门

Fri, 04 Dec 2020 11:30:38 GMT

入门

在为新项目编写代码之前，我通常会配置环境，并对查看经存在的代码，这就是这一节要做的。在这一节中，我将展示如何下载编译LLVM和其他对调试有用的工具。我们还将了解如何使用现有的LLVM后端和GNU工具链来编译、汇编、链接和运行程序。

环境

我正在使用Ubuntu，但是你应该能够在其他系统中重复这些步骤，而且(相对来说)几乎没有什么不同。您将需要以下工具来构建软件。

Makefile
C/C++ Compiler – 我用 GCC 9.2.1
autotools
CMake
Ninja
Git
大量耐心

注意：我可能忘记了一些东西，但是构建系统会通过一个错误告诉您；

编译LLVM

LLVM维护者已经建立了这个方便的repo，它包含LLVM和工具链的其他部分，比如Clang。

git clone https://github.com/llvm/llvm-project

在本系列文章中，我们将使用llvm 10.0.1，我建议您也使用该版本的LLVM。因为LLVM的变化非常快，这里显示的一些代码在旧/新版本中可能无法工作。不过，原理应该大致相同。

LLVM使用CMake为构建系统生成构建文件，LLVM支持的构建系有：Ninja，Makefiles，Visual Studio和XCode。我通常使用Ninja，因为我认为它在我的系统中速度最快（我没有证据支持该判断！）。您可以通过cmake命令的-G参数来更改构建系统。

CMake有很多选项，我鼓励您对其进行研究，因为有些选项对调试非常有帮助。您可以在这里阅读所有构建选项。在本教程中，我将使用以下选项:

-DLLVM_ENABLE_PROJECTS 构建编译器的其余部分，比如Clang。
-DLLVM_TARGETS_TO_BUILD 指定要构建的后端。查看其他后端的输出对调试很有帮助，但是如果添加太多，构建会花费很长时间。
-DCMAKE_BUILD_TYPE 构建Debug版本。
-DLLVM_ENABLE_ASSERTIONS=On 启用断言，对调试很有帮助。

以下是在克隆repo之后构建LLVM的方法。

cd llvm-project
git checkout llvmorg-10.0.1
mkdir build
cd build
cmake -G "Ninja" -DLLVM_ENABLE_PROJECTS="clang" -DLLVM_TARGETS_TO_BUILD="ARM;Lanai;RISCV" -DCMAKE_BUILD_TYPE="Debug" -DLLVM_ENABLE_ASSERTIONS=On ../llvm
ninja

注意：您可以在这里和这里找到更多有关构建LLVM的信息。

注意：您可以为Ninja传递-j 选项，以指示要并行的作业数。过高的会导致构建崩溃，并产生collect2：ld ...错误消息。

编译RISC V的GNU工具链

你可能有点困惑，为什么我建议构建GCC的RISC V后端？难道我们不是要自己编写编译器后端吗？

我们构建GCC的RISC V后端，是因为我们希望在初始阶段使用GCC的汇编器和链接器来测试LLVM后端生成的代码。编译过程分为很多阶段，在初始阶段，我们已经有以下结构:

Clang 编译C代码到LLVM IR
LLVM 优化IR
LLVM后端编译IR到汇编
GCC 汇编和链接可执行文件

使用以下命令下载，构建和安装GCC for RISCV。

git clone https://github.com/riscv/riscv-gnu-toolchain
cd riscv-gnu-toolchain
mkdir build
cd build
../configure --with-arch=rv32gc --with-abi=ilp32
make
make install

注意：请确保为指令集的正确变体（即RV32）构建GCC工具链，因为构建系统的默认值为RV64！

注意：GNU工具链支持RISC V的多个ABI，例如ilp32，ilp32d和ilp32f，这取决于您是否需要软浮点，硬浮点。

编译C程序

现在，构建和运行C代码的环境已经配置好了，尽管我们还没自己的后端（还！）。让我们从一个简单的C程序开始：

#include 

int main(void)
{
    printf("Hello world!\n");
    return 0;
}

首先，使用Clang将C代码编译为LLVM IR。我们的计划是使用标准库中来自头文件stdio.h的函数printf，如果不能找到头文件，编译器会提示出错。为了使用GCC自带的RISC V标准C库，我们使用了-isystem参数。这会将包含所需头文件的目录添加到Clang预处理器的搜索目录列表中。

clang -O2 -emit-llvm -target riscv64 -isystem <PATH_TO_GCC>/riscv64-unknown-elf/include -c test.c -o test.bc

上面的命令把C语言文件test.c编译到LLVM IR文件test.bc，这是专门为机器设计的语言人类很难直接阅读。我们可以使用以下命令反汇编该文件：

llvm-dis test.bc

现在，使用包含以下内容的后端将IR编译为程序集，而无需使用以下命令下载LLVM：现在，使用LLVM自带的后端将IR编译为程汇编：

llc -march=riscv64 -O2 -filetype=asm test.bc -o test.S

GCC可以直接生成程序的二进制文件。我将其分为两个步骤，但是您可以根据需要使用单个命令。

riscv64-unknown-elf-gcc -c test.S -o test.o
riscv64-unknown-elf-gcc test.o -o test

最后，我们可以使用模拟器或真实硬件运行程序。

注释

脚注

公平地说，有不少关于LLVM的书籍和网站，但大多数都是对这个工具的一般性描述，还有是关于如何编写新前端的实践教程，但后端的教程非常少。↩︎
这个教程描述了如何开发LLVM后端，但我发现很难理解。↩︎

为LLVM添加简易RISCV后端(零)：简介

Thu, 03 Dec 2020 11:30:38 GMT

简介

在本教程中，我将为RISC V指令集的基本32位版本（即RV32IM）开发一个后端。希望这能帮助那些不熟悉LLVM的人开始使用这个工具，并将其扩展到自己的项目中。看懂本教程不需要前置知识，但是如果你熟悉C++和RISC V，学习本教程会更容易。

在本文剩下的部分中，我将简要描述LLVM的体系结构和后端结构。不过，我不会在这里详细说明，因为，如果你像我一样，在5分钟（或5秒）之后，就会忘记读过的任何繁琐文档。LLVM的细节将在以后的帖子中根据需要提供。

注意:如果你想要更详细的版本，你可以自娱自乐地阅读LLVM User Guides。

LLVM架构

传统上，编译过程分为三个阶段。首先，编译器的前端将源代码转换为某种中间表示（IR）；然后，优化IR；最后，编译器的后端将IR转换为机器代码。传统的编译器通常仅支持一种编程语言和一种目标指令集，编译器的源代码很难重用，例如添加新的目标指令集。

LLVM模块化地实现了三个编译过程，可以解决重用问题。其思想是LLVM的核心（即IR和优化器）是固定的，但是前端和后端可以被替换，以使编译器可以支持多种编程语言和指令集。例如，我们可以使用Clang（LLVM的前端）和x86后端把C/C++代码编译成X86指令集上的可执行程序。我们也可以用ARM后端替换X86后端，从而得到ARM指令集上的可执行程序。

注意：LLVM的设计师Chris Lattner撰写了这篇文章介绍LLVM的体系结构及其设计动机。

注意：LLVM的这三个阶段的每个阶段在都有一个专用的可执行文件。 clang是C/C++的前端（显然针对不同的编程语言有不同的前端），opt是优化程序，llc用于调用后端。通常，我们使用clang作为驱动程序来执行前端，使用llc和opt配合适当的参数来生成IR，汇编，可执行文件等。

代码生成

LLVM后端将IR编译为目标代码或汇编代码。每个后端都只支持单一平台，但可以支持多个指令集。例如，LLVM只有一个ARM后端，但该后端可以为ARMv6和ARMv7等指令集生成代码。每个后端都建立在LLVM的目标无关代码生成器之上。目标无关代码生成器是一个框架，可实现诸如寄存器分配之类的关键算法。从广义上讲，后端的任务是配置该框架并使之适应其目标指令集的特定需求。

代码生成具有以下阶段：

指令选择 映射LLVM IR到目标指令集中的指令。此阶段使用无限数量的虚拟寄存器和函数调用堆栈的抽象引用。
计划和编排 确定指令的顺序。需要明确的是，在指令选择阶段已经对指令进行了排序，但这里可以根据寄存器分配策略或指令等待时间来对其中的一些指令的排序进行优化。
基于SSA的机器代码优化 执行诸如peephole优化之类的工作。
寄存器分配 将虚拟寄存器映射到物理寄存器。
Prolog / Epilog插入 在每个函数的开头（或prolog）和结尾（或epilog）插入机器指令。这些通常是在进入或退出函数时扩展堆栈的指令。由于当前已经知道堆栈大小，因此也可以解析抽象堆栈引用。
后期机器代码优化 可能不言自明。
代码发射 发出目标代码或汇编代码。

接下来，我将看一下构建LLVM以及如何设置开发/调试环境…

注意：您可以阅读这篇文章了解LLVM目标无关代码生成器的更多信息。

注释

脚注

公平地说，有不少关于LLVM的书籍和网站，但大多数都是对这个工具的一般性描述，还有是关于如何编写新前端的实践教程，但后端的教程非常少。↩︎
这个教程描述了如何开发LLVM后端，但我发现很难理解。↩︎

TableGen 简介

Tue, 03 Nov 2020 11:30:38 GMT

简介

TableGen的目的是帮助开发者开发和维护特定领域的记录。这些记录的数量可能很大，所以它是专门来编写灵活的描述，并提取这些记录的共同特征。这减少了描述的重复量，减少了出错的机会，使构建特定领域的信息更容易。

TableGen前端解析文件，实例化声明，并将结果交给特定领域的backend进行处理。有关TableGen的详细描述，请参阅 TableGen Programmer’s Reference 。有关调用TableGen的各种xxx-tblgen命令的详细信息，请参阅xxx-tblgen - Target Description to C++ Code 。

目前TableGen的主要用户有 The LLVM Target-Independent Code Generator和Clang diagnostics and attributes。

注意，如果您经常使用TableGen，并且使用emacs或vim，那么您可以在llvm发行版的llvm/utils/emacs和llvm/utils/vim目录中分别找到一个emacs“TableGen mode”和一个vim语言文件。

TableGen程序

TableGen文件由TableGen程序解释：llvm-tblgen在bin下构建目录中。它没有安装到系统（或您的sysroot设置的位置）中，因为它在LLVM的构建过程之外没有任何用处。

运行TableGen

TableGen的运行就像其他任何LLVM工具一样。第一个（可选）参数指定要读取的文件。如果未指定文件名，则llvm-tblgen从标准输入读取。

要使用TableGen就必须指定后端，这些后端可以在命令行中选择（输入“ llvm-tblgen -help”获取列表）。例如，要获取特定类型的子类的所有定义的列表(这对于构建这些记录的枚举很有用)，请使用print-enum选项：

$ llvm-tblgen X86.td -print-enums -class=Register
AH, AL, AX, BH, BL, BP, BPL, BX, CH, CL, CX, DH, DI, DIL, DL, DX, EAX, EBP, EBX,
ECX, EDI, EDX, EFLAGS, EIP, ESI, ESP, FP0, FP1, FP2, FP3, FP4, FP5, FP6, IP,
MM0, MM1, MM2, MM3, MM4, MM5, MM6, MM7, R10, R10B, R10D, R10W, R11, R11B, R11D,
R11W, R12, R12B, R12D, R12W, R13, R13B, R13D, R13W, R14, R14B, R14D, R14W, R15,
R15B, R15D, R15W, R8, R8B, R8D, R8W, R9, R9B, R9D, R9W, RAX, RBP, RBX, RCX, RDI,
RDX, RIP, RSI, RSP, SI, SIL, SP, SPL, ST0, ST1, ST2, ST3, ST4, ST5, ST6, ST7,
XMM0, XMM1, XMM10, XMM11, XMM12, XMM13, XMM14, XMM15, XMM2, XMM3, XMM4, XMM5,
XMM6, XMM7, XMM8, XMM9,

$ llvm-tblgen X86.td -print-enums -class=Instruction
ABS_F, ABS_Fp32, ABS_Fp64, ABS_Fp80, ADC32mi, ADC32mi8, ADC32mr, ADC32ri,
ADC32ri8, ADC32rm, ADC32rr, ADC64mi32, ADC64mi8, ADC64mr, ADC64ri32, ADC64ri8,
ADC64rm, ADC64rr, ADD16mi, ADD16mi8, ADD16mr, ADD16ri, ADD16ri8, ADD16rm,
ADD16rr, ADD32mi, ADD32mi8, ADD32mr, ADD32ri, ADD32ri8, ADD32rm, ADD32rr,
ADD64mi32, ADD64mi8, ADD64mr, ADD64ri32, ...

默认后端打印出所有记录。还有一个通用后端，它将所有记录输出为JSON数据结构，并使用-dump-json选项启用。

如果您计划使用TableGen，那么您很可能必须编写一个后端来提取您需要的信息并以适当的方式格式化它。可以通过用C++扩展TableGen本身，或者用任何可以处理JSON的语言编写脚本来实现这一点。

例子

在没有其他参数的情况下，llvm-tblgen 解析指定的文件并输出所有的类，然后输出所有的定义。这是查看各种定义扩展到何种程度的好方法。在 X86.td 文件上运行这个命令会输出以下命令(在撰写本文时) :

...
def ADD32rr {   // Instruction X86Inst I
  string Namespace = "X86";
  dag OutOperandList = (outs GR32:$dst);
  dag InOperandList = (ins GR32:$src1, GR32:$src2);
  string AsmString = "add{l}\t{$src2, $dst|$dst, $src2}";
  list<dag> Pattern = [(set GR32:$dst, (add GR32:$src1, GR32:$src2))];
  list<Register> Uses = [];
  list<Register> Defs = [EFLAGS];
  list<Predicate> Predicates = [];
  int CodeSize = 3;
  int AddedComplexity = 0;
  bit isReturn = 0;
  bit isBranch = 0;
  bit isIndirectBranch = 0;
  bit isBarrier = 0;
  bit isCall = 0;
  bit canFoldAsLoad = 0;
  bit mayLoad = 0;
  bit mayStore = 0;
  bit isImplicitDef = 0;
  bit isConvertibleToThreeAddress = 1;
  bit isCommutable = 1;
  bit isTerminator = 0;
  bit isReMaterializable = 0;
  bit isPredicable = 0;
  bit hasDelaySlot = 0;
  bit usesCustomInserter = 0;
  bit hasCtrlDep = 0;
  bit isNotDuplicable = 0;
  bit hasSideEffects = 0;
  InstrItinClass Itinerary = NoItinerary;
  string Constraints = "";
  string DisableEncoding = "";
  bits<8> Opcode = { 0, 0, 0, 0, 0, 0, 0, 1 };
  Format Form = MRMDestReg;
  bits<6> FormBits = { 0, 0, 0, 0, 1, 1 };
  ImmType ImmT = NoImm;
  bits<3> ImmTypeBits = { 0, 0, 0 };
  bit hasOpSizePrefix = 0;
  bit hasAdSizePrefix = 0;
  bits<4> Prefix = { 0, 0, 0, 0 };
  bit hasREX_WPrefix = 0;
  FPFormat FPForm = ?;
  bits<3> FPFormBits = { 0, 0, 0 };
}
...

该定义对应于x86体系结构的32位寄存器-寄存器相加指令。 Def ADD32rr定义了一个名为ADD32rr的记录，行尾的注释表示该定义的父类。记录体包含TableGen为记录汇编的所有数据，指示该指令是“x86”命名空间的一部分，指示代码生成器如何选择指令的模式，它是双地址指令，具有特定的编码等。记录中信息的内容和语义专用于X86后端，这里仅作为示例。

正如您所看到的，代码生成器支持的每条指令都需要大量信息，手动指定所有指令将不可维护，容易出错，而且首先要做的事情很累人。因为我们正在使用 TableGen，所有的信息都来自以下定义:

let Defs = [EFLAGS],
    isCommutable = 1,                  // X = ADD Y,Z --> X = ADD Z,Y
    isConvertibleToThreeAddress = 1 in // Can transform into LEA.
def ADD32rr  : I<0x01, MRMDestReg, (outs GR32:$dst),
                                   (ins GR32:$src1, GR32:$src2),
                 "add{l}\t{$src2, $dst|$dst, $src2}",
                 [(set GR32:$dst, (add GR32:$src1, GR32:$src2))]>;

这个定义使用定制类 I (从定制类 X86Inst 扩展而来) ，这个定制类是在 x86特定的 TableGen 文件中定义的，可以提取了指令共享的公共特性。TableGen 的一个关键特性是，它允许最终用户定义他们在描述其信息时喜欢使用的抽象。

语法

TableGen的语法类似c++模板，带有内置的类型和约束。此外，TableGen的语法引入了一些自动化概念，如multiclass、foreach、let等。

基本概念

TableGen文件由两个关键部分组成:“类”和“定义”，这两个部分都被认为是“记录”。

记录有一个唯一的名称、一个值列表和一个父类列表。值列表是TableGen为每条记录构建的主要数据；正是该列表保存了应用程序的特定信息。此数据的解释留给特定的后端，但结构和格式规则由TableGen负责。

定义是“记录”的具体形式。它通常不包含任何未定义的值，并用“ def”关键字进行标记。

def FeatureFPARMv8 : SubtargetFeature<"fp-armv8", "HasFPARMv8", "true",
                                      "Enable ARMv8 FP">;

在此示例中，FeatureFPARMv8是使用某些值初始化的SubtargetFeature记录。这些类通过关键字class定义在同一文件或其他文件中的。对大多数平台来说，包含通用类的TableGen文件保存在include/llvm/Target中。

class 是用于构建和描述其他记录的抽象记录。这些类使最终用户可以为他们所针对的领域（例如LLVM代码生成器中的“ Register”，“ RegisterClass”和“ Instruction”）构建抽象，提取改领域的公共属性（例如“ FPInst”，用于表示X86后端中的浮点指令）。TableGen会跟踪用于建立定义的所有类，因此后端可以找到特定类的所有定义，例如“instruction”。

class ProcNoItin<string Name, list<SubtargetFeature> Features>
      : Processor<Name, NoItineraries, Features>;

在这里，类ProcNoItin通过类型为string的参数名、目标特性列表和硬编码的NoItineraries来特化Processor类。

multiclass 一次实例化一组抽象记录。每个实例化都会产生多个TableGen定义。如果一个multiclass继承了另一个multiclass，那么子multiclass中的定义将成为当前multiclass的一部分，就像它们是在当前multiclass中声明的一样。

multiclass ro_signed_pats<string T, string Rm, dag Base, dag Offset, dag Extend,
                        dag address, ValueType sty> {
def : Pat<(i32 (!cast<SDNode>("sextload" # sty) address)),
          (!cast<Instruction>("LDRS" # T # "w_" # Rm # "_RegOffset")
            Base, Offset, Extend)>;

def : Pat<(i64 (!cast<SDNode>("sextload" # sty) address)),
          (!cast<Instruction>("LDRS" # T # "x_" # Rm # "_RegOffset")
            Base, Offset, Extend)>;
}

defm : ro_signed_pats<"B", Rm, Base, Offset, Extend,
                      !foreach(decls.pattern, address,
                               !subst(SHIFT, imm_eq0, decls.pattern)),
                      i8>;

有关TableGen的深入描述，请参阅TableGen的TableGen Programmer’s Reference。

TableGen后端

没有后端，TableGen文件没有实际含义。运行xxx-tblgen时的默认操作是以文本格式打印信息，但这仅对调试TableGen文件本身有用。但是，TableGen的功能是将源文件解释为内部表示形式，可以将其生成为所需的任何内容。

目前TableGen的用法是创建包含表的大型include的文件，您可以直接包含这些文件(如果输出是您正在编码的语言) ，也可以通过包裹include文件的宏进行预处理。

如果后端已经以C格式打印了表，或者输出仅仅是一列字符串(用于错误和警告消息) ，则可以使用直接输出。如果需要在不同的上下文中使用相同的信息(如指令名) ，则应该使用预处理的输出，因此后端应该打印一个元信息列表，该列表可以形成不同的编译时格式。

可用后端的列表，请参阅TableGen BackEnds；有关如何编写和调试新后端的信息，请参阅TableGen Backend Developer’s Guide。

TableGen缺陷

尽管TableGen非常通用，但它有一些已经被多次指出的缺陷。共同点是，虽然TableGen允许您构建特定于领域的语言，但您创建的最终语言缺乏其他DSL的功能，这反过来又会显著增加TableGen文件的大小和复杂性。

同时，TableGen允许您通过定制的后端创建基本概念的任何含义，这会扭曲原始设计，使新手很难理解TableGen文件。

有些人赞成进一步扩展语义，但要确保后端遵守严格的规则。其他人则建议我们应该改用功能更强大的DSL，这些DSL是为特定目的而设计的，甚至应该重用现有DSL。

编写LLVM后端

Sun, 01 Nov 2020 10:38:38 GMT

一简介

本文档描述了编写编译器后端的技术，这些后端将LLVM中间表示（IR）转换为特定机器或其他语言的代码，这些代码可以是汇编代码也可以是二进制代码（可用于JIT编译器）。

LLVM的后端是一个平台独立的代码生成器，它可以为不同类型的目标CPU生成代码，包括X86、PowerPC、ARM和SPARC。后端还可以为GPU或Cell处理器的SPU生成代码，以支持计算内核的执行。

本文档主要关注llvm/lib/Target目录中的现有示例，特别是为SPARC平台创建静态编译器(也就是发射汇编码)，因为SPARC具有相当典型的特征，比如RISC指令集和常见的调用约定。

目标读者

本文档的受众是需要编写LLVM后端来为特定的硬件或软件平台生成代码的开发者。

前置知识

在阅读本文档之前，必须先阅读以下重要文档：

LLVM Language Reference Manual–LLVM汇编语言的参考手册。
The LLVM Target-Independent Code Generator– 用于将LLVM内部表示转换为指定平台的机器码的组件（类和代码生成算法）的指南。特别注意代码生成阶段：指令选择、调度和形成、基于SSA的优化、寄存器分配、Prolog/Epilog代码插入、后期机器代码优化和代码发射。
TableGen–TableGen（tblgen）应用程序的描述文档，该程序管理LLVM代码生成特定于域的信息。 TableGen处理来自目标描述文件（后缀.td）的输入，并生成可用于代码生成的C++代码。

基本步骤

编写将LLVM IR转换为指定平台的机器码或其他语言的代码的编译器后端，需要以下步骤：

创建TargetMachine类的子类，该类描述目标计算机的特征，这一步可以参考已有后端的TargetMachine类及其头文件；例如，直接复制SparcTargetMachine.cpp和SparcTargetMachine.h但更改其文件名，并且更改引用“Sparc”的代码以引用您的代码。
描述目标平台的寄存器。使用TableGen从RegisterInfo.td文件生成定义寄存器、寄存器别名和寄存器组的代码。还可能需要为TargetRegisterInfo的子类编写代码，这些代码代用于支持寄存器的分配以及描述寄存器间的约束。
描述目标平台的指令集。使用TableGen从TargetInstrFormats.td和TargetInstrInfo.td文件生成描述目标平台的指令集的代码。您可能需要手动为TargetInstrInfo的子类编写代码，以描述目标平台支持的某些特殊指令。
描述指令选择规则，该过程将LLVM IR的有向无环图（DAG）表示转换到目标平台原生指令表示。使用TableGen根据TargetInstrInfo.td文件从定义的模式来生成支持指令选择的代码，有时需要手动为XXXISelDAGToDAG.cpp编写代码来完成DAG-to-DAG的转换，有时还需要手动为XXXISelLowering.cpp文件编写代码来替换不被SelectionDAG原生支持的操作和数据类型。
编写汇编生成器，汇编生成器将LLVM IR转换为目标计算机的GAS格式。你需要在TargetInstrInfo.td文件中增加assembly strings。同时还需要实现AsmPrinter的子类以及TargetAsmInfo的子类，来实现LLVM IR到汇编的转换。
（可选）添加对子平台(具有不同功能的变体)的支持。实现TargetSubtarget的子类，该类允许您使用-mcpu=和-mattr=命令行选项。
（可选）添加JIT支持并创建机器码发射器(TargetJITInfo的子类)，它用于直接将二进制代码发送到内存中。

在.cpp和.h文件中，首先为这些方法建立占位，然后在以后实现它们。最初，您可能不知道这些类需要哪些私有成员，哪些类需要子类化。

准备工作

要创建实际的编译器后端，您需要创建和修改一些文件。这里只讨论必须的操作。但是要实际使用LLVM的目标独立代码生成器，您必须执行LLVM Target-Independent Code Generator中描述的步骤。

首先，您应该在lib/Target目录下创建一个子目录来保存与您的目标相关的所有文件。如果目标名为“Dummy”，则创建lib/target/Dummy目录。

在这个新目录中，创建文件CMakeLists.txt。最简单的方法是复制另一个目标的CMakeLists.txt文件并对其进行修改。它至少应该指定LLVM_TARGET_DEFINITIONS变量。这个库可以作为一个整体命名为LLVMDummy(参见MIPS后端)。也可以将库拆分为LLVMDummyAsmPrinter和LLVMDummyAsmPrinter，后者应该在lib/Target/Dummy的子目录中实现(参见PowerPC后端)。

注意，这两个命名方案都被硬编码到llvm-config中。使用任何其他命名方案都会迷惑llvm-config，并在链接llc时产生许多(看起来不相关的)链接器错误。

要使您的后端能执行实际的工作，您需要实现TargetMachine的子类。这个实现通常位于文件lib/Target/DummyTargetMachine.cpp中， lib/Target目录中的其它文件也应该被正确实现。要使用LLVM的目标独立代码生成器，您应该像所有机器后端一样：创建LLVMTargetMachine的子类。（要从头开始创建目标，请创建TargetMachine的子类。）

要让LLVM真正构建并链接你的后端，你需要用-DLLVM_EXPERIMENTAL_TARGETS_TO_BUILD=Dummy命令运行cmake。这将构建您的后端，而不需要将其添加到后端的列表中。

后端到达稳定版后，可以将其添加到位于主CMakeLists.txt文件的LLVM_ALL_TARGETS变量中。

二目标机器

LLVMTargetMachine被设计成实现了目标无关代码生成器的目标的基类。 LLVMTargetMachine类特化为实现了各种虚拟方法的具体目标类。 LLVMTargetMachine在include/llvm/target/TargetMachine.h中定义为TargetMachine的子类。 TargetMachine类(TargetMachine.cpp)还负责处理许多命令行选项。

要为特定的目标创建LLVMTargetMachine的子类，首先要复制现有的TargetMachine类的类文件和头文件。您应该修改您创建的文件的文件名以反映能该目标。例如，对于SPARC，将文件命名为SparcTargetMachine.h和SparcTargetMachine.cpp。

对于目标机器XXX， XXXTargetMachine必须实现一系列用于获取后端组件的对象的方法。这些方法被命名为get * Info，这些方法可以获取指令集(getInstrInfo)、寄存器(getRegisterInfo)、堆栈布局(getFrameInfo)等信息。 XXXTargetMachine还必须实现getDataLayout方法，以访问数据特征(如数据类型大小和对齐要求)对象。

例如，对于SPARC目标，头文件SparcTargetMachine.h声明了get*Info和getDataLayout等方法的原型，这些方法的返回值都是SparcTargetMachine类的成员变量。

namespace llvm {

class Module;

class SparcTargetMachine : public LLVMTargetMachine {
  const DataLayout DataLayout;       // Calculates type size & alignment
  SparcSubtarget Subtarget;
  SparcInstrInfo InstrInfo;
  TargetFrameInfo FrameInfo;

protected:
  virtual const TargetAsmInfo *createTargetAsmInfo() const;

public:
  SparcTargetMachine(const Module &M, const std::string &FS);

  virtual const SparcInstrInfo *getInstrInfo() const {return &InstrInfo; }
  virtual const TargetFrameInfo *getFrameInfo() const {return &FrameInfo; }
  virtual const TargetSubtarget *getSubtargetImpl() const{return &Subtarget; }
  virtual const TargetRegisterInfo *getRegisterInfo() const {
    return &InstrInfo.getRegisterInfo();
  }
  virtual const DataLayout *getDataLayout() const { return &DataLayout; }
  static unsigned getModuleMatchQuality(const Module &M);

  // Pass Pipeline Configuration
  virtual bool addInstSelector(PassManagerBase &PM, bool Fast);
  virtual bool addPreEmitPass(PassManagerBase &PM, bool Fast);
};

} // end namespace llvm

getInstrInfo()
getRegisterInfo()
getFrameInfo()
getDataLayout()
getSubtargetImpl()

对于某些目标，还需要支持以下方法：

getTargetLowering()
getJITInfo()

有些体系结构（如gpu）不支持跳转到任意位置，使用屏蔽执行来实现分支，使用包裹循环体的特殊指令来实现循环。为了避免CFG修改引入不可还原的控制流，而这些控制流又不被硬件支持，目标必须在初始化时调用setRequiresStructuredCFG(true)。

此外，XXXTargetMachine构造函数应该指定一个TargetDescription字符串，该字符串确定目标机器的数据布局，包括指针大小、对齐方式和端序等特征。例如，SparcTargetMachine的构造函数包含以下内容:

SparcTargetMachine::SparcTargetMachine(const Module &M, const std::string &FS)
  : DataLayout("E-p:32:32-f128:128:128"),
    Subtarget(M, FS), InstrInfo(Subtarget),
    FrameInfo(TargetFrameInfo::StackGrowsDown, 8, 0) {
}

连字符分隔TargetDescription字符串的各个部分。

字符串中的大写’e’表示目标数据模型是big-endian，小写’e’表示little-endian。
“p:”后面跟着指针信息:大小、ABI对齐和首选对齐。如果”p:“后面只有两个数字，那么第一个值是指针大小，第二个值是ABI和首选对齐方式。
然后是表示数字类型对齐的字母：“i”、“f”、“v”或“a”（对应于整数、浮点、向量或聚合）。“i”、“v”或“a”后跟ABI对齐和首选对齐。“f”后跟三个值：第一个值表示长双精度的大小，然后是ABI对齐，然后是ABI首选对齐。

三目标注册

您还必须向TargetRegistry注册您的目标，这是其他LLVM工具在运行时查找和使用您的目标的工具。 TargetRegistry可以直接使用，但是对于大多数目标来说，有一些辅助模板可以帮助您完成工作。

所有目标应该声明一个全局Target对象，用于在注册期间表示目标。然后，在目标的TargetInfo库中，目标应该定义该对象并使用RegisterTarget模板注册目标。例如，Sparc注册代码如下:

Target llvm::getTheSparcTarget();

extern "C" void LLVMInitializeSparcTargetInfo() {
  RegisterTarget<Triple::sparc, /*HasJIT=*/false>
    X(getTheSparcTarget(), "sparc", "Sparc");
}

这允许TargetRegistry按名称或按目标三元组查找目标。此外，大多数目标还将注册在单独的库中可用的其他特性。这些注册步骤是分开的，因为有些客户可能希望只链接目标的某些部分–例如， JIT代码生成器不需要使用汇编打印机。下面是一个注册Sparc汇编输出器的例子:

extern "C" void LLVMInitializeSparcAsmPrinter() {
  RegisterAsmPrinter X(getTheSparcTarget());
}

更多信息, 请参照“llvm/Target/TargetRegistry.h”.

四寄存器和寄存器组

（译注：本节及后文将原文中Register Set译为寄存器集合，将Register Class根据原文的含义译为寄存器组或Register类。）

您需要创建一个具体的寄存器描述类，这个类称为XXXRegisterInfo(其中XXX是平台标识符)，它描述了寄存器间的约束并为寄存器分配器提供必要的信息。

您还需要定义寄存器组来对相关寄存器进行分类。同一寄存器组的寄存器可以被某些指令以相同的方式使用。典型的例子是用于整数、浮点或向量的寄存器组。寄存器分配器允许指令以类似的方式使用同一寄存器组中的任何寄存器。寄存器分配器先给指令分配虚拟寄存器，然后会在寄存器分配阶段分配物理寄存器。

描述寄存器的大部分代码，包括寄存器定义、寄存器别名和寄存器组，都可以由TableGen工具自动生成。TableGen会根据开发者编写的xxxRegisterinfo.td文件，生成XXXGenRegisterInfo.h.inc和XXXGenRegisterInfo.inc文件。XXXRegisterInfo的实现过程中的一些代码需要手工编码。

4.1 定义寄存器

XXXRegisterinfo.td文件通常以目标机器的寄存器定义开始。Register类(在Target.td中定义)用于为每个寄存器定义一个对象。字符串n就是寄存器的名称。基本的Register对象不包含子寄存器，也没有指定别名。

class Register<string n> {
  string Namespace = "";
  string AsmName = n;
  string Name = n;
  int SpillSize = 0;
  int SpillAlignment = 0;
  list<Register> Aliases = [];
  list<Register> SubRegs = [];
  list<int> DwarfNumbers = [];
}

例如，X86RegisterInfo.td文件使用Register类定义寄存器。比如：

def AL : Register<"AL">, DwarfRegNum<[0, 0, 0]>;

这行代码定义了寄存器AL并使用DwarfRegNum为其赋值，gcc，gdb或其他调试信息工具用该值来识别寄存器。对于AL寄存器来说，DwarfRegNum使用了一个由3个值组成的数组，用来表示3 种不同的模式：第一个值是用于X86-64，第二个值用于X86-32中的异常处理（exception handling），第三个是通用值。-1表示gcc的值未定义，-2表示寄存器在该模式下是非法的。

根据X86RegisterInfo.td文件的描述，TableGen会在X86GenRegisterInfo.inc文件中生成以下代码：

static const unsigned GR8[] = { X86::AL, ... };

const unsigned AL_AliasSet[] = { X86::AX, X86::EAX, X86::RAX, 0 };

const TargetRegisterDesc RegisterDescriptors[] = {
  ...
{ "AL", "AL", AL_AliasSet, Empty_SubRegsSet, Empty_SubRegsSet, AL_SuperRegsSet }, ...

根据register info文件，TableGen为每个寄存器生成一个TargetRegisterDesc对象。TargetRegisterDesc在include/llvm/Target/Target.h中被定义，包含以下字段：

struct TargetRegisterDesc {
  const char     *AsmName;      // Assembly language name for the register
  const char     *Name;         // Printable name for the reg (for debugging)
  const unsigned *AliasSet;     // Register Alias Set
  const unsigned *SubRegs;      // Sub-register set
  const unsigned *ImmSubRegs;   // Immediate sub-register set
  const unsigned *SuperRegs;    // Super-register set
};

TableGen使用名称(TargetRegisterDesc的AsmName和Name字段)以及寄存器间的关系(TargetRegisterDesc的其他字段)来定义寄存器。在这个示例中，寄存器“AX”、“ EAX”和“RAX”为彼此的别名，TableGen为这个寄存器别名集生成一个以null结尾的数组(AL_aliasset)。

Register类通常用作更复杂类的基类。在Target.td中，Register类是RegisterWithSubRegs类的基类，该类用于定义需要在SubRegs列表中指定子寄存器的寄存器，如下所示

class RegisterWithSubRegs<string n, list<Register> subregs> : Register<n> {
  let SubRegs = subregs;
}

SparcRegisterInfo.td为SPARC定义了额外的寄存器类：register类的子类SparcReg和其进一步的子类：Ri、Rf和Rd。SPARC的寄存器由5位ID号标识，这是这些子类的一个共同特性。“let”表达式可以覆盖最初在父类中定义的值（例如Rd类中的subgros字段）。

class SparcReg<string n> : Register<n> {
  field bits<5> Num;
  let Namespace = "SP";
}
// Ri - 32-bit integer registers
class Ri<bits<5> num, string n> :
SparcReg<n> {
  let Num = num;
}
// Rf - 32-bit floating-point registers
class Rf<bits<5> num, string n> :
SparcReg<n> {
  let Num = num;
}
// Rd - Slots in the FP register file for 64-bit floating-point values.
class Rd<bits<5> num, string n, list<Register> subregs> : SparcReg<n> {
  let Num = num;
  let SubRegs = subregs;
}

SparcRegisterInfo.td文件利用Register类的子类来定义寄存器，例如

def G0 : Ri< 0, "G0">, DwarfRegNum<[0]>;
def G1 : Ri< 1, "G1">, DwarfRegNum<[1]>;
...
def F0 : Rf< 0, "F0">, DwarfRegNum<[32]>;
def F1 : Rf< 1, "F1">, DwarfRegNum<[33]>;
...
def D0 : Rd< 0, "F0", [F0, F1]>, DwarfRegNum<[32]>;
def D1 : Rd< 2, "F2", [F2, F3]>, DwarfRegNum<[34]>;

上面显示的最后两个寄存器(D0和D1)是双精度浮点寄存器，它们是单精度浮点子寄存器对的别名。除了别名之外，子寄存器和父寄存器的关系也定义在TargetRegisterDesc的某些字段中。

4.2 定义寄存器组

RegisterClass类（在Target.td中指定）用于定义一个对象，该对象表示一组相关的寄存器，还定义了寄存器的默认分配顺序。使用Target.td的目标描述文件XXXRegisterInfo.td可以使用以下类构造寄存器组：

class RegisterClass
list regTypes, int alignment, dag regList> {
  string Namespace = namespace;
  list RegTypes = regTypes;
  int Size = 0;  // spill size, in bits; zero lets tblgen pick the size
  int Alignment = alignment;

  // CopyCost is the cost of copying a value between two registers
  // default value 1 means a single instruction
  // A negative value means copying is extremely expensive or impossible
  int CopyCost = 1;
  dag MemberList = regList;

  // for register classes that are subregisters of this class
  list SubRegClassList = [];

  code MethodProtos = [{}];  // to insert arbitrary code
  code MethodBodies = [{}];
}

要定义RegisterClass，请使用以下4个参数:

第一个参数定义了命名空间的名称。
第二个参数是寄存器类型的列表，寄存器的类型定义在文件include/llvm/CodeGen/ValueTypes.td中。已定义的值包括整数类型(i16、i32和i1(布尔值))、浮点类型(f32、f64)和向量类型(例如，v8i16表示8xi16向量)。 RegisterClass中的所有寄存器必须具有相同的ValueType，但有些寄存器可以不同的配置存储向量数据。例如，一个能够处理128位向量的寄存器也能处理16个8位整数元素，8个16位整数，4个32位整数，等等。
第三个参数指定寄存器数据在load或save时所需的对齐方式。
最后一个参数regList指定这个集合包含的寄存器。如果没有指定寄存器的分配顺序，那么regList还暗含了寄存器的分配顺序。除了简单地用(add R0，R1，...)列出寄存器之外，还可以用更高级的集合操作符。更多信息，请参见include/llvm/Target/Target.td。

在SparcRegisterInfo.td中，定义了三个RegisterClass对象：FPReg，DFPReg和IntReg。对于所有三个寄存器类，第一个参数都是使用字符串“ SP”定义名称空间。 FPRegs定义了一组32个单精度浮点寄存器（F0至F31）。 DFPRegs定义了一组16个双精度寄存器（D0-D15）。

// F0, F1, F2, ..., F31
def FPRegs : RegisterClass<"SP", [f32], 32, (sequence "F%u", 0, 31)>;

def DFPRegs : RegisterClass<"SP", [f64], 64,
                            (add D0, D1, D2, D3, D4, D5, D6, D7, D8,
                                 D9, D10, D11, D12, D13, D14, D15)>;

def IntRegs : RegisterClass<"SP", [i32], 32,
    (add L0, L1, L2, L3, L4, L5, L6, L7,
         I0, I1, I2, I3, I4, I5,
         O0, O1, O2, O3, O4, O5, O7,
         G1,
         // Non-allocatable regs:
         G2, G3, G4,
         O6,        // stack ptr
         I6,        // frame ptr
         I7,        // return address
         G0,        // constant zero
         G5, G6, G7 // reserved for kernel
    )>;

TableGen将SparcRegisterInfo.td编译成多个输出文件，这些输出文件将会被包含在您编写的其他源代码中。 SparcRegisterInfo.td被编译成SparcGenRegisterInfo.h.inc，这个文件将被包含在实现SPARC寄存器的头文件SparcRegisterInfo.h中。 SparcGenRegisterInfo.h.inc定义了一个名为SparcGenRegisterInfo的新结构，该结构继承TargetRegisterInfo，还根据预定义的寄存器集（DFPRegsClass，FPRegsClass和IntRegsClass）来指定类型。

Sparcregisterinfo.td还会生成SparcGenRegisterInfo.inc文件，它被包含在文件SparcRegisterInfo.cpp的底部，该文件用于实现Sparc的寄存器。下面只显示生成的整数寄存器和关联的寄存器集， IntRegs中寄存器的顺序同目标描述文件中IntRegs定义的顺序一致。

// IntRegs Register Class...
static const unsigned IntRegs[] = {
  SP::L0, SP::L1, SP::L2, SP::L3, SP::L4, SP::L5,
  SP::L6, SP::L7, SP::I0, SP::I1, SP::I2, SP::I3,
  SP::I4, SP::I5, SP::O0, SP::O1, SP::O2, SP::O3,
  SP::O4, SP::O5, SP::O7, SP::G1, SP::G2, SP::G3,
  SP::G4, SP::O6, SP::I6, SP::I7, SP::G0, SP::G5,
  SP::G6, SP::G7,
};

// IntRegsVTs Register Class Value Types...
static const MVT::ValueType IntRegsVTs[] = {
  MVT::i32, MVT::Other
};

namespace SP {   // Register class instances
  DFPRegsClass    DFPRegsRegClass;
  FPRegsClass     FPRegsRegClass;
  IntRegsClass    IntRegsRegClass;
...
  // IntRegs Sub-register Classes...
  static const TargetRegisterClass* const IntRegsSubRegClasses [] = {
    NULL
  };
...
  // IntRegs Super-register Classes..
  static const TargetRegisterClass* const IntRegsSuperRegClasses [] = {
    NULL
  };
...
  // IntRegs Register Class sub-classes...
  static const TargetRegisterClass* const IntRegsSubclasses [] = {
    NULL
  };
...
  // IntRegs Register Class super-classes...
  static const TargetRegisterClass* const IntRegsSuperclasses [] = {
    NULL
  };

  IntRegsClass::IntRegsClass() : TargetRegisterClass(IntRegsRegClassID,
    IntRegsVTs, IntRegsSubclasses, IntRegsSuperclasses, IntRegsSubRegClasses,
    IntRegsSuperRegClasses, 4, 4, 1, IntRegs, IntRegs + 32) {}
}

寄存器分配器将避免使用保留寄存器，并且被调用方保存的寄存器在所有易失性寄存器被使用之前都不会被使用。这通常已经足够好了，但在某些情况下，可能需要提供自定义分配命令。

4.3 实现TargetRegisterInfo的子类

最后一步是手工编写XXXRegisterInfo的部分代码，它实现了文件TargetRegisterInfo.h描述的接口（请参见TargetRegisterInfo类）。如果不实现这些接口，这些接口将返回0、NULL或false。下面是为实现SPARC而在文件SparcRegisterInfo.cpp中手工编写函数列表:

getCalleeSavedRegs —- 返回被叫方保存的寄存器列表，按被叫方所需的堆栈帧偏移量顺序。
getReservedRegs —- 返回物理寄存器索引的集合，指示特定寄存器是否不可用。
hasFP —- 返回一个布尔值，指示函数是否应具有专用的帧指针寄存器。
eliminateCallFramePseudoInstr —- 如果使用调用帧设置或销毁伪指令，则可以调用此命令来消除它们。
excludeFrameIndex – 从能使用抽象帧索引的指令中删除抽象帧索引。
emitPrologue – 在函数中插入Prologue代码。
emitEpilogue – 在函数中插入Epilogue代码。

五指令集

在代码生成的早期阶段， LLVM IR代码被转换为Selection DAG，节点是SDNode类的实例， SDNode类包含目标指令，具有操作码、操作数、类型要求和操作属性。例如，操作是否是可交换的，是否需要从内存加载数据。文件include/llvm/CodeGen/SelectionDAGNodes.h（ISD命名空间中的NodeType枚举）描述了节点的各种类型。

指令操作数映射

指令操作数名称映射

指令操作数类型

指令调度

指令关系映射

实现TargetStrInfo的子类

分支折叠与If转换

六指令选择器

选择合法化阶段

推广

展开

定制

合法的

调用约定

七装配式打印机

八子目标支持

九 JIT支持

机器码发射器

目标JIT信息

Write an LLVM Backend(零)：简介

Sun, 01 Nov 2020 10:38:38 GMT

简介

目标读者

本文档的受众是需要编写LLVM后端来为特定的硬件或软件平台生成代码的开发者。

前置知识

在阅读本文档之前，必须先阅读以下重要文档：

LLVM Language Reference Manual–LLVM汇编语言的参考手册。
The LLVM Target-Independent Code Generator– 用于将LLVM内部表示转换为指定平台的机器码的组件（类和代码生成算法）的指南。特别注意代码生成阶段：指令选择、调度和形成、基于SSA的优化、寄存器分配、Prolog/Epilog代码插入、后期机器代码优化和代码发射。
TableGen–TableGen（tblgen）应用程序的描述文档，该程序管理LLVM代码生成所需的特定信息。 TableGen能把目标描述文件（后缀.td）转换成用于代码生成的C++代码。

基本步骤

编写将LLVM IR转换为指定平台的机器码或其他语言的代码的编译器后端，需要以下步骤：

创建TargetMachine类的子类，该类描述目标计算机的特征，这一步可以参考已有后端的TargetMachine类及其头文件；例如，直接复制SparcTargetMachine.cpp和SparcTargetMachine.h但更改其文件名，并且更改引用“Sparc”的代码以引用您的代码。
描述目标平台的寄存器。使用TableGen从RegisterInfo.td文件生成定义寄存器、寄存器别名和寄存器组的代码。还可能需要为TargetRegisterInfo的子类编写代码，这些代码代用于支持寄存器的分配以及描述寄存器间的约束。
描述目标平台的指令集。使用TableGen从TargetInstrFormats.td和TargetInstrInfo.td文件生成描述目标平台的指令集的代码。您可能需要手动为TargetInstrInfo的子类编写代码，以描述目标平台支持的某些特殊指令。
描述指令选择规则，该过程将LLVM IR的有向无环图（DAG）表示转换到目标平台原生指令表示。使用TableGen根据TargetInstrInfo.td文件从定义的模式来生成支持指令选择的代码，有时需要手动为XXXISelDAGToDAG.cpp编写代码来完成DAG-to-DAG的转换，有时还需要手动为XXXISelLowering.cpp文件编写代码来替换不被SelectionDAG原生支持的操作和数据类型。
编写汇编生成器，汇编生成器将LLVM IR转换为目标计算机的GAS格式。你需要在TargetInstrInfo.td文件中增加assembly strings。同时还需要实现AsmPrinter的子类以及TargetAsmInfo的子类，来实现LLVM IR到汇编的转换。
（可选）添加对子平台(具有不同功能的变体)的支持。实现TargetSubtarget的子类，该类允许您使用-mcpu=和-mattr=命令行选项。
（可选）添加JIT支持并创建机器码发射器(TargetJITInfo的子类)，它用于直接将二进制代码发送到内存中。

在.cpp和.h文件中，首先为这些方法建立占位，然后在以后实现它们。最初，您可能不知道这些类需要哪些私有成员，哪些类需要子类化。