LLM 架构与计算笔记

从经典 Transformer 到现代大模型：理解信息流、矩阵规模与能耗。

GPT-3 计算规模、信息流与能耗

1750 亿参数模型的前向传播、矩阵运算规模、训练 FLOPs 与实际电能消耗。

围绕 GQA、RoPE、SwiGLU、KV Cache 与 FlashAttention 拆解现代模型。

学习者向深度指南：从 GPT-3 → LLaMA-3 逐步拆解四项关键改进（Pre-RMSNorm / GQA / RoPE / SwiGLU），附完整前向传播数值推导、KV Cache 计算、Prefill vs Decode FLOPs 与训练能耗换算。