LLM 架构与计算笔记
从经典 Transformer 到现代大模型:理解信息流、矩阵规模与能耗。
GPT-3 计算规模、信息流与能耗
1750 亿参数模型的前向传播、矩阵运算规模、训练 FLOPs 与实际电能消耗。
阅读文章 → LLaMA-3 8B · 2024现代 LLM 架构、计算规模与能耗
围绕 GQA、RoPE、SwiGLU、KV Cache 与 FlashAttention 拆解现代模型。
阅读文章 → LLaMA-3 8B · 完整指南LLaMA-3 8B 计算规模、信息流与能耗(完整指南)
学习者向深度指南:从 GPT-3 → LLaMA-3 逐步拆解四项关键改进(Pre-RMSNorm / GQA / RoPE / SwiGLU),附完整前向传播数值推导、KV Cache 计算、Prefill vs Decode FLOPs 与训练能耗换算。
阅读完整指南 →