LLM 架构与计算笔记

从经典 Transformer 到现代大模型:理解信息流、矩阵规模与能耗。

GPT-3 · 2020

GPT-3 计算规模、信息流与能耗

1750 亿参数模型的前向传播、矩阵运算规模、训练 FLOPs 与实际电能消耗。

阅读文章 →
LLaMA-3 8B · 2024

现代 LLM 架构、计算规模与能耗

围绕 GQA、RoPE、SwiGLU、KV Cache 与 FlashAttention 拆解现代模型。

阅读文章 →
LLaMA-3 8B · 完整指南

LLaMA-3 8B 计算规模、信息流与能耗(完整指南)

学习者向深度指南:从 GPT-3 → LLaMA-3 逐步拆解四项关键改进(Pre-RMSNorm / GQA / RoPE / SwiGLU),附完整前向传播数值推导、KV Cache 计算、Prefill vs Decode FLOPs 与训练能耗换算。

阅读完整指南 →