分享
【技术/大模型面试常问八股】
输入“/”快速插入内容
【技术/大模型面试常问八股】
🏠
请关注up,下面大部分资料在视频中有讲解
凶猛的肱二头1的个人空间-凶猛的肱二头1个人主页-哔哩哔哩视频
🛰️:
grit-h
(请备注来意,
创建了一个秋招/大模型相关群聊,大家可以互相交流,加群备注来源
)。
📍
交流群:
grit-h
(微信群超过400人添加我拉群)
大模型面试高频内容梳理
1.
【文档】
大模型理论基础学习路径(八股)
2.
【文档/视频】
大模型训练过程,激活值占用显存
3.
【文档/视频】
混合精度训练
4.
【文档/视频】
Transformer为什么需要添加position embedding
5.
【视频】
大模型面试常考问题:Linear Attention vs Normal Attention 核心概念解析_哔哩哔哩_bilibili
6.
【文档/视频】
LLM 微调 怎样选择最合适的LoRA参数
7.
【文档/视频】
训练推理加速方法
8.
【文档/视频】
Muon 优化器
9.
【视频】
秋招面试 || 大模型训练显存占用分析_哔哩哔哩_bilibili
10.
【文档/视频】
Transformer 结构思维导图
11.
【文档/视频】
大模型常见损失函数
12.
【文档/视频】
DAPO
13.
【文档/视频】
Kimi-K2 技术报告
14.
【视频】
大模型Agent 综述
15.
【文档/视频】
强化学习基础
16.
【update文档】
gpt-oss-120b & gpt-oss-20b Model Card 解读
17.
【文档/视频】
拒绝采样 Rejected Sample
18.
【文档/视频】
MLA 多头潜在注意力机制
19.
【文档/视频】
GSPO
20.
【文档】
MCP vs Functioncalling
21.
【文档】
Transformer MHA 及其变种
22.
【文档】
CoT
23.
【文档】
LoRA中矩阵初始化原理
24.
【文档】
大模型Loss计算详细过程
25.
【文档】
【agent】workflow 的agent 范式和 multi agent 范式的区别
26.
【文档】
VLLM如何动态分配KV cache
27.
【文档】
AdamW优化器
28.
【文档】
FlashAttention
29.
【文档】
RoPE 旋转位置编码
30.
【文档】
MoE架构
31.
【文档】
GAE 优势函数
32.
【文档】
Tensor Core 空泡问题
33.
【文档】
Transformer 全梳理