大模型（一） | 无尽灯舍

Table of Contents

大模型是什么？

大模型是大语言模型（Large Language Model, LLM）的简称，基于海量数据和庞大参数规模得到的机器学习模型，能够理解和生成自然语言和代码等内容。

大模型有什么核心特点？

大模型的核心特点是参数规模大、通用性强、上下文理解。

大模型的参数规模在十亿到万亿量级，比如GPT-4有1.8万亿。有些模型参数会带在名字里，比如Qwen-72B指的是千问通用大模型的720亿参数的版本。

大模型的通用性在于任务无关性、小样本学习和多模态能力。大模型预训练学习广泛的知识，可以适用于多种任务，问答、翻译、编程等。大模型无需额外训练，仅通过示例就可以执行新任务。多模态大模型可以同时处理文本、图像、语音等输入。

大模型支持长文本交互，能结合上下文生成连贯的回答。大模型能识别上下文代词的指代以及省略，维持主题避免重复或矛盾，提取分散在多段落中的关键信息。大模型的上下文理解能力得益于注意力机制和位置编码，但也有长程衰减的特点，注意力权重下降。上下文有窗口限制，比如GPT-4支持128K个token，超出会被丢弃。

大模型的局限性体现在幻觉、数据偏见和算力要求高。幻觉是在上下文模糊的情况下产生的一种虚构内容的现象。训练数据中如果有偏见那么大模型也会产生偏见。目前训练和部署都需要大量的GPU资源。

大模型有哪些应用场景呢？

大模型凭借其强大的语义理解和生成能力，将会影响到各行各业的创新和协作，就目前看，主要是以下四个大类：

自然语言处理：知识问答／智能客服、机器翻译、情感分析，可结合语音处理的技术提供更贴近生活的用户体验
代码生成和辅助：代码补全、文件编辑、代码生成、代码理解和转换、注释生成、测试用例生成、错误修复、设计建议，可通过代理调用其他服务扩展大模型的能力
内容创作：营销文案、广告创意、新闻快讯、剧本大纲、字幕生成、编辑校对、文字润色，可结合图像、语音、视频处理的技术生成多模态的内容
分析诊断：疾病辅助诊断、辅助数学证明、科研论文阅读、智能顾问、自适应学习、合规审查、风险分析

大模型有哪些核心能力呢？

GPT-5直接给出了16项能力（Capability），是DeepSeek给出的两倍，看上去也不太好说哪个就能包含或者推导出另一个，难以剔除，只能进行分层（Level）和分组（Group），GPT-5给出的结果基本没有太多可挑剔的，它直接对能力分了七层和六组，不过我还是觉得太多了，索性让它把六组做了分层，它给出了三个方案，我选择了大小适中的方案介绍。

四个分层是

L1: 表示与变换
L2: 推理与决策
L3: 编排与行动
L4: 治理与保障

四层中，前三层的关系是上一层是下一层的基础，而第四层需要贯穿整个三层。六个分组是

G1: 语言与表示
G2: 语义变换
G3: 认知推理
G4: 交互控制
G5: 外界接入与行动
G6: 治理与保障

六个分组到四个层的归属关系是这样的：

L1: G1, G2
L2: G3
L3: G4, G5
L4: G6

详细来看看16项能力的描述和示例。

C1: 语言理解（NLU）- 读懂意图、上下文、指代、情感、语义相似度；意图识别、问答、分类、相似句召回
C2: 语言生成（NLG）- 连贯生成与风格控制、改写；邮件/文案撰写、语气转换、SEO内容
C3: 翻译与跨语言 – 多语互译、术语一致、语域迁移；技术文档本地化、多语客服
C4: 长上下文与记忆 – 超长文档处理与跨段一致性；长合同问答、项目历史跟进
C5: 多模态理解与生成 – 图像/音频/视频/表格理解与描述；图表解读、截图问答、图像说明
C6: 信息抽取与结构化 – 实体/关系抽取、要点表格化；合同要点提取、舆情三元组抽取
C7: 摘要与压缩 – 多粒度总结、对比摘要、主题归纳；会议纪要、论文速览、新闻汇编
C8: 推理与规划 – 常识/因果/数学推理，任务分解与计划；解题思路、行程规划、流程优化
C9: 数据分析与轻量可视化 – 描述统计、趋势洞察、异常解读；报表解读、A/B结果解释
C10: 指令跟随与对话管理 – 按自然语言步骤执行，保持多轮上下文；流程性任务执行、对话机器人
C11: 个性化与风格控制 – 角色设定、语气/长度/格式可控；法律/学术风格、对话式教程
C12: 检索与知识增强（RAG）- 结合外部文档检索提升事实性与时效；企业知识库问答、条文引用
C13: 工具使用（函数与插件调用）- 调用API/数据库/计算器/浏览器等；下单、查库存、运行SQL、网页查证
C14: 代码能力 – 生成、重构、补全、调试、解释；API示例、单测补全、错误定位
C15: 代理与自动化 – 拆解-执行-回顾的自主循环；竞品调研到成稿的一体化执行
C16: 安全与可控性 – 敏感识别、合规约束、审计可追踪；内容审核、PII识别、策略对齐

它给的示例中，大部分我还都知道是什么内容，像语域迁移、舆情三元组、PII识别的概念都是头次听说，它的知识储备的确让人类的个体望尘莫及啊。最后，16项能力到六个分组的归属关系是这样的：

G1: C1, C2, C3, C4, C5
G2: C6, C7
G3: C8, C9
G4: C10, C11
G5: C12, C13, C14, C15
G6: C16

大模型能力的评价维度有哪些？

大模型训练和推理过程中都需要指标去评价，从而帮人去认识大模型的能力和能力边界，以达成选择和优化的目的。不同的阶段和方法会涉及到非常多的指标，但一般能从六个维度来看：

准确性：输出是否正确、与证据一致、逻辑自洽，比如语言理解和生成中分类或者选择的准确率、推理和数学问题解答的正确率、知识生成的幻觉率、代码测试用例的通过率等。
稳定性：在扰动、不同随机性、长链路下保持一致且不崩溃，比如度量决策稳定性的温度、扰动一致性评分、对抗测试输出相似度等。
时效性：对近期事实/变化的掌握与更新能力，比如近期实时回答的正确率、线上模型主题分布和训练分布漂移等。
成本与性能：服务成本与性能效率，比如首token的延时、平均token生成速率、单次推理成本、能耗比等。
安全与合规：有害内容、越权、隐私与法规风险，比如毒性内容触发率、个人身份信息泄漏率等。
用户体验：用户主观满意与交互效率，用户满意度、净推荐值、会话留存率、平均会话长度等。

大模型的局限与缓解方法？

从大模型能力的四个分层上来看局限性和缓解策略：

表示与转换：符号接地问题（Symbol Grounding Problem）是说抽象的概念与概念的符号如何能对接上真实的对象或者指代的符号。这个局限性一方面来自于多模态的表示不足，另一方面来自于大模型不具备真实世界的体验，而依赖于统计模式。从梅拉尼·米歇尔的观点看，人工智能还缺乏直觉知识，也就是人们普遍习以为常但并未被记录成文字的知识。表示不足容易造成幻觉，目前缓解的办法是通过内容对齐、检索增强、不可回答时拒答、结合知识图谱等。
推理与决策：因果推理薄弱，有长推理漂移与数学/逻辑错误。这个局限性来自于用统计的相关性代替因果逻辑。从梅拉尼·米歇尔的观点看，人工智能还缺乏抽象、类比、元认知。抽象是说通过抽取不同事物之间的共性特征而构建新的概念。类比是抽取共性的基础上进行预测。元认知是一种反思观察思维过程的过程与抽象。在大模型涌现出思维链能力后，这个局限性有所缓解，其他的缓解办法还有引入工具计算、分步验证、断言检查、规划-执行-回顾等。
外界接入与行动：物理执行缺失，感知外界变化滞后，实时交互延时。这个局限性来自于文本的符号世界与物理世界的割裂，传感器和执行器难以闭环。数据训练虽然成本高、周期长，但跟传感器和执行器的接入和演进速度来比，已经算是低成本和极快的迭代速度了。缓解办法是发展模型上下文协议（MCP）增强模型接入工具的能力。
安全保障：隐私泄漏、偏见与毒性输出、对抗攻击脆弱。这个局限性来自于安全目标的不可计算性。缓解办法是数据脱敏、价值观的统一、内容过滤、对抗性测试等。

大模型能力落地范式有哪些？

大模型落地的范式有五种：

纯生成
知识增强生成
工具与程序增强
编排与工作流
模型定制

纯生成，也就是通过提示词工程，提供少量样本参考，做结构化的生成。这种方式直接通过调用通用或者推理大模型的API，选择合适的初始化配置，结合着提示词优化就可以实现，成本较低。适合简单问答，不需要实时信息，没有特殊安全与隐私合规的需求。

知识增强生成，也就是在用户和大模型之间，加入额外的系统对用户原始请求或者大模型的答案来增强知识，从而增加大模型回复的准确性。具有代表性的是检索增强生成（RAG），通过信息检索技术，在文档库中检索相关的文档片段，作为额外的知识，一起传给大模型，来降低幻觉，提升信息的时效性。这种方式适合专业领域知识并未公开但可以内部检索的需求，还有时效新闻来不及训练的需求。

工具与程序增强，也就是让大模型具备使用外部工具和执行程序的能力，大模型作为代理人去使用工具完成任务或者补充精确计算结果。这种方式适合编程这种环境相对封闭的需求，还有简化企业内部工具使用的需求。

编排与工作流，也就是让大模型作为多个代理人角色承担计划、执行、回顾等多种任务，自动完成完整的工作流。这种方式适合自动化运营和批量报表生产。

模型定制，也就是通过指令对齐、模型微调让大模型能适应特定任务或者领域。这种方式需要额外训练，对数据规模和成本要求较高，适合法律、医疗、编程等专业领域。

大模型的原理和核心技术？

大模型的核心思想是通过海量数据+巨量参数+自监督学习实现通用智能，其原理和核心技术体现在算力、算法和数据三个方面。

算力：

张量核心与混合精度
稀疏计算技术
显存分层与内存优化
通信栈和互联硬件优化
并行分片技术
CUDA生态和编译优化
芯片液冷和动态频率调节

算法：

缩放定律与涌现能力
深度学习理论
神经网络理论
Transformer架构
向量化表示
训练扩展技术
微调对齐技术
参数压缩技术
参数调节技巧

数据：

数据规模与计算资源配比
相似文本检测去重
低质量文本过滤
文本解析与规范化
数据增强技术
打包和加载技术
数据采样与混合策略
数据治理与可观测技术