在上一课中,我们了解了什么是AI。这一课,我们将深入了解目前最火热的AI技术——大语言模型(Large Language Model,简称LLM)。
ChatGPT、Claude、文心一言……这些你经常听到的AI产品,底层都是大语言模型。那么,它们是如何工作的呢?
大语言模型的核心原理
大语言模型的工作原理其实可以用一句话概括:预测下一个词。
没错,就是这么简单!当你输入「今天天气」时,LLM会计算所有可能出现在后面的词的概率,比如:
- 「很好」的概率:35%
- 「不错」的概率:25%
- 「真热」的概率:15%
- 「怎么样」的概率:10%
- 其他词的概率:15%
然后它会根据这些概率选择一个词输出。这个过程会不断重复,直到生成完整的回答。
你可以把LLM想象成一个超级「文字接龙」高手——它读了几乎整个互联网的文字,所以知道什么词最可能跟在什么词后面。
为什么LLM看起来这么聪明?
既然LLM只是在「预测下一个词」,为什么它看起来能理解问题、能推理、能创作呢?
答案在于「规模」。现代LLM有三个关键特点:
- 参数多:GPT-4据说有超过1万亿个参数,每个参数就像大脑中的一个「连接」,参数越多,能学到的模式越复杂。
- 数据多:训练数据包含几乎整个互联网的文本,数以TB计。这些文本中包含了人类知识、推理方式、写作风格等各种信息。
- 算力大:用成千上万块GPU训练数月,消耗的电力相当于一个小城市。
当模型足够大、数据足够多时,一些「涌现能力」就出现了——模型开始展现出推理、创作、理解上下文等能力,即使这些能力并没有被显式地教给它。
Transformer架构简介
现代LLM都基于一种叫做「Transformer」的架构。这个架构在2017年由Google提出,它的核心创新是「自注意力机制」(Self-Attention)。
简单来说,自注意力机制让模型在处理每个词时,都能「看到」句子中的所有其他词,并判断哪些词对理解当前词更重要。
比如在句子「我去银行存钱」中,当模型处理「银行」这个词时,它会注意到「存钱」,从而理解这里的「银行」是金融机构,而不是河岸。
[图示:自注意力机制示意图]
LLM的三个训练阶段
一个完整的LLM通常需要经过三个训练阶段:
- 预训练(Pre-training):让模型阅读海量文本,学习语言的基本规律。这个阶段的目标就是「预测下一个词」。
- 监督微调(SFT):用人工编写的高质量对话数据训练模型,让它学会「对话」和「遵循指令」。这就是为什么你可以用自然语言给AI下指令。
- 人类反馈强化学习(RLHF):让人类对模型的多个回答进行排序,训练模型生成更符合人类偏好的回答。这让AI的回答更加安全、有帮助、诚实。
虽然LLM看起来很智能,但它并不真正「理解」任何东西。它只是在做非常复杂的统计预测。所以它有时会「一本正经地胡说八道」——这就是所谓的「幻觉」问题。
本课小结
- ✓大语言模型的核心原理是「预测下一个词」
- ✓LLM之所以强大,是因为有海量的参数、数据和算力
- ✓Transformer架构的自注意力机制让模型能理解上下文关系
- ✓完整的LLM训练包括预训练、监督微调、RLHF三个阶段
思考与练习
- 尝试让ChatGPT完成一个「文字接龙」,观察它是如何预测下一个词的
- 给AI一个虚假的前提,看看它会不会「一本正经地胡说八道」