每个人都能读懂的大型语言模型工作原理(1)

简介

本文旨在帮助没有计算机科学背景的人士了解 ChatGPT 以及类似 AI 系统(GPT-3、GPT-4、Bing Chat、Bard 等)的工作原理。ChatGPT 是一个聊天机器人——一种基于大型语言模型构建的对话式 AI 。这些肯定都是术语,我们会把它们全部分解开来。在此过程中,我们将讨论其背后的核心概念。本文不需要任何技术或数学背景。我们将大量使用比喻来阐述这些概念。我们将讨论这些核心概念的工作原理,以及我们对像 ChatGPT 这样的大型语言模型的期望。

以下是我们接下来要做的事情。我们将简要介绍一些与大型语言模型和 ChatGPT 相关的术语,不使用任何专业词汇。如果必须使用专业术语,我会进行分解。我们将从最基础的“什么是人工智能”开始,逐步深入。我会尽可能多地使用一些常用的比喻。我将从我们应该期待它们做什么,以及不应该期待它们做什么的角度,来探讨这些技术的含义。

1. 什么是人工智能?

让我们从最基础的问题开始:人工智能(AI)到底是什么?

人工智能:当一个人工制造的东西,能做出看起来像人类一样“聪明”的行为时,我们就倾向于称它为“智能”。

用“智能”这个词来定义AI确实有点循环,但目前人类连“什么是真正的智能”都还没完全共识。所以这个定义虽然不完美,却很实用。核心想法是:如果一个机器做的事让你觉得有趣、有用,而且不明显傻乎乎,我们就会觉得它“聪明”。

比如,在电子游戏里,那些由电脑控制的敌人角色(NPC或Bot),我们常常直接叫它们“游戏AI”。

这些代码写得巧妙,就能让你觉得敌人“很聪明”。但一旦你看到源码,就会发现:哦,原来这么简单!

2. 什么是机器学习 (Machine Learning)

机器学习是人工智能的核心分支,其本质在于从数据中学习规律,而非单纯依赖人工指令。

  • 核心定义: 机器学习是一种通过“数据采集 → 模型构建 → 模型执行”来让计算机获得智能行为的方法。
  • 为什么需要它: 对于语言理解等高度复杂的现象,手动编写海量的逻辑规则(如 if-then-else 语句)是不现实的。机器学习通过算法自动在海量数据中挖掘模式,从而解决这些复杂问题。
  • 关于“模型”: 模型是对现实世界复杂现象的数学简化。 就像玩具汽车模型保留了真车的关键特征但不能替代真车一样,AI模型是对现实规律的模拟和近似。
  • 大型语言模型 (LLM): 所谓的“大型”是指模型参数量巨大且需要极高的内存与算力。以 GPT-3、GPT-4 为代表的现代模型,需要在数据中心通过超级计算机进行训练和运行,从而具备了惊人的语言处理能力。

3. 什么是神经网络?

从数据中学习模型,有很多种方法。神经网络就是其中最强大、最常用的一种。它最初的灵感来自人脑:无数脑细胞(神经元)互相连接,通过电信号传递信息,完成思考、决策等所有事。

神经网络的基本概念在20世纪40年代就发明了,训练它的核心方法(让它从数据中学习)则在80年代出现。但早期效率太低,直到2017年左右,电脑硬件(尤其是GPU)才强大到能真正大规模使用它。

想象你想造一辆能在高速公路上自动驾驶的车。
车的前后装了接近传感器:有物体靠近就输出1.0,没物体就0.0。
结果?信号到处乱窜,车会同时猛踩油门、猛刹车、左右狂打方向——彻底失控,一团乱麻!

这不行。我们需要控制信号流动:在连线上加电阻(让某些路径电流更难通过)和门电路(像开关:只有信号够强才放行,或者信号弱时才放大)。

执行器部分:油门(0到1.0,越高越加速)、刹车(0到1.0,越高越猛刹)、转向(-1.0左转,+1.0右转,0直行)。

你还录了很多人类驾驶数据:前方空旷→踩油门;前方有车→刹车;左边太近→右转变道(除非右边也有车)。

现在问题来了:怎么把传感器信号连到执行器上,让车做出正确反应?

最直接的办法:把每个传感器全连到每个执行器,形成一个超级密集的电路。

比如:让前方传感器信号更容易流向刹车执行器,而不是转向;或者设计门,只有前后传感器都报警时才全力刹车。

但这些电阻和门该怎么摆、怎么调?一开始没人知道,只能随机试。试一次,开车测试,看哪里做得好、哪里更糟,再随机改一改……运气好时会进步,但大多时候更乱。纯随机太慢、太低效。

这里就轮到聪明算法上场了:反向传播(backpropagation)。它像一个超级高效的“调音师”,根据实际表现和理想数据的差距,一点点微调所有电阻和门。经过成千上万甚至百万次小调整,网络行为越来越接近你的驾驶数据。

通过这些图片和电路比喻,你应该能更直观感受到,神经网络本质上就是一个超级复杂、可自动调优的“信号处理电路”,完全可解释、可复制,而不是什么神秘的黑魔法。

ai就是装聪明呗