新经济导刊｜大语言模型面临的科学挑战

2024-02-29 10:23:59BY：lyw

【字体：大中小】打印

在人工智能领域，大模型已经成为当下技术发展的一个重要趋势。大模型通常是指，参数数量超过千万甚至上亿级别的深度学习模型，这些模型通过对海量数据的训练，能够拥有强大的预测和生成能力，被广泛应用于如自然语言处理、图像识别、语音合成等方面。其中，语言模型是大模型的一个重要分支，它通过对人类语言数据的训练，能够理解和生成自然语言文本。大模型的核心能力在于其能够通过预测下一个词的概率来生成文本。

《新经济导刊》2023年第9-10期合刊刊发复旦大学计算机学院教授、中国中文信息学会理事邱锡鹏的署名文章《大语言模型的科学挑战》（本文根据作者在“天津论坛2023分论坛·人工智能和科技创新范式变革”上所作的演讲整理）。文章指出，尽管大语言模型取得了显著的进步，但就技术角度而言，科研人员在开发与完善该模型时仍然面临许多挑战，而对于这些现存问题的深入探讨有助于总结其未来的发展与研究方向。

第一，目前大语言模型存在的不足。一是无法实时获取最新信息。大语言模型需要训练大量的文本数据，而这些数据往往都是过去的语料库，无法实时获取最新的信息。二是无法进行多步推理和反向推理。目前的语言模型仍然无法进行多步推理，这意味着它们无法根据一系列前提或条件推理得出结论。三是无法进行长运算。由于大语言模型是基于概率进行预测的，因此，它们给出的答案并不一定百分百准确，较长的运算容易出错。四是无法处理复杂计算和逻辑推理。大语言模型并没有接受过数学运算、逻辑推理等任务的训练，对于一些复杂的计算和逻辑推理任务往往无法胜任。五是无法承载较长的输入。如果将近千页的文档利用大语言模型进行分析，是没有办法得出结果的。

第二，大语言模型面临的科学挑战。一是模型架构。现在大模型的基础架构非常复杂，这限制了模型规模的进一步扩大。二是思维链。大模型的多步推理仍然较弱，无法将一个复杂问题拆分成几个简单问题，目前的人工智能无法生成思维链。三是数据的训练。现在的大语言模型是多阶段训练和测试的，无法根据其在训练集上的表现推测出它在测试集上的表现。四是幻觉问题。生成式模型会生成一些现实世界不存在的，或者和事实相违背的结果。五是多模态扩展。当前的语言模型还不能接受语言以外的其他模态信息，如音频、视频、图像等。六是持续学习。当人类产生的知识和数据来源不足以支撑模型训练时，该如何继续提高模型呢？七是实时学习。人工智能在与人交互的时候，是否能通过与人类的交互反馈去学习。八是智能代理。如何将“对话式”的大模型转变成类智能体，增加其使用工具的能力和规划能力，也是一个重要方面。九是自动化评价。现在还没有找到一个客观指标评价人工智能的能力，反映人类对此的真实感受。十是大模型的大众化。大模型的算力成本非常高，如何让大众在消费级显卡上使用大模型也变得非常重要。

第三，对策与建议。从目前来看，我们还不能完全解决上述这些问题，但是不妨碍以后通过工程技术的发展来解决。例如，可以通过接入搜索引擎来解决无法实时获取最新信息的问题，让其学会使用各种各样的插件，学会使用搜索引擎。此外，还有一个非常重要的问题，即如何让大模型对齐人类的价值观，这就需要人类对其进行“点赞”，对其回答质量进行打分，识别哪些是更安全、更无害的社会行为规范。通过训练某个模型，让模型不停地迭代，然后给出更好的答案。在训练模型的过程中，需要遵循三个基本原则：有用性、诚实性和无害性，通过对齐人类的价值观使得这个模型更加安全。（整理/常昌盛）