清华大学唐杰：构建千亿参数大模型的经验及思考

2023-07-08 15:02:27来源：集微网

(资料图)

集微网报道 7月7日，在2023世界人工智能大会上，清华大学教授唐杰发表“构建千亿参数大模型之路”的主题演讲，重点介绍了大模型训练的经验及思考。

作为人工智能领域的知名专家，唐杰主持研发了ChatGLM-6B大模型，2023年5月，科技部在中关村论坛上发布的《中国人工智能大模型地图研究报告》显示 ChatGLM-6B 位列大模型开源影响力第一名。

演讲中，唐杰首先回顾了人工智能的发展历程。第一代人工智能的核心是让机器描述人类世界，于是就有了符号AI，机器描述之后，就可以做自动化处理，但这个时候它很难实现智能化；发展到第二代人工智能，就有了感知智能，它能自动识别；2016年，张钹院士提出第三代人工智能雏形，DARPA2018年发布AI Next计划，核心思路是推进数据统计与知识推理融合的计算，与脑认知机理融合的计算。而从AI发展趋势来看，计算机在经历计算、感知之后，应该向具有认知到有意识的能力发展。

发展至此，下一代的人工智能到底该长什么样？AI业界都在思考这一问题。唐杰认为，未来的人工智能应该有两件事非常重要，第一是知识图谱基础设施建设，第二是超大数据的深入学习深度理解，更重要的一点是如何把这两者结合起来。基于对人工智能发展规律及计算机技术进展的分析，早在2019年，唐杰及团队就预见到人工智能时代将很快到来。当时，唐杰及团队提出双系统理论，系统1用于直觉性思考，系统2用于推理性思考，以解决当时人工智能模型面对的挑战问题。

“我们觉得未来参照人脑认知的系统，系统1有一个超大规模的预训练模型，系统2应该有人脑的记忆机理，也就是说它解决我们现在大模型经常性的灾难性遗忘问题。”唐杰说。

从2019年开始，唐杰及团队开始进行BERT模型相关工作，但当时距离超大模型还有一定距离，到2020年决心自己来训练大模型，到2022年实现千亿模型训练。当时这几个模型的效果都还不错，但为了探索大模型的极限，唐杰及团队决定训练万亿大模型，为此找到一台海洋之光超算机。通过这台超算实现万亿模型的训练，在这台机器上，他们还探索进行了百万亿模型的训练。

不过，唐杰也表示，建议大家不要相信只要有超算机就能训练大模型。因为这里面的编程量非常大，从操作系统到算子到训练框架全部需要自己编出来，难度非常大。同时，用超算机训练大模型，成本也非常高昂。

去年唐杰团队又发布了千亿大模型，“我们也在思考，如何降低成本，如何将大模型应用起来。”唐杰说。

谈及与国外大模型的差距，唐杰表示，GPT4出来后我们确实非常震惊，事实上，我觉得我们的模型离GPT 3.5都还有一些距离，离GPT4就更远一些了，我们还需继续努力。

对于下一步规划，唐杰透露最近在研究如何让计算机拥有意识。对于大模型的未来发展，唐杰提出三点思考，一，目前的千亿模型能力已经很强大了，未来重要的是如何把它的智慧提炼发挥出来；二、大模型如何跟外界进行交互；三、如何让大模型具有反思能力，能自我反思，自我纠错，并且具有一定的价值观，具有一定的意识。

标签：

责任编辑：hnmd003