专访唐杰:万亿参数大模型只是一个开始

2021-08-02

智源悟道团队不仅会在「大」这条路上走下去,还将对构建「神经-符号结合模型」进行更深入和底层的探索。

 

图灵写于 1950 年的论述《计算机器与智能》被誉为人工智能的开山之作,他在文中不仅提出了「机器会思考吗?」这一经典问题,还给出了著名的「图灵测试」用以判断一台机器是否拥有「智能」。

但经过详细论证,在文章趋于收尾时,他又补充说:「与其尝试制作一个程序模拟成人的大脑(mind),何不尝试制作一个模拟儿童大脑的程序呢?」

在题为「会学习的机器」(Learning Machines)这最后一小节中,图灵写道,儿童的大脑就好比刚从文具店里买来的笔记本,里面没有任何结构(mechanism),全是大量空白的表格(sheets)。从计算机科学研究者的角度看,这样的形容简直再直白不过。

三四岁的孩子已经能够举一反三,简单推理,模仿父母最细微的姿态和动作,并且知道如何通过自己的行为影响他人。而这正是人工智能研究者迫切希望其构建的AI系统所能具备的。

如今,机器学习不仅是人工智能领域研究的重点,也正在成为整个计算机科学研究的热点。2020 5 月,OpenAI 发布了无监督转化语言模型 GPT-3,其展现出的从海量未标记数据中「学习」且不限于某一特定任务的「通用」能力,让 AI 研究者看到了基于大规模预训练模型探索通用人工智能的可能。 

2021 6 月,北京智源人工智能研究院(以下简称「智源研究院」)发布「悟道2.0」巨模型,以 1.75 万亿的参数量成为迄今全球规模最大的预训练模型。不仅如此,悟道团队还基于 GPT BERT 各自在自然语言生成(NLG)和自然语言理解(NLU)任务上的优点,成功将两者融合并提出通用语言模型 GLM,将所有自然语言任务都化归为生成任务进行统一处理,GLM 也成为首个在 NLUNLGSeq2Seq、不定长填空等任务中全部登顶的语言模型。 

超大规模预训练模型是否代表了图灵所说的「会学习的机器」?不断增大的模型(以及不断增加的算力)最终能把我们带到哪里?预训练模型究竟从数据中学到了什么?未来的机器智能是否会改变我们对数据、信息、知识乃至智慧的定义?带着这些疑问,机器之心专访了智源研究院学术副院长、悟道项目负责人、清华大学计算机系教授唐杰。

智源研究院学术副院长、悟道项目负责人、清华大学教授唐杰,在 2021 北京智源大会上发布悟道 2.0。来源:智源研究院 

唐杰早先从事数据挖掘和知识工程方面的研究,他曾经不愿意也不敢相信机器智能可以超越人,但大规模预训练模型改变了他的想法;如今,他开始反问为何机器智能不可以超越人。 

唐杰表示,万亿参数大模型只是一个开始,作为一种科学上的探索,智源悟道团队将坚持在「大」这条路上走下去,探索其边界,因为他们已经在大模型上观察到了以往小模型上所不曾有过的现象。 

但他同时也指出,单靠增加训练数据量或模型参数规模不足以实现「智能」,悟道团队目前践行的「知识 数据双轮驱动」,正是尝试将知识这种符号信息与神经网络相结合,构建所谓的「神经-符号结合模型」,从而赋予机器认知能力。 

在更远期的规划中,唐杰希望让悟道模型拥有自学习的能力,以及作为一个主体与现实世界交互的能力,正如人类儿童在成长中所经历的那样。 

至于眼下,一个重点将是基于悟道 2.0 构建一个平台和生态,让企业、开发者和研究人员真正用起来——用他的话说就是「大规模预训练模型不是用来作秀的」,并根据用户的反馈优化和迭代。不过,这方面的工作将由其他团队牵头完成。 

悟道团队将持续聚焦,这也是唐杰个人的研究风格——专注、专注再专注,直到拿出严谨、可靠和有力的成果。 

他说:「更重要的是各种任务精度的提升,算法的优化,运行效率,以及对整个人工智能软件和硬件应用及架构的再考察。」 

要让机器从数据中学出所有的人类知识,现在所谓的「大数据」根本少得可怜 

深度学习常为人诟病的一点在于其不可解释性。然而,存储在人类大脑中的知识亦然,只不过我们能够借助语言进行表达。 

但即便如此,还是有很多无法用言语描述进而抽象为知识的东西。 

英国皇家结构工程师学会的某位大师曾在演讲中自嘲:「结构工程是这样一门艺术,将我们尚未充分理解的材料,做成我们无法精确分析的形状,去承受我们无法正确评估的力,以致公众没有理由怀疑我们的无知程度。」据他自己所说,每次他在演讲中提及这句话时,都能从现场观众那里得到不错的反应。果然懂的人都懂。 

很大程度上,现阶段的深度学习也是如此,大规模预训练模型确实从数据中学到了什么,但其具体过程或数理机制尚不明晰。 

在拥有 1.75 万亿参数的悟道 2.0 上,唐杰团队观察到模型不需要训练数据,可以自动从未标记的数据中学出一些人类知识,有的机器学习出的知识图谱比人工标注的质量还要好。 

「只要模型足够大,也许会达到一个奇点,不需要人类知识,机器只用数据就能学出人类有史以来所有的知识,」唐杰说:「因为人类的知识也是经过历史慢慢演化,经过案例学习和不断试错总结归纳出来的。」 

但他认为,这种纯数据驱动的方法还有很长的路要走,至少未来十年都难以见到突破。原因也很简单,就看一点,如果真要让机器从数据中学出所有的人类知识,现在所谓的「大数据」根本少得可怜——计算机发明至今也不过 70 多年,物联网数据才刚刚兴起,还有其他各种类型的数据,光是要收集那么多的数据就需要很长的时间。 

悟道团队采用「知识 数据双轮驱动」方法,因为人类知识经过高度抽象,不仅精度高且质量好,利用好了能大幅加速机器学习的过程,有效提升训练效果。 

或许有一天我们就从预训练模型中探索到类似牛顿三大定律这样的东西呢? 

不同于传统意义上的知识,存储在神经网络中的知识由模型的参数及架构决定,一般难以被人理解。 

唐杰与他在清华和智源的合作者将这种从数据中学习获取,存储于神经网络模型中的知识称之为「连续型知识」,而他们则尝试从「连续型知识的存储和管理」角度来展开对超大规模预训练模型的探索。 

换句话说,超大规模预训练模型就好比一种全新的知识库,只不过里面存储的是不能直接被人所理解的连续型知识。这些连续型知识可以像 OpenAI GPT 那样,存在一个超强的大模型里,也可以像 Google AI Switch Transformers 那样,由多个混合专家模型(MoE)合并而成。但是,这两种方法都对算力和存储提出了巨大的需求,而且无论是数据还是知识,都是在不断增加和更新的。 

对此,清华大学的研究人员提出了「通用连续型知识库」的概念。这个通用连续型知识库存储的不是模型,而是模型中的连续型知识。通过将不同模型中的连续型知识都存储在这样一个库里,一定程度上能减轻对计算和存储的负担。但这需要先把连续型知识从模型中分离出来,还涉及不同模型的连续型知识的导入和导出。因此,通用连续型知识库存储架构和接口的设计,还有各种连续型知识的融合与区分,都需要更深入的探索。 

对于超大规模预训练模型的发展,唐杰认为有三个方面值得注意。首先,算法还有很大的改进空间,包括效率的提升,如何将知识这种符号信息与神经网络相结合,构建「神经-符号结合模型」,以及如何更高效地从数据中提炼出连续型知识。 

GPT 本身是很简单的,但事实证明简单并不一定不好,或许有一天我们就从预训练模型中探索到了类似牛顿三大定律这样的东西呢?然后再把这些喂给模型,不断优化,最终实现大一统也不是没有可能。」他说。 

「虽然很多人反对这种大一统的模型架构,但算法本身是有很大探索空间的,也值得我们去探索。在牛顿三大定律出现之前,我们也在认识这个世界,后来爱因斯坦的相对论出来推翻了前者,我们又重新认识了世界,算法也是这样,会经历一个长期演化的过程,而且不一定非得达到终点才能使用。」 

二是预训练模型走向更多的应用,把信息和人、车、物等等都联系起来,尤其是加入人的动态,由此带来的复杂度和搜索空间都会指数级提升,这就要求研究人员在构建模型时考虑更多的维度。 

在更长远的未来,唐杰认为模型需要具有自学习的能力,因为人是会不断反思、不断复盘的,模型也要能够自我优化,并且作为一个主体与世界交互,通过外界的反馈不断改进和持续学习。 

悟道团队会在一直往「大」做上去,直至其边界 

从悟道 1.0 2.0,历时不到 3 个月,模型参数量增长了千倍,规模也做到了全球引领。 

有人问唐杰为什么他们能在这么短的时间内拿出这么多成果,「因为我们早就开始做了呀」,他笑着说。 

「作为一种科学研究,悟道团队会在一直往『大』做上去,直至其边界,以探索人工智能所能达到的极致。」 

不过,他认为没有必要在「大」这件事情上过分纠结。模型并非越大越好,尤其在实际应用场景,要优先考虑成本和速度,而最关键的是精度,如何用 10 亿级别的小模型在某些任务上取得更优的性能,加快实际部署,也是悟道团队当前的一个研究重点。 

对于悟道 2.0 做平台化跟产业界对接,唐杰表示大力支持,「因为大规模预训练模型不是用来作秀的,要把模型真正用起来,我们需要业界的反馈」。 

悟道 2.0 也确实在产业界引起了反响,作为一个证明,唐杰告诉机器之心:「1.0 发布的时候很多企业都在观望,今天 2.0 发布,我台上刚讲完,就有好几家公司表示愿意加入,积极性很强。」 

不过,企业也并非完全没有门槛,正如之前采访中唐杰说的那样,所有参与方都是带着资源与情怀参与到悟道项目中来,本着开源开放,合作共享的精神与理念。目前,悟道团队大约百人,对于这样一个大型科研项目而言,在人手和资源上其实并不算多。因此,应用开发和产业化落地相关的工作,将由合作企业和智源的其他团队牵头完成。 

从悟道 1.0 2.0,唐杰作为项目负责人,感受最深的地方是如今科研试错的成本更大了,因此战略布局的眼光也要更精准。例如,以前模型有了问题可以重头再来,而现在不管是时间成本还是经济成本都不允许方向性的误判。在什么阶段决定做什么也很重要,一方面是预判技术或产业的发展,另一方面是资源有限,什么都做很可能什么都做不好。 

此外,悟道 2.0 全部在国产 CPU 上完成训练,唐杰认为这也表明了超大规模预训练模型从应用层面拉动了对超算和智能计算的探索,从某种程度上补齐了我国在超算应用方面的短板,也有助于未来智能超算中心的规划和建设。 

他并不担心国内其他团队在超大规模预训练模型上的跟进,对于眼下大模型频出的状况也十分理解。「当你从事一个方向,有人跟进总比没人跟进要好,对吧?」唐杰反问说:「而且大部分的事情发展都这样,起先热一点,然后有些太过了,就自然会冷静下来,往回收一些。」 

悟道出现在北京并非偶然,「因为这里有最高的人工智能软件和硬件人才密度」,与建设超算中心一样,构建超大规模预训练模型也要因地制宜,量力而行。「要想清楚为什么做,你的条件适不适合做。」唐杰说。 

2020年,ACM SIGKDD 将「时间检验应用科学奖」授予了唐杰等人在 2008 年写的论文「ArnetMiner」。经过十几年的发展,这个最初跑在唐杰笔记本上的算法,已经成为如今的在线科技情报挖掘平台 AMiner 

接下来,唐杰将专注于超大规模预训练模型的研究,至于是否能由此实现通用人工智能,有一点可以肯定,只要我们对「通过计算能够实现智能」这个大前提没有弄错的话,剩下的应该只是时间问题。 

(转载自机器之心)

业务咨询及参观访问:0755-86576085    0755-86576086
地址:深圳市南山区桃源街道大学城社区笃学路9号
国家超级计算深圳中心(深圳云计算中心)  ©2014  粤ICP备10220126号
微信公众号