无障碍
x

全部频道

北京> 正文

清华副教授、面壁智能联合创始人刘知远:将资源与技术更优化地匹配

2025-05-06 00:22 新京报

来源标题:刘知远:将资源与技术更优化地匹配

当人工智能的浪潮席卷全球,北京正以科技创新之姿,成为AI大模型领域的战略高地。从智源研究院的“悟道”大模型问世,到“天使投资人”模式孵化顶尖学者,再到月之暗面、DeepSeek、智谱等人工智能独角兽崛起,这座城市不仅汇聚了前沿技术,更以开放生态孕育突破性成果。

如今,北京正积极打造“全球开源之都”,一大批研发机构、企业积极拥抱开源,而开源也已深入到汽车、机器人等众多行业。发展AI将是一场科技长征,新京报将深度访谈此次AI浪潮的亲历者与见证人,讲述AI竞争新格局与背后的故事。

迈入2025年,中国AI(人工智能)站上足以与美国分庭抗礼的战略制高点。这一年,刘知远已经在AI追赶的路上走了近20年。

作为清华大学副教授、面壁智能联合创始人兼首席科学家,五年前,他训练了中文预训练模型的第一个版本,而由他参与、智源研究院发布的“悟道2.0”也成为中国第一个万亿大模型。

如今,面对Deep Seek走红,刘知远表示,“2024年时,还有很多投资人问我‘你觉得中国AI跟美国比是越来越近,还是越来越远’,我的回答始终是越来越近”。DeepSeek的出现是一个强有力的信号,让人看到世界舞台上,中国的人工智能技术已经具有一席之地。

刘知远亲历了符号主义黄昏下的困惑、见证了深度学习浪潮掀翻传统范式,更是中国AI大模型创业浪潮中的深度参与者之一。在刘知远看来,Deep Seek成功的前提是具备了匹配资金和技术的“天才土壤”,这也是其带给业内的最大启示。

在接受新京报专访时,刘知远笃定,AI创业者的终极目标是奔向AG I(通用人工智能),但过程绝非坦途,并提醒市场需要更多耐心:一个投资人投了“六小虎”但没有投Deep Seek,不见得就是投错了,难道中国不允许出现10个以上的“Deep Seek”?为什么不能等一等这些潜在的“DeepSeek”成长?新京报记者 罗亦丹

启蒙

越来越近的追赶

新京报:公众知晓大语言模型主要是在ChatGPT出现之后,对于学界来说,有哪些“ChatGPT时刻”?

刘知远:ChatGPT的出现确实没有给我们带来多大“震撼”,因为我们始终在关注这一领域。在此之前,还有两个技术突破的关键节点。2018年,谷歌发布了BERT模型,它完成了模型从专用到通用的跃迁。此前,我们需要针对每一个任务去设计模型、准备数据,模型也只能做这一个任务。BERT出现后,模型可以学习文本上的所有知识,之后进行微调即可完成更多任务。

国内很多团队也发现了这件事的重要性。2018年起,我们决定将重点转向预训练模型的研究,鼓励团队成员摒弃狭隘的专有任务导向,专注于基础模型的开发。2018年底,团队推出了首个知识增强的预训练模型,命名为“ERN IE”,并于2019年初将研究成果提交至ACL(国际计算语言学学会)。有趣的是,几乎同时,百度也发布了名为“ERN IE”的预训练模型。(注:ERN IE与BERT均是美国动画片“芝麻街”中的角色)。

这一巧合甚至引起了ACL评审主席的关注,他特意发来邮件询问我们是否存在关联,以及团队是否知晓百度的工作。我们明确表示,与百度没有任何合作,也完全不知对方的研究。最终,这篇论文被录用,成为团队在预训练模型领域引用最高的研究之一。

2020年,GPT-3发布,完成了从小模型到大模型的跃迁,OpenAI使用了1万张卡(注:GPU),这让我们看到了差距,之后就催生了“悟道”大模型。

当ChatGPT出现时,我们认为国内和国外的差距差不多是一年;直到2024年9月OpenAI发布o1模型,我们认为差距缩小到半年,因为o1推出深度思考功能半年后,DeepSeek就成功进行了复现。

攻坚

既没名也没钱,遇上“天使投资人”

新京报:OpenAI训练GPT-3使用了上万张卡,那时国内有这样规模的算力资源吗?怎么解决算力的“缺口”?

刘知远:GPT-3出现后,我们觉得如果不马上跟进,差距就会越来越大。但当时国内即便是一线团队,训练资源也相对有限。GPT-3发布时,团队研究条件仅能使用单台机器,最多两三张GPU卡进行训练。

那时,我正在北京智源研究院担任青年科学家,这是北京市设立的新型研发机构,有一定资源优势,我向时任院长黄铁军提交了一份报告,详细介绍了大模型领域的发展趋势,希望能够在智源的支持下,尝试训练一个参数规模更大的模型。值得庆幸的是,智源的支持机制非常灵活,几天后就批准了申请并拨款支持,最终购置了10台配备A100GPU的机器,总投入达数百万元。利用这些资源,2020年12月,我们团队训练了CPM(中文预训练模型)的第一个版本,也让我有机会参与到大模型的浪潮之中。

新京报:智源研究院被媒体视作中国AI的“黄埔军校”,你怎么看待其对国内AI发展起到的作用?

刘知远:智源研究院是2018年时任北京市市长倡导成立的新型研发机构,其最开始设立时的理事长由来自产业界的张宏江担任,模式非常新颖,这是理念上的前瞻性,其核心是用新型方式推动人工智能加快发展。

研究院成立之后推动了智源学者项目,这跟历史上国内的任何一种项目都不同,主张激发卓越领军人物自由探索,以提升科研原始创新的概率。因此,通过“小同行评议”,层层严苛选拔,评选出中国人工智能每个重要研究方向的代表性优秀学者。与传统科研机构不同,类似投资领域中“投资就是投人”的理念,智源也成为一批顶尖人工智能学者的“天使投资人”,以更加高效灵活的方式支持面向未来的科研探索。

它相当于在青年科学家“既没名也没钱”时支持了三年,相比其他科研项目中所常见的写本子、答辩和考核等复杂操作,这种基于对人本身的信任、国内最早以人为单位进行支持的项目,理念非常先进。

出圈

通用人工智能之路非坦途

新京报:2024年,除了“AI六小虎”之外,面壁智能曾和DeepSeek一起跻身“6+2”,你怎么看待今年春天DeepSeek-R 1的火爆?

刘知远:DeepSeek的启示是,面对算力限制,通过算法创新与高效训练,也有办法做出比较好的模型,这是它的价值。

2024年时,还有很多投资人问我“你觉得中国AI跟美国比是越来越近,还是越来越远”,我的回答始终是越来越近,但很多人还是有顾虑,认为中国算力一旦被“卡脖子”,会远远赶不上。DeepSeek的出现是一个强有力的信号,让人看到世界舞台上,中国的人工智能技术已经具有一席之地。

未来,AI的发展有两大主旋律,一个是能效更高,其实就是Densing(增加密度)的过程,用更低成本训练更好的大模型;另一个就是能力更强,具备越来越强的智能水平。未来这两大方向相互作用,一起往前走。

新京报:当DeepSeek走红后,许多AI公司改变了发展方向,也有声音质疑投资者“为什么没有投中Deep-Seek”,对此你怎么看?

刘知远:DeepSeek的出现是一次考验。如果你认为大模型不是泡沫,那出现低谷时为什么要退场?低谷其实就是在让真正对大模型有坚定信心的人留下来。

AGI之路的实现不是轻而易举的,它是一次科技革命,这意味着我们不仅要经历技术上的挑战,还可能存在各种现实上的张力,一个团队可能一年之内突然有非常多的进展,也可能两年都没有太大进展,此时资本与市场的不信任能否挺住,是否有战略定力,对团队是一种考验。

2000年时,互联网极其火爆,但后来出现了互联网泡沫,导致将近10年时间计算机系招生的分数比许多其他院系差,大家觉得这个行业“没前途”了,但中国现在的许多互联网巨头,都是挺过了互联网泡沫的冬天才成长起来的。中国AI大模型行业能够做好,靠的是真正相信AGI的人,相信自己所做事情的价值,不轻易放弃。在历史的长河里,做对的事往往比较难。

新京报:DeepSeek创始人梁文锋此前从事量化投资,有声音认为相比其他初创公司,DeepSeek本身“不差钱”,这是它成功的关键因素吗?

刘知远:这其实反映了我国当前需要解决的一些问题:第一,他有理想主义,有长期AGI技术的理想。第二,他也不差钱,可以不受干扰更有定力地做事。二者兼顾让他可以把事情做得很好,而现在世界上绝大多数的人是只有钱或者只有技术,这就是风险投资存在的必要性。我觉得DeepSeek对我们最大的启示是,上面二者的结合会产生很大的“化学反应”。如果初创公司拿到资金后面临着每天的现实追问,这种状态下显然就“静不下来”。

如何把资源与技术真正做到更优化地匹配,也是我们当前面临的问题,相较而言可能美国科技创新生态更加耐心主义。一个投资人投了“六小虎”但没有投DeepSeek,不见得就是投错了,难道中国不允许出现10个以上的“DeepSeek”吗?为什么不能等一等这些潜在的“DeepSeek”成长呢?

责任编辑:张思宇(QX0007)

北京千龙新闻网络传播有限责任公司版权所有 未经千龙新闻网书面特别授权,请勿转载或建立镜像,违者依法必究新出网证(京)字013号 增值电信业务经营许可证 2-2-1-2004139 跨地区增值电信业务许可证

信息网络传播视听节目许可证0104056号 互联网新闻信息服务许可证11120180003号 京公网安备 11000002000007号

分享到: 关闭
QQ空间 新浪微博 微信 腾讯微博 QQ好友 百度首页 腾讯朋友 有道云笔记
按回车键在新窗口打开无障碍说明页面,按Ctrl+~键打开导盲模式。