TL;DR:
IDEA研究院讲席科学家张磊,面对AI浪潮下的行业焦虑,以其深耕基础研究的洞察力,呼吁回归计算机底层系统能力。他认为,唯有扎实的基础功,才是工程师在多变技术洪流中立足的“护城河”,并以其务实的理念,引领具身智能走向应用突破。
2024年的夏天,北京的AICon大会现场,热烈与喧嚣并存。空气中弥漫着对多模态智能体、具身智能的无限畅想,也交织着大模型时代下程序员群体的普遍焦虑——当AI都能编程了,我们该何去何从?在这样的潮汐中,IDEA研究院计算机视觉与机器人研究中心讲席科学家张磊博士,以一种沉静而务实的姿态,成为一处锚点。他没有被技术应用的狂飙突进裹挟,而是将目光投向了最深处、最本源的“底层系统能力”,这正是他眼中抵御技术浪潮冲击的“护城河”。
张磊的言谈中,没有夸张的词藻,却字字珠玑,蕴含着多年工业界顶尖研究的沉淀与对未来趋势的精准预判。他那份超越短期利益的清醒,以及对技术本质的深刻理解,使得他的观点在浮躁的AI赛道中显得尤为珍贵。
潮汐中的锚点:当应用狂奔,他选择回归本源
在张磊看来,当前整个AI领域正面临一个微妙的局面:应用发展速度惊人,而社会大众对应用落地的预期又过于乐观。这种乐观背后,往往隐藏着对技术鸿沟的忽视。他强调,研究者必须聚焦那些_具有实际应用意义的“真问题”_,而非仅为发表论文而“制造”的问题。这种务实的导向,贯穿了他从微软亚洲研究院到IDEA研究院的职业生涯。
“对于工业界研究人员,务必摒弃简单的‘论文思维’,研究目的不应仅为发表论文。”张磊的语气坚定,眼中闪烁着对“解决真问题”的执着光芒。他认为,尽管论文是博士生阶段必要的训练,但在更长远的职业发展中,研究的核心目标始终应当是解决实际问题。这种理念的形成,源于他在工业界长期浸润的经验。在微软亚洲研究院的十多年,他亲身体验了研究成果被产品团队采纳所带来的巨大满足感。对他而言,这才是研究价值的最高认可。
“右上角”的哲学:在探索与落地间寻求平衡
张磊为工业界研究人员构建了一个独特的“坐标系”:横轴代表研究价值,纵轴代表应用价值。他理想中的工作,是位于“右上角”——即_兼具研究与应用价值的项目_,而最应避免的,则是既无研究价值也无应用价值的“左下角”。这种“右上角”的哲学,是他指导团队、评估工作价值的核心准则。
“有些问题可以通过简单的工程方法解决,而另一些问题则没有现成的方法可用,必须通过研究创新来突破。”他解释道,这种创新并非为了研究而研究,而是在面对实际难题时自然产生的探索。他以团队长期深耕的目标检测为例,即便在大模型“似乎解决了一切”的今天,他们依然坚持不懈。“我们深知,要实现真正通用的检测与感知系统,依然面临巨大挑战。一旦突破,它将带来广泛的应用价值。”这种对问题本质的深刻理解与解决问题的强烈动机,是他和团队坚持不懈的动力源泉。
然而,研究与产品之间并非总是一帆风顺的结合。产品开发通常以季度为单位,强调快速交付;而基础研究,尤其是身处“无人区”的探索,则难以设定严格的时间表。张磊深知,“将这两种人员强行混合在同一团队,往往会带来很大的痛苦,尤其是对研究人员来说更是如此。”他的管理智慧在于理解并尊重这两种截然不同的节奏。他致力于提供一个更开放的环境,激发研究者内在的驱动力,而非通过严苛的指标束缚他们,同时确保研究不脱离现实,避免陷入“象牙塔”。OpenAI从自由发散式研究(GPT-1、GPT-2)到工程导向型攻关(GPT系列),在他看来,正是平衡研究与产品节奏的范例。
具身智能的未竟之旅:从视觉“鸿沟”到半结构化“蹊径”
张磊团队的核心研究方向之一是具身智能,尤其是机器人领域的视觉理解。他坦言,在智能体实现“看懂、想透、做好”的过程中,视觉的复杂性是常被忽视但至关重要的挑战。他用一个生动的比喻来阐释:“人类大脑中有 50% 的皮层区域用于处理视觉信息,因此如果要为机器人构建‘大脑’,那么一半的工作应该围绕视觉展开。”1
他进一步指出,视觉的输入维度极高,涉及对三维结构的理解和与物体交互相关的通用知识。这些能力远超纯粹视觉范畴,需要综合知识的支持。他承认,尽管团队在物体层面的理解上取得了进展,但距离将视觉理解与机器人有效连接起来的目标,仍有大量工作要做。
当前,许多研究者关注的“空间智能”,在张磊看来,对机器人而言更是“至关重要”的核心能力。“设想机器人身处环境:首先需识别周围物体,其次判断物体距离,还需理解其结构形状以规划抓取方式。每一步都依赖强大的视觉理解能力。”他指出,当前视觉-语言-行动(VLA)模型的成功率不尽如人意,症结便在于缺乏对画面的深入理解和精确定位。即使抓取成功率达到99%,在对可靠性要求极高的家庭场景中,也可能导致用户退货。
在具体的应用突破口上,张磊展现了其一贯的务实主义。他认为,要实现规模化落地,模型的通用能力和精准度必须达到高水平。目前最具可行性的路径,是从“结构化”环境走向“半结构化”环境。例如,汽车生产线的上下料环节,传统方法难以胜任,但一旦机器人进入这些场景,即使效率暂不及人类,也能通过闭环迭代不断优化。“这种在实际应用中进行闭环迭代的方式,是十分难得的机会。通过真实场景驱动,技术将获得有价值的进展。”他预见,真正通用化、进入如家庭般开放场景的机器人,可能还需要超过5年的时间。
穿越焦虑:面向未来的底层智慧
AI编程的冲击,无疑给程序员群体带来了前所未有的焦虑。张磊深知这份焦虑,尤其是在与团队中年轻成员交流时,他常听到他们担忧“没接触大模型,会不会被淘汰?”他的回答,是穿越焦虑的一剂良方:回归底层。
“如果是我在为大模型团队挑人,我一定不会优先看他有没有大模型调参经验,而是看他是否具备扎实的计算机基础能力。”他强调,这些基础能力包括对操作系统、体系结构、分布式系统的理解。在大模型训练中,真正的挑战并非模型调参,而是如何让“上千张 GPU 卡联合起来训练,并确保系统稳定、不卡顿”。此时,对并行计算的掌握变得至关重要。
他生动地举例说明了底层能力的价值:FlashAttention的优化,其背后并非高深的数学,而是作者对Transformer计算过程和GPU架构特性的深刻理解,利用GPU L1 cache提高了2到3倍的计算效率。“这种非常基础的优化,对整个领域的推动反而更大。”1 又如DeepSeek的突破性成果,张磊直言,它们“背后几乎都是系统级的突破”,要求研究者对系统架构有非常深入的理解。
因此,他对年轻人的恳切建议是:“不要停留在‘调参侠’或‘炼丹侠’层面——仅修改参数、运行实验,而要去思考这些实验背后的原理。”他鼓励年轻人无论当前从事何种工作,都要专注于把基础打牢。扎实的代码能力和系统理解,才是未来AI时代最稀缺、最宝贵的能力。
对于即将选择专业的学子,张磊的建议同样指向本源:“优先选择基础学科专业,例如计算机科学。避免过早选择过于偏重应用的专业,因为应用方向会随时间变迁。”他坚信,计算机领域自五六十年代发展至今,其底层逻辑如CPU/GPU架构设计、操作系统原理,历经多轮迭代依然稳固。深入理解这些基础,才能走得更远。
面对AI编程能力的飞速发展,他认为其主要冲击的是从事基础编码工作的普通程序员。未来的要求是成为更出色的程序员,能力需超越AI。“AI应该成为我们的辅助工具,帮助我们编程,而不是取代我们。” 张磊的话语,如同在迷雾中点亮的一盏灯塔,指引着后来者在波诡云谲的AI浪潮中,找到那份稳固而持久的价值。他所描绘的“护城河”,并非遥不可及的技术高塔,而是对知识的敬畏、对本质的深究,以及在浮华世界中回归扎实、坚韧的内心。