后摩智能杨大卫:Agent开启新的十年,云端技术将加速向端边下放

AGI
端边市场已经进入爆发“元年”,未来超过80%的数据处理都会在端边完成。

近日,A股芯片算力板块持续大涨。

广发证券研报指出,汽车电子、新能源、物联网、大数据和人工智能等领域新技术、新产品的渗透率提升和需求增长,是板块成长的重要动力。同时,国产化持续推进,Deepseek-V4的发布为国产算力带来新机遇。

而对于行业来说,新的模型、新的技术、新的场景,也在激发更多的可能性。

后摩智能商业落地与战略商务拓展、芯片算法负责人杨大卫对我们历数了近年来DeepSeek等国产大模型、“龙虾”Agent等新的技术浪潮对公司及行业的影响。

后摩智能成立于2020年,致力于依托存算一体技术,为PAD、PC、机器人等智能终端和一体机、计算盒子、工作站等智能边缘设备,打造高能效比、低功耗的AI芯片及系列硬件产品,让数千亿级参数大模型能够在边端场景实现本地高效运行。

杨大卫博士毕业于复旦大学电子与信息专业,曾就职于英国ARM、地平线等国内外知名芯片设计公司,也是业界较早探索大语言模型量化压缩和端侧部署的研究者。

他介绍称,公司在2023年底、2024年初就已着手大模型推理的软硬件研发,但彼时很多客户有所疑虑,看不清大模型在推理场景下的商业价值。

2024年底,DeepSeek发布V3,随后在2025年1月发布R1,其比肩全球顶级大模型的性能和领先业界的性价比,在全世界掀起热潮,也让大家第一次看到了国产大模型的能力与前瞻性。

“DeepSeek的发布,既验证了我们研发方向的正确性,也为公司商务团队打开了新的市场局面。”杨大卫称,主动接洽的客户明显增多,都希望基于后摩芯片部署国产大模型——市场沟通与用户教育的成本随之大幅降低。

一年多以来,国产大模型快速发展、百花齐放,能力被广泛认可,越来越多人在手机、电脑等各种设备上使用AI,云端技术也加速向端边下放。

2026年,以龙虾为标识的Agent——OpenClaw爆火,相比于大模型,这一新技术被认为让AI“有了手和脚”,能够主动完成工作,成为公司的数字员工或个人的AI助理。

今年2月,后摩智能的M50芯片完成了与“龙虾”的适配,并与合作伙伴接连推出多款Agent专用硬件,包括目前引发热议的Agent box等产品。

杨大卫将公司与DeepSeek、Agent等热潮的关系形容为“选对方向,做好自己,风自然会来”。他表示,凭借对产业趋势的提前预判与核心技术储备,叠加M50芯片本身过硬的产品能力,才能在浪潮袭来之际够抓住风口。

在他看来,“Agent元年”已经到来,而且是一个能开启未来十年的“元年”。

而这对芯片行业的影响是根本性的:让算力需求进一步爆发,推动多Agent并发和异构计算,打破软件OS生态壁垒,并让万物智能时代加速到来。而端边侧存算一体芯片所具备的低功耗、高能效特性,以及对本地化部署的天然支持,恰好契合这一趋势。

杨大卫判断称,端边市场已经进入爆发“元年”,未来超过80%的数据处理都会在端边完成。

当然,瓶颈也依然存在。比如,端侧模型的能力和主流大模型仍有差距,而行业上下游也尚未准备好,且C端对价格还比较敏感,海外垄断壁垒也依然存在。

不过,杨大卫坚信,只要方向正确,终会有所收获。

“不管外部怎么变化,做好我们该做的。等风来,自然会结果。”杨大卫表示。

后摩智能商业落地与战略商务拓展、芯片算法负责人杨大卫

后摩智能商业落地与战略商务拓展、芯片算法负责人杨大卫

以下是我们与杨大卫的对话实录,经编辑 

Q:最近的焦点是DeepSeek V4新模型想了解下,V4模型发布前,公司有做什么准备吗?

杨大卫: 从23底开始,我们已经开始在做国内外最新的大模型的适配,包括线性注意力、滑动窗口、超长上下文(256K),包括DeepSeek 的UE8M0我们也已经适配过了。

在软件生态上,针对Agent能力优化的标注工具、自动云工具链、KV Cache压缩,我们都已经有了。

大家也看到V4的一个重大变化,就是DeepSeek现在全面转向国产化适配。

实际上这是非常有意义的一件事,能够反向推动整个国产化上下游产业链协同发展。

原来国产CPU、国产GPU、国产大模型,大家各自为战,单点去对抗海外厂商,产业和技术上的差距是客观存在的。现在呢,就有了一个契机让大家联合起来了。这一步非常重要。

Q:大家都在讨论DeepSeek从英伟达的CUDA生态向国产生态迁移的事,尤其是发布前没有提前给英伟达开放权限,您觉得这对在各家芯片上跑新模型的表现差别大吗?

杨大卫:倒不至于有特别大的差别。

现在的主流大模型基本都是Transformer架构,虽然各家训练方法上有些区别,但推理侧的差别并不大。

不过,既然用了国产化平台,必然会开展针对性的优化。UE8M0、DUAL Pass这些技术,在V4发布之前就已经陆续发布了,也针对国产芯片做了深度定制。

实际上,在推理任务中,即便是英伟达生态训练出的模型,在我们的芯片上也可以获得更优性能和能效比,关键取决于芯片的核心能力与软件栈的优化能力。

Q:咱们回顾一下,去年DeepSeek V3R1出来的时候,公司主要做了哪些工作?

杨大卫: 其实我们公司在更早的时候,大约2023年底、2024年初就已经开始转型大模型推理的软硬件研发了。所以即使是当时DeepSeek横空出世引发很大反响,但对我们的技术路线和规划的影响并不大,主要影响还是在市场推广上。

2024年的时候,我们因为做得早,属于业界比较孤单的先行者。去跟客户说边端大模型推理,很多人还不相信,要么觉得大模型只有云端能跑,要么会质疑国产大模型技术。总结来说,就是沟通成本、教育用户的成本非常高。

DeepSeek V3出来之后,很多时候是客户主动找上门,会问比如“你们这个芯片能不能给我们试一试?”等等。当然,这背后也有自主可控因素的推动,例如对数据安全有需求的信创类客户需要把国产大模型用起来。

另一部分客户是真正看到了国产大模型的能力。其实除了DeepSeek,包括千问、Kimi、MiniMax、智谱等国产大模型都做得非常不错。对我们来说,这也是一个巨大的激励。国产NPU加国产CPU再加国产大模型,全国产化组合的相关产品发布明显加速了,例如联想、紫光、长城、飞腾、海光等厂商都是我们的合作伙伴。

Q:其实回头来看,从DeepSeekV3到现在的V4已经16个月左右了,期间国产大模型的发展也十分可观,这对咱们的芯片业务发展有什么影响

杨大卫: 就像我说的,我们不会受DeepSeek单一事件的影响,因为在DeepSeek爆火之前,我们就在做大模型在端侧的适配了,而且我们的存算一体技术是通用的,不会具体绑定某一个模型或算法。

像MXINT、UE8M0这些新的数据格式,我们两年前设计的芯片就能够兼容。

至于国产大模型可观的发展,对我们主要有三点帮助。

首先,它提供了基础条件。

如果国产大模型性能不行,我们芯片再好,整个产品的能力还是不够的。我们很感谢这些国产大模型在技术上的突破,让我们存算一体芯片的价值也得到了证明,坚定了我们走这条方向的正确性。

其次拓宽了市场空间。

过去,我们在客户教育上投入了大量精力。现在国产大模型的能力被广泛认可,云端技术向端边下放的速度在加快。不仅是我们这些身处一线的科技工作者在用,连文旅行业的从业者,包括一些老年人都在用豆包这类产品。手机、平板、摄像头、智能家居、汽车,这些场景都会进一步推动端边AI的渗透。

现在市场上功耗在10W量级的芯片,好像只有我们能高效运行35B的大模型,没有其他选择。值得一提的是,最近有两批海外客户专门飞到中国,想购买我们的M50做端侧AI产品。

Q:海外客户主要看重什么?能详细聊聊吗?

杨大卫: 首先,将AI 能力部署至端侧,能更好满足用户对数据隐私的核心诉求。其次,Token 使用成本高昂已成为行业共性痛点,海外市场尤为突出,单次使用即可产生高额费用。其实回到国内来看也有类似问题。此外,很多需要调用云端推理服务的AI设备,它的商业逻辑对厂商来说是矛盾的,厂商希望消费者买设备产品,但又不希望他使用,因为Token用的越多,厂商可能就亏的越多。

说回来,海外客户毕竟没有国产化的需求,他们最看重的产品能力

只有当模型参数量达到30B以上,端侧智能化水平才能逼近云端大模型。M50跑35B能有35TPS,在128K长上下文输入仍能保持近20 TPS的推理速度——这一表现已完全满足实际应用需求。与此同时,M50功耗仅10W。对端侧设备而言,续航是核心刚需;即便可以插电,大功率引入的风扇噪音也会严重拉低用户体验。

Q:其实今年最火的是OpenClaw(“龙虾”),OpenClaw在中国爆火的时候,公司是怎么跟进的?与这种Agent适配和与大模型适配,有何区别?

杨大卫: OpenClaw背后跑的也是大模型,我们一直都在赋能大模型推理加速,所以我们不是刻意去追“热点”。

我此前提到的那些需求一直都在,包括Token贵、风扇吵、显卡放不进小盒子里等等。

那现在市场上能解决好的只有我们,机会自然就会找上门来。

另外我想说一点,我们虽然是芯片公司,但AI基因比较重。相比传统芯片公司,我们一直在跟踪前沿技术趋势,甚至在某些领域是处在引领地位的。

现在看,“龙虾”确实是一个新物种,而且被证明真正能解决很多问题。从趋势上来看,我觉得Agent元年”已经到来而且是能开启未来十年的一个“元年

在这个趋势上,我们的业务也不会只局限在传统的安防、智能家居、AI PC这些场景,新物种我们都会接触。而且,存算一体芯片的低功耗、高能效优势,和本地化部署需求天然契合Agent。我们的芯片M50今年也刚好量产,都踩在点上了。所以说,运气也是实力的一部分。

Q:看来您很看好Agent的发展,您觉得这一趋势对芯片行业有什么影响?

杨大卫: Agent是一个确定性的趋势。我们从现象看本质:传统大模型更像一种高级搜索,是对话工具;Agent则是从对话工具向生产力工具转型的核心方向

我们拿人来举例,人类从小学习复杂任务,都是要拆分步骤的,学骑自行车、学羽毛球、做数学题,都需要推演、试错。Agent就像人一样,能分解任务、自主执行。传统互联网搜索是网上有什么就看别人写的答案,Agent则是自己推演。

Agent出现后,会重构人机交互模式,你可能不需要键盘鼠标屏幕了,一个语音指令,后台默默就完成了。

对芯片行业有什么影响具体来说,第一算力需求暴增。 

原来大模型是无记忆的“文字吐文字”的工具,开了新的对话窗口,它就把以前的事忘光了。而对于人来说,你同样一句话,不同的人用不同语气讲出来,感情是完全不一样的。但如果只有文字,这些感情就没了。Agent有记忆、有多步操作、有中间试错思考,对算力和上下文长度要求非常高,现在都要128K起步,这对算力的需求是极大的提升。

第二,是多Agent并发。 

可能有一个规划者,多个执行者,包括还有决策者,多个智能体并行操作,再加上多模态处理。智能机器人需要摄像头、语音对话,传到云端带宽受不了、时延也受不了。你也不希望把家里的东西都传到云端,对吧。

第三,是推动异构计算。

 CPU负责逻辑调度,NPU负责核心算力。手机厂商和汽车厂商最终都想自己做芯片,研发满足Agent本地化部署需求的方案。我们做存算一体,后续几代产品都会进一步突破性能和功耗的瓶颈。

第四,是打破生态壁垒。 

国产CPU+国产NPU+国产大模型,再加场景的协同生态,这是一个全新的格局。“龙虾”的出现,可能改变Windows垄断了几十年的局面。很多软件只能在Windows上跑,但Agent的工作方式完全不同,Linux反而更友好,不再是一个单一的生态。

最终呢,就是万物有智能。例如台灯不仅仅提供照明,还能通过多模态大模型,关注小朋友写作业时的情绪变化,实时帮助解答问题等,这些都是新的硬件形态。

Q:在您看来,最近的模型有哪些变化?对国产算力和芯片意味着什么?

杨大卫: 训练模型时会针对Agent做很多优化。比如之前需要手动选择是否开启思考模式,现在模型会根据问题难度自动判断,同时节约了Token和时间。

另外多模态能力变成了LLM内置的,这就和人一样了。

此外还有线性注意力、滑动窗口、视觉Token压缩等技术,对国产芯片通用能力和模型适配速度的挑战还是增加的。

Q:未来一段时间,您最期待哪些技术突破?

杨大卫:从私心来说,我肯定希望端侧大模型能力越来越强。

从落地看,大模型会从技术突破真正转向场景深耕垂直领域的Agent产品会大量涌现,轻量化本地化部署成为主流。端侧大模型能力会向具身智能、智能手机、AI NAS这些百万级、千万级的产品渗透。

我个人判断是,未来80%以上大模型推理都会在边端完成

当端侧能力能满足要求时,用户和企业一定选择端侧,对企业来说,像财务信息、商业客户等机密信息;个人消费者也是,都不太希望把个人照片、视频、对话等内容放到云端。

此外,还有多模态、全模态等视频、语音交互等,需要满足实时性。

当前能够实现云端大模型高效推理的企业仅有少数头部厂商,而端边侧 AI 市场将呈现百花齐放的格局,可容纳数量更多的市场参与者。甚至传统企业都能切入进来,比如玩具厂商给玩具加上AI功能,这些跨界玩法,都会大大加快端边市场的渗透速度。

Q:边端市场爆发目前最大的瓶颈是什么我们什么时候能看见明显的爆发信号

杨大卫: 我认为今年已经是元年,但瓶颈还是有的。

第一,上下游产业链尚未完全就绪。

大家之前买Mac mini跑Agent,并非是最合适的。新的产品形态需要设计生产周期,大家可以关注一下M50 Inside的各类mini盒子。

第二,端侧模型的能力和大模型还是有差距的。

我们期待边端模型真正从“能用”到“好用”,同时国产边端AI芯片也能从“能用”到“好用”。我们也希望这个领域有更多玩家进来,把生态做完善,把舞台做得更大。

第三,海外垄断的壁垒还在。

在传统的CPU领域,国产芯片与高通、英特尔在一些技术领域上确实还是有差距的。但在新赛道上,比如存算一体方面,我们有很大机会打破垄断。

就像我之前说的,不管是 DeepSeek、Openclaw还是Hermes,我们始终保持“心有明路,笃行不怠,静待花期至,自有果盈枝”,我们选对方向,做好自己,深耕核心,等风来,收获满满硕果。

本文系作者 飞向TAI空 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

扫描下载App

Baidu
map