后摩智能杨大卫：Agent开启新的十年，云端技术将加速向端边下放-钛媒体官方网站

近日，A股芯片算力板块持续大涨。

广发证券研报指出，汽车电子、新能源、物联网、大数据和人工智能等领域新技术、新产品的渗透率提升和需求增长，是板块成长的重要动力。同时，国产化持续推进，Deepseek-V4的发布为国产算力带来新机遇。

而对于行业来说，新的模型、新的技术、新的场景，也在激发更多的可能性。

后摩智能商业落地与战略商务拓展、芯片算法负责人杨大卫对我们历数了近年来DeepSeek等国产大模型、“龙虾”Agent等新的技术浪潮对公司及行业的影响。

后摩智能成立于2020年，致力于依托存算一体技术，为PAD、PC、机器人等智能终端和一体机、计算盒子、工作站等智能边缘设备，打造高能效比、低功耗的AI芯片及系列硬件产品，让数千亿级参数大模型能够在边端场景实现本地高效运行。

杨大卫博士毕业于复旦大学电子与信息专业，曾就职于英国ARM、地平线等国内外知名芯片设计公司，也是业界较早探索大语言模型量化压缩和端侧部署的研究者。

他介绍称，公司在2023年底、2024年初就已着手大模型推理的软硬件研发，但彼时很多客户有所疑虑，看不清大模型在推理场景下的商业价值。

2024年底，DeepSeek发布V3，随后在2025年1月发布R1，其比肩全球顶级大模型的性能和领先业界的性价比，在全世界掀起热潮，也让大家第一次看到了国产大模型的能力与前瞻性。

“DeepSeek的发布，既验证了我们研发方向的正确性，也为公司商务团队打开了新的市场局面。”杨大卫称，主动接洽的客户明显增多，都希望基于后摩芯片部署国产大模型——市场沟通与用户教育的成本随之大幅降低。

一年多以来，国产大模型快速发展、百花齐放，能力被广泛认可，越来越多人在手机、电脑等各种设备上使用AI，云端技术也加速向端边下放。

2026年，以龙虾为标识的Agent——OpenClaw爆火，相比于大模型，这一新技术被认为让AI“有了手和脚”，能够主动完成工作，成为公司的数字员工或个人的AI助理。

今年2月，后摩智能的M50芯片完成了与“龙虾”的适配，并与合作伙伴接连推出多款Agent专用硬件，包括目前引发热议的Agent box等产品。

杨大卫将公司与DeepSeek、Agent等热潮的关系形容为“选对方向，做好自己，风自然会来”。他表示，凭借对产业趋势的提前预判与核心技术储备，叠加M50芯片本身过硬的产品能力，才能在浪潮袭来之际够抓住风口。

在他看来，“Agent元年”已经到来，而且是一个能开启未来十年的“元年”。

而这对芯片行业的影响是根本性的：让算力需求进一步爆发，推动多Agent并发和异构计算，打破软件OS生态壁垒，并让万物智能时代加速到来。而端边侧存算一体芯片所具备的低功耗、高能效特性，以及对本地化部署的天然支持，恰好契合这一趋势。

杨大卫判断称，端边市场已经进入爆发“元年”，未来超过80%的数据处理都会在端边完成。

当然，瓶颈也依然存在。比如，端侧模型的能力和主流大模型仍有差距，而行业上下游也尚未准备好，且C端对价格还比较敏感，海外垄断壁垒也依然存在。

不过，杨大卫坚信，只要方向正确，终会有所收获。

“不管外部怎么变化，做好我们该做的。等风来，自然会结果。”杨大卫表示。

后摩智能商业落地与战略商务拓展、芯片算法负责人杨大卫

以下是我们与杨大卫的对话实录，经编辑：

Q：最近的焦点是DeepSeek V4新模型，想了解下，V4模型发布前，公司有做什么准备吗？

杨大卫： 从23底开始，我们已经开始在做国内外最新的大模型的适配，包括线性注意力、滑动窗口、超长上下文（256K），包括DeepSeek 的UE8M0我们也已经适配过了。

在软件生态上，针对Agent能力优化的标注工具、自动云工具链、KV Cache压缩，我们都已经有了。

大家也看到V4的一个重大变化，就是DeepSeek现在全面转向国产化适配。

实际上这是非常有意义的一件事，能够反向推动整个国产化上下游产业链协同发展。

原来国产CPU、国产GPU、国产大模型，大家各自为战，单点去对抗海外厂商，产业和技术上的差距是客观存在的。现在呢，就有了一个契机让大家联合起来了。这一步非常重要。

Q：大家都在讨论DeepSeek从英伟达的CUDA生态向国产生态迁移的事，尤其是发布前没有提前给英伟达开放权限，您觉得这对在各家芯片上跑新模型的表现差别大吗？

杨大卫：倒不至于有特别大的差别。

现在的主流大模型基本都是Transformer架构，虽然各家训练方法上有些区别，但推理侧的差别并不大。

不过，既然用了国产化平台，必然会开展针对性的优化。UE8M0、DUAL Pass这些技术，在V4发布之前就已经陆续发布了，也针对国产芯片做了深度定制。

实际上，在推理任务中，即便是英伟达生态训练出的模型，在我们的芯片上也可以获得更优性能和能效比，关键取决于芯片的核心能力与软件栈的优化能力。

Q：咱们回顾一下，去年DeepSeek V3和R1出来的时候，公司主要做了哪些工作？

杨大卫： 其实我们公司在更早的时候，大约2023年底、2024年初就已经开始转型大模型推理的软硬件研发了。所以即使是当时DeepSeek横空出世引发很大反响，但对我们的技术路线和规划的影响并不大，主要的影响还是在市场推广上。

2024年的时候，我们因为做得早，属于业界比较孤单的先行者。去跟客户说边端大模型推理，很多人还不相信，要么觉得大模型只有云端能跑，要么会质疑国产大模型技术。总结来说，就是沟通成本、教育用户的成本非常高。

DeepSeek V3出来之后，很多时候是客户主动找上门的，会问比如“你们这个芯片能不能给我们试一试？”等等。当然，这背后也有自主可控因素的推动，例如对数据安全有需求的信创类客户需要把国产大模型用起来。

另一部分客户是真正看到了国产大模型的能力。其实除了DeepSeek，包括千问、Kimi、MiniMax、智谱等国产大模型都做得非常不错。对我们来说，这也是一个巨大的激励。国产NPU加国产CPU再加国产大模型，全国产化组合的相关产品发布明显加速了，例如联想、紫光、长城、飞腾、海光等厂商都是我们的合作伙伴。

Q：其实回头来看，从DeepSeek的V3到现在的V4已经16个月左右了，期间国产大模型的发展也十分可观，这对咱们的芯片业务发展有什么影响？

杨大卫： 就像我说的，我们不会受DeepSeek单一事件的影响，因为在DeepSeek爆火之前，我们就在做大模型在端侧的适配了，而且我们的存算一体技术是通用的，不会具体绑定某一个模型或算法。

像MXINT、UE8M0这些新的数据格式，我们两年前设计的芯片就能够兼容。

至于国产大模型可观的发展，对我们主要有三点帮助。

首先，它提供了基础条件。

如果国产大模型性能不行，我们芯片再好，整个产品的能力还是不够的。我们很感谢这些国产大模型在技术上的突破，让我们存算一体芯片的价值也得到了证明，坚定了我们走这条方向的正确性。

其次是拓宽了市场空间。

过去，我们在客户教育上投入了大量精力。现在国产大模型的能力被广泛认可，云端技术向端边下放的速度在加快。不仅是我们这些身处一线的科技工作者在用，连文旅行业的从业者，包括一些老年人都在用豆包这类产品。手机、平板、摄像头、智能家居、汽车，这些场景都会进一步推动端边AI的渗透。

现在市场上功耗在10W量级的芯片，好像只有我们能高效运行35B的大模型，没有其他选择。值得一提的是，最近有两批海外客户专门飞到中国，想购买我们的M50做端侧AI产品。

Q：海外客户主要看重什么？能详细聊聊吗？

杨大卫：首先，将AI 能力部署至端侧，能更好满足用户对数据隐私的核心诉求。其次，Token 使用成本高昂已成为行业共性痛点，海外市场尤为突出，单次使用即可产生高额费用。其实回到国内来看也有类似问题。此外，很多需要调用云端推理服务的AI设备，它的商业逻辑对厂商来说是矛盾的，厂商希望消费者买设备产品，但又不希望他使用，因为Token用的越多，厂商可能就亏的越多。

说回来，海外客户毕竟没有国产化的需求，他们最看重的就是产品能力。

只有当模型参数量达到30B以上，端侧智能化水平才能逼近云端大模型。M50跑35B能有35TPS，在128K长上下文输入仍能保持近20 TPS的推理速度——这一表现已完全满足实际应用需求。与此同时，M50功耗仅10W。对端侧设备而言，续航是核心刚需；即便可以插电，大功率引入的风扇噪音也会严重拉低用户体验。

Q：其实今年最火的是OpenClaw（“龙虾”），OpenClaw在中国爆火的时候，公司是怎么跟进的？与这种Agent适配和与大模型适配，有何区别？

杨大卫： OpenClaw背后跑的也是大模型，我们一直都在赋能大模型推理加速，所以我们不是刻意去追“热点”。

我此前提到的那些需求一直都在，包括Token贵、风扇吵、显卡放不进小盒子里等等。

那现在市场上能解决好的只有我们，机会自然就会找上门来。

另外我想说一点，我们虽然是芯片公司，但AI基因比较重。相比传统芯片公司，我们一直在跟踪前沿技术趋势，甚至在某些领域是处在引领地位的。

现在看，“龙虾”确实是一个新物种，而且被证明真正能解决很多问题。从趋势上来看，我觉得“Agent元年”已经到来，而且是能开启未来十年的一个“元年”。

在这个趋势上，我们的业务也不会只局限在传统的安防、智能家居、AI PC这些场景，新物种我们都会接触。而且，存算一体芯片的低功耗、高能效优势，和本地化部署需求天然契合Agent。我们的芯片M50今年也刚好量产，都踩在点上了。所以说，运气也是实力的一部分。

Q：看来您很看好Agent的发展，您觉得这一趋势对芯片行业有什么影响？

杨大卫： Agent是一个确定性的趋势。我们从现象看本质：传统大模型更像一种高级搜索，是对话工具；Agent则是从对话工具向生产力工具转型的核心方向。

我们拿人来举例，人类从小学习复杂任务，都是要拆分步骤的，学骑自行车、学羽毛球、做数学题，都需要推演、试错。Agent就像人一样，能分解任务、自主执行。传统互联网搜索是网上有什么就看别人写的答案，Agent则是自己推演。

Agent出现后，会重构人机交互模式，你可能不需要键盘鼠标屏幕了，一个语音指令，后台默默就完成了。

对芯片行业有什么影响，具体来说，第一是算力需求的暴增。

原来大模型是无记忆的“文字吐文字”的工具，开了新的对话窗口，它就把以前的事忘光了。而对于人来说，你同样一句话，不同的人用不同语气讲出来，感情是完全不一样的。但如果只有文字，这些感情就没了。Agent有记忆、有多步操作、有中间试错思考，对算力和上下文长度要求非常高，现在都要128K起步，这对算力的需求是极大的提升。

第二，是多Agent并发。

可能有一个规划者，多个执行者，包括还有决策者，多个智能体并行操作，再加上多模态处理。智能机器人需要摄像头、语音对话，传到云端带宽受不了、时延也受不了。你也不希望把家里的东西都传到云端，对吧。

第三，是推动异构计算。

CPU负责逻辑调度，NPU负责核心算力。手机厂商和汽车厂商最终都想自己做芯片，研发满足Agent本地化部署需求的方案。我们做存算一体，后续几代产品都会进一步突破性能和功耗的瓶颈。

第四，是打破生态壁垒。

国产CPU+国产NPU+国产大模型，再加场景的协同生态，这是一个全新的格局。“龙虾”的出现，可能改变Windows垄断了几十年的局面。很多软件只能在Windows上跑，但Agent的工作方式完全不同，Linux反而更友好，不再是一个单一的生态。

最终呢，就是万物有智能。例如台灯不仅仅提供照明，还能通过多模态大模型，关注小朋友写作业时的情绪变化，实时帮助解答问题等，这些都是新的硬件形态。

Q：在您看来，最近的模型有哪些变化？对国产算力和芯片意味着什么？

杨大卫： 训练模型时会针对Agent做很多优化。比如之前需要手动选择是否开启思考模式，现在模型会根据问题难度自动判断，同时节约了Token和时间。

另外多模态能力变成了LLM内置的，这就和人一样了。

此外还有线性注意力、滑动窗口、视觉Token压缩等技术，对国产芯片通用能力和模型适配速度的挑战还是增加的。

Q：未来一段时间，您最期待哪些技术突破？

杨大卫：从私心来说，我肯定希望端侧大模型能力越来越强。

从落地看，大模型会从技术突破真正转向场景深耕，垂直领域的Agent产品会大量涌现，轻量化本地化部署成为主流。端侧大模型能力会向具身智能、智能手机、AI NAS这些百万级、千万级的产品渗透。

我个人判断是，未来80%以上的大模型推理都会在边端完成。

当端侧能力能满足要求时，用户和企业一定选择端侧，对企业来说，像财务信息、商业客户等机密信息；个人消费者也是，都不太希望把个人照片、视频、对话等内容放到云端。

此外，还有多模态、全模态等视频、语音交互等，需要满足实时性。

当前能够实现云端大模型高效推理的企业仅有少数头部厂商，而端边侧 AI 市场将呈现百花齐放的格局，可容纳数量更多的市场参与者。甚至传统企业都能切入进来，比如玩具厂商给玩具加上AI功能，这些跨界玩法，都会大大加快端边市场的渗透速度。

Q：那边端市场爆发，目前最大的瓶颈是什么呢？我们什么时候能看见明显的爆发信号？

杨大卫： 我认为今年已经是“元年”了，但瓶颈还是有的。

第一，上下游产业链尚未完全就绪。

大家之前买Mac mini跑Agent，并非是最合适的。新的产品形态需要设计生产周期，大家可以关注一下M50 Inside的各类mini盒子。

第二，端侧模型的能力和大模型还是有差距的。

我们期待边端模型真正从“能用”到“好用”，同时国产边端AI芯片也能从“能用”到“好用”。我们也希望这个领域有更多玩家进来，把生态做完善，把舞台做得更大。

第三，海外垄断的壁垒还在。

在传统的CPU领域，国产芯片与高通、英特尔在一些技术领域上确实还是有差距的。但在新赛道上，比如存算一体方面，我们有很大机会打破垄断。

就像我之前说的，不管是 DeepSeek、Openclaw还是Hermes，我们始终保持“心有明路，笃行不怠，静待花期至，自有果盈枝”，我们选对方向，做好自己，深耕核心，等风来，收获满满硕果。

后摩智能杨大卫：Agent开启新的十年，云端技术将加速向端边下放

以下是我们与杨大卫的对话实录，经编辑：

敬原创，有钛度，得赞赏