灵初、穹彻、智平方、浙人形，联手投了一家具身智能"数据编译"公司｜AI Founder请回答-钛媒体官方网站

从产生创业想法到正式成立智域基石，杨哲轩、徐良威和张计业只用了一个月。

这并非仓促之举。三人的能力结构恰好形成互补，覆盖了具身智能数据赛道最核心的三类能力，底层技术架构、机器人算法理解与产业落地协同。

CEO杨哲轩曾是PingCAP早期核心成员，长期从事大规模分布式系统和底层架构设计，也有连续创业和商业化经验，负责公司整体技术路线与业务推进；CTO徐良威深耕机器人与算法领域多年，拥有从软硬件系统到具身模型训练的复合背景；COO张计业，前华为地市总经理，曾担任具身智能公司穹彻智能生态负责人，负责智域基石的行业落地与合作拓展。

三人形成共识：“随着机器人硬件、本体能力和具身模型不断进步，行业真正稀缺的，不再是拿到多少原始数据，而是把物理世界的混沌信息转化为机器人可用训练语料的能力。”

这一判断很快得到了验证。灵初智能、穹彻智能、浙江人形、智平方，四家具身智能公司几乎同时找到了他们，对其完成数千万元天使轮，并成为他们的首批客户。

未来智域基石计划在全国建立起面积超一万平方的真机数据采集工厂，工厂中机器人数量超400台、异构硬件形态超10种。专注具身智能数据，将机器人传感器采集的海量、杂乱数据，自动化地"编译"成能直接提升任务成功率的高质量训练输入。

然而具身智能的数据远比想象中复杂。

仿真数据、真机数据、第一视角数据等不同来源的数据，如何完成质检、时空对齐、语义抽取与智能检索？全量质检的成本如何控制？数据编译与自动驾驶数据清洗的本质区别是什么？带着这些问题，我们与杨哲轩、徐良威展开了一场深度对话。

以下为与杨哲轩、徐良威的对话全文，略有删减：

智客ZhiKer：为什么会决定成立一家专门做具身数据的公司？

杨哲轩：2024年，我们三个人进入具身行业后，形成一个共识的判断：当硬件、本体和算法不断进步之后，行业下一个大的浪潮将出现在具身智能数据这一细分领域。

此外，我们也观察到具身智能与大语言模型、传统视觉任务、自动驾驶存在本质差异。

机器人面对的是真实、连续、动态的物理世界，不仅要"看懂"环境，更要"做成"动作。这一过程中，数据并非单一模态或简单标签，而是跨越视觉、力觉、状态、动作、时间与空间的复合体。

因为我们认为，在物理世界、本体系统和上层模型之间，应该存在一个专门处理具身数据的新层级。智域基石要做的正是这一层级的基础设施，将海量、异构、非标准的原始数据，编译成面向任务成功率的高质量训练输入。

公司英文名ArcheBase里的 “Arche”，在希腊语里有“开始”“元初”的意思。我们想表达的是，数据不是附属环节，而是一切智能开始的起点。

智客ZhiKer：你怎么看具身智能数据公司的核心壁垒？

杨哲轩：我一直认为，这个行业真正的壁垒不在于“拿到多少原始数据”，而在于是否具备完整的数据炼化能力。

这里的“炼化”并非传统意义上的数据清洗，而是一整套围绕具身任务展开的数据工程能力，包括数据接入、质量评估、去噪、切片、时空对齐、语义抽取、动作映射、训练适配、评测反馈、私有化部署等多个环节。

具身智能最大的特点是数据天然非标准化。不同机器人本体、不同传感器、不同任务场景、不同采集方式，都会带来巨大的差异。如果没有一套系统化的方法把这些数据处理成统一、可复用、可验证的形式，那么原始数据再多，也很难稳定进入训练闭环。

智客ZhiKer：“数据编译”具体怎么做？

徐良威：我们内部把定义为，把真实场景中的非标准数据，转化为具身模型和机器人系统可直接使用的数据资产。

这件事不是单一步骤，而是一条完整的自动化管线，目前分为五个环节。

第一，数据质检。这是整个流程的入口。机器人采集的数据天然复杂，摄像头、IMU、关节状态、力控信号等都可能出现丢帧、漂移、同步误差或质量不稳定的问题。

所以原始数据进入系统后，首先要做“来料检测”，判断哪些样本满足基本要求，哪些样本需要修正，哪些不适合进入后续流程。

很多人会把“有数据”直接等同于“可训练”，但在具身场景里，未经处理的原始数据中，真正能直接进入训练闭环的比例通常是有限的。前置质检的意义，就是尽量把后续算力用在有效样本上。

第二，数据底座重构。具身数据不是单帧图片，而是连续时间序列数据。它不仅要表达“这一刻看到了什么”，还要表达“这段时间发生了什么、动作是怎么形成的”。

这时最关键的是两件事，时间对齐和空间对齐。

时间对齐解决的是不同频率传感器如何落到同一个时间基准上。比如摄像头可能是30Hz，IMU 可能是 500Hz，机器人关节状态又是另一种刷新频率。

空间对齐解决的是机器人本体、末端执行器、操作物体和环境，如何被统一到同一个物理坐标系里。

只有完成这一步，原本分散的数据流才会变成一个可计算、可关联的整体。

第三，数据编译。完成质检和时空对齐之后，数据还只是“结构化了”，但不代表“可直接训练”。所谓编译就是把底层物理信息进一步转成任务层可用特征。

以"拿起杯子"这一动作为例，不能仅停留在"左手拿起一个杯子"的语言描述层面。我们还需补充，杯子相对于桌面的空间位置、周围物体分布、抓取前后的状态变化、动作意图、接触稳定性、任务目标等信息。

此外，还有很多关键特征并不是原始数据直接给出的，而是需要从多种信号中推理出来，例如末端执行器轨迹、接触状态、动作阶段切分、任务成功与失败片段等。这些都属于“编译”过程生成的结果。

第四，智能检索与组配。当数据规模上来之后，下游客户真正需要的并非整池原始样本，而是能快速筛选出“某类任务、某类场景、某类物体、某种动作模式”的数据子集。

所以我们自研了查询引擎，希望以更接近工程语言的方式，从海量物理数据里检索技能、场景和动作片段，再按训练目标去组配数据集。

比如，仓储场景更关注货架拣选，家庭服务场景更关注厨房操作，工业场景更关注重复性工序。不同任务对数据的需求结构是完全不同的。

第五，标准化打包与弹性交付。将数据从"工程处理中间态"转化为真正可用的"成品"。这意味着数据不仅要可训练，还需可评测、可追溯、可复用，并能适配不同客户的训练栈、评测栈与部署环境。

从原料到成品的过程，如果没有标准化和弹性交付，数据就很难形成真正的商业价值。

智客ZhiKer：很多公司做的是抽检，你们为什么坚持做全量质量控制？成本如何平衡？

徐良威：首先，做质检的前提不是“看得更细”，而是“先定义清楚什么是好数据”。

不管是和合作伙伴共建数据，还是按照我们自己的标准产出数据，第一步都要先把规则说清楚，什么样的数据适合进入训练，什么样的数据只适合做评测，什么样的数据应该被剔除。

其次，质检本质上是一种计算过程，背后是数据处理与逻辑校验。我们在底层架构上采用的是云原生分布式方式，把大任务拆成更细粒度的计算单元，在更合适的资源上运行。这和很多依赖重资源、重人工的方法不一样。

再者，我们会综合使用启发式规则、大模型校验、硬件绑定和自动化调度等方式，尽可能减少人工参与。

从结果上看，全量质检不是为了“做得更重”，而是为了让整个链条更可控。

具身智能的数据一旦进入训练闭环，前面一个小问题，后面可能就会变成大成本。与其把问题留到模型阶段，不如前置解决。

智客ZhiKer：仿真数据、真机数据、第一视角数据，这些不同来源的数据都能被你们处理吗？

徐良威：从技术上来说，各类数据都可以接入统一的数据工程体系。但从价值密度来看，我们现阶段的重点是真实物理世界的数据。

因为具身智能最终要落地于真实场景。仿真数据、互联网视频、第一视角数据固然重要，但更多是承担补充、预训练或泛化增强的角色。真正决定机器人能否在现场稳定完成任务的，依然是与真实世界充分对齐的数据。

杨哲轩：真实物理数据本身也有层次之分。既包括机器人本体运行的数据，也包括人通过手持设备或第一视角设备采集的数据，还包括环境侧数据。

我们目前一方面处理基于机器人遥操作的真实数据，另一方面也在推进自研的ego-centric 设备。

原因在于，模型预训练与后训练所需的数据结构并不相同。

预训练阶段更强调广覆盖、多场景、多技能，帮助模型建立对物理世界的基础理解；后训练阶段则更聚焦特定本体、特定任务、特定场景下的闭环优化。只有前端采集足够完整，后端才能通过编译能力，将其转化为不同阶段真正需要的数据形态。

智客ZhiKer：具身模型公司和数据公司都在自研第一人称视（ego-centric）的数采集设备？这是重复造轮子吗？

杨哲轩：我觉得两者逻辑不一样。

模型公司自研设备，通常是出于模型know-how、训练配方和数据方法的保密考量，希望将核心链路掌握在自己手中，这无可厚非。数据公司做第一视角设备，出发点则是获取更完整、更稳定、更可复用的原始信息，为后续的数据编译提供充足空间。

对我们来说，设备并非终点，而是数据入口的延伸。只有在采集阶段完整记录，人在真实世界中如何感知、决策与操作的全过程，后续的数据工程才能充分开展重构、对齐、抽取与编译。

徐良威：我们看ego-centric设备有两个核心维度。

第一是本体感知的完整性。即从人的第一视角出发，尽可能记录视觉、听觉、触觉等多模态信号，以及动作执行过程中的完整反馈。

第二是环境关系的完整性。任何动作都不是孤立发生的，而是嵌入在"人—工具—物体—环境"的关系网络中。设备需要尽可能还原这种关系，而非仅捕捉局部画面。

此外，这类设备还必须满足时间同步、模态完整、佩戴舒适与长期稳定等基础条件。唯有如此，采集的数据才真正具备价值。

智客ZhiKer：你们说的数据编译和自动驾驶里的数据处理，最核心的区别是什么？

杨哲轩：我认为最本质的区别有两个。

第一，末端执行的复杂度不同。自动驾驶的控制目标相对集中，核心是方向、速度与制动；具身智能则面对更丰富的末端执行系统，如机械臂、夹爪、移动底盘乃至多自由度协同。本体状态变化更为复杂，动作空间也大得多。

第二，任务与场景的多样性更高。自动驾驶主要围绕"驾驶"这一核心任务展开，场景虽复杂，但目标相对统一；具身智能则可能覆盖家居、工业、物流、零售、康养等完全不同的场景，每个场景背后又包含大量差异化的技能、任务链路与动作模式。

因此，如果说自动驾驶更多是在相对标准化的框架内做数据工程，具身智能面对的则是一个更非标准、更开放、更具多层次耦合的数据问题。

徐良威：从技术实现来看，过去许多AI任务处理的数据类型相对单一，线性处理管道即可解决大部分问题。但具身智能不同，它同时涉及多模态信号、时间序列、空间关系与任务语义，且不同任务之间并无统一模板。

正因如此，我们更倾向于用"数据编译"而非简单的"数据清洗"来描述这项工作。

智客ZhiKer：你怎么看未来两年具身智能大模型的演进方向？

杨哲轩：我认为至少有六个明确趋势。

第一，VLA仍将为主线。具身智能越来越呈现"模型能力"与"机器人系统能力"的融合特征，而非单纯的控制问题。视觉、语言与动作的统一建模，仍将是行业主路径。

第二，多源数据混合训练成为标配。未来领先的系统大概率不会依赖单一数据来源，而是整合互联网视频、第一视角数据、遥操作数据、仿真数据与真实闭环数据，各自承担不同角色。

第三，高质量数据工程与评测体系成为关键壁垒。真正的挑战不在于"收集数据"，而在于知道如何筛选、切片、构造课程学习、利用失败样本，并建立稳定的评测闭环。未来竞争不仅体现在模型结构，更体现在数据工程与评测工程能力上。

第四，系统能力从"单次成功"转向"持续稳定"。真正能落地的机器人并非永不犯错，而是发生偏差后能够恢复、纠正并长期稳定运行。恢复能力与长期稳定性将愈发重要。

第五，本地化训练与私有化部署加速。尤其在B 端场景，高价值数据越来越难以完全离开现场。未来能够支持边界内训练、私有化部署与可审计流程的基础设施，将更具现实价值。

第六，数据资产的定义被重写。未来最有价值的，不再是"拥有多少视频、多少轨迹"，而是"知道哪些数据有效、如何跨本体迁移、如何利用失败片段、如何将一次项目沉淀为下一次更快的交付能力"。数据价值正从"量"转向"质"与"复用效率"。（作者｜郭虹妘，编辑｜杨林）

灵初、穹彻、智平方、浙人形，联手投了一家具身智能"数据编译"公司｜AI Founder请回答

敬原创，有钛度，得赞赏