harness

交付物

我们交付的是一套
运行的系统,而非方案。

多数咨询以文档收尾。好文档。然后进了抽屉——文档无法执行自己。我们以一套运行的系统收尾。你得到的是:运营自行执行规则,团队从机械返工中解放,每个决策有据可查,上个季度的争论不再重演。

它是什么

一套与你的团队并肩运转的系统——而不是一份描述它的报告。

它嵌在团队本就在做的工作里——文档、决策、日常流程。它不替你做判断,也不是 AI 本身。它做的,是承载你运营所依据的规则、把团队的工作方式固化成可复用的流程,并记录每一项任务、决策、检查与结果。十四周后,这些规则、这段历史、这套工作方式,都归你所有。

架构

  1. spec 你的规则
  2. skill 你的方法
  3. agent 谁来执行
  4. runtime 运行记录
  5. evidence 证据

每个决策都记录在它所依据的规则之下,再喂给下一个决策。这条链,就是产品。

它强制什么

「完成」意味着证据存在——而不是有人觉得它不错。

四个把「应该」变成「必须」的地方

  1. 收尾以证据为门槛

    在每一项必需的检查通过、产物齐备、验证留有记录之前,系统不会把工作标记为完成。一句没有任何依据的「做完了」,根本不被接受。

  2. 关键检查不能自评

    最容易被轻易放过的那些问题,由自动化测试确认,而非 agent 自说自话。agent 无法把它们标记为通过——只有测试能。

  3. 敏感工作开工前先评审

    当一项任务触及敏感面,安全评审必须先留有记录,工作才被允许交接。评审是前置条件,不是事后补票。

  4. 漂移被当场抓住,而非事后发现

    你设定的规则,会与系统的实际行为逐一核对。一旦两者背离,它当场标记差距——让「本该如何运转」与「实际如何运转」,永不悄悄分叉。

工作如何分工

负责构建的 agent,永远不是做评判的 agent。

工作在各个明确的角色之间通过书面交接流转,而非一条聊天记录。每个角色只做一件事——而负责复核的那个从零开始:它亲自重跑检查、指向确切的证据,而不是听信 builder 的一面之词。

  1. Architect

    在写下第一行代码之前,先写出有约束力的设计——构建必须满足的契约。

  2. Builder

    照着那份契约实现,并在过程中持续记录证据。

  3. Evaluator

    在全新上下文里独立复核:亲自跑测试、引用证据。不是橡皮图章。

  4. Reconciler

    在规则与代码各自演进的同时,让书面规则与运行代码始终保持一致。

实际运作

规则被执行,而不是写在文档里。

举一条规则:任何一件工作,在有人复核之前都不得向前推进。系统把这道签字设成前置条件——只要复核缺失,它就不让工作前进,并在过程中记录复核、工作本身、各项检查与结果。这条规则不躺在没人翻开的手册里,而是在工作发生的当下被强制执行,且每一步都留有记录。

记录

每一个决策都写在可被回读的地方。

每一项任务、决策、检查与结果,都留存在一份持久、可检索的记录里——可导出,即便工作中断也不丢失。这条轨迹不是副产品,而是你所购买的一部分。当某个决策在下个季度被质疑,答案——以及它所依据的规则——早已在案。

不被锁定

一套方法,引擎随你选。

同一套方法可在主流 AI agent 平台上运行,所以你的运营永不被某一家厂商的 AI 绑死。规则、角色与记录都归你;底层的 AI 只是一个可替换的零件。

  • Claude Code
  • Codex CLI
  • Gemini CLI

生而开源

specability 是我们自己的 agent harness——我们正在把它开源。

我们不卖自己都不愿跑的系统。支撑每次合作的 harness,就是我们正准备开源的同一套系统。敢运行自身系统的公司,才值得你托付你的。

申请抢先体验 →

它如何对应

一次合作 · 一件交付物

  1. 发现

    找出不变量。阅读历史,找出一直在起作用的规则,以及真正属于判断的那个环节。

  2. 规范

    把它们写下来,一次性地,写在所有人都看得到的地方。规范不是系统的文档;它就是系统的唯一事实来源。

  3. harness

    交付运行这套规范的系统。规则与判断之间的边界,从此由软件强制执行,而非写在幻灯片里描述。