harness
我们交付的是一套
运行的系统,而非方案。
多数咨询以文档收尾。好文档。然后进了抽屉——文档无法执行自己。我们以一套运行的系统收尾。你得到的是:运营自行执行规则,团队从机械返工中解放,每个决策有据可查,上个季度的争论不再重演。
它是什么
一套与你的团队并肩运转的系统——而不是一份描述它的报告。
它嵌在团队本就在做的工作里——文档、决策、日常流程。它不替你做判断,也不是 AI 本身。它做的,是承载你运营所依据的规则、把团队的工作方式固化成可复用的流程,并记录每一项任务、决策、检查与结果。十四周后,这些规则、这段历史、这套工作方式,都归你所有。
架构
- spec 你的规则
- skill 你的方法
- agent 谁来执行
- runtime 运行记录
- evidence 证据
它强制什么
「完成」意味着证据存在——而不是有人觉得它不错。
-
收尾以证据为门槛
在每一项必需的检查通过、产物齐备、验证留有记录之前,系统不会把工作标记为完成。一句没有任何依据的「做完了」,根本不被接受。
-
关键检查不能自评
最容易被轻易放过的那些问题,由自动化测试确认,而非 agent 自说自话。agent 无法把它们标记为通过——只有测试能。
-
敏感工作开工前先评审
当一项任务触及敏感面,安全评审必须先留有记录,工作才被允许交接。评审是前置条件,不是事后补票。
-
漂移被当场抓住,而非事后发现
你设定的规则,会与系统的实际行为逐一核对。一旦两者背离,它当场标记差距——让「本该如何运转」与「实际如何运转」,永不悄悄分叉。
工作如何分工
负责构建的 agent,永远不是做评判的 agent。
工作在各个明确的角色之间通过书面交接流转,而非一条聊天记录。每个角色只做一件事——而负责复核的那个从零开始:它亲自重跑检查、指向确切的证据,而不是听信 builder 的一面之词。
- 一
Architect
在写下第一行代码之前,先写出有约束力的设计——构建必须满足的契约。
- 二
Builder
照着那份契约实现,并在过程中持续记录证据。
- 三
Evaluator
在全新上下文里独立复核:亲自跑测试、引用证据。不是橡皮图章。
- 四
Reconciler
在规则与代码各自演进的同时,让书面规则与运行代码始终保持一致。
实际运作
规则被执行,而不是写在文档里。
举一条规则:任何一件工作,在有人复核之前都不得向前推进。系统把这道签字设成前置条件——只要复核缺失,它就不让工作前进,并在过程中记录复核、工作本身、各项检查与结果。这条规则不躺在没人翻开的手册里,而是在工作发生的当下被强制执行,且每一步都留有记录。
记录
每一个决策都写在可被回读的地方。
每一项任务、决策、检查与结果,都留存在一份持久、可检索的记录里——可导出,即便工作中断也不丢失。这条轨迹不是副产品,而是你所购买的一部分。当某个决策在下个季度被质疑,答案——以及它所依据的规则——早已在案。
不被锁定
一套方法,引擎随你选。
同一套方法可在主流 AI agent 平台上运行,所以你的运营永不被某一家厂商的 AI 绑死。规则、角色与记录都归你;底层的 AI 只是一个可替换的零件。
- Claude Code
- Codex CLI
- Gemini CLI
生而开源
specability 是我们自己的 agent harness——我们正在把它开源。
我们不卖自己都不愿跑的系统。支撑每次合作的 harness,就是我们正准备开源的同一套系统。敢运行自身系统的公司,才值得你托付你的。
申请抢先体验 →它如何对应
- 一
发现
找出不变量。阅读历史,找出一直在起作用的规则,以及真正属于判断的那个环节。
- 二
规范
把它们写下来,一次性地,写在所有人都看得到的地方。规范不是系统的文档;它就是系统的唯一事实来源。
- 三
harness
交付运行这套规范的系统。规则与判断之间的边界,从此由软件强制执行,而非写在幻灯片里描述。