OpenSquilla发布0.4.0：AI写代码首次能“自我验证”-经济参考网

开源AI Agent项目OpenSquilla近日发布0.4.0版本，核心更新是推出编码工作流coding模式，并首次为AI编码引入“自我验证”机制：AI不再止步于“我改好了”的口头交付，而是在交回结果前，先用测试为自己跑出一份可复核的、证明“改对了”的证据。

过去一年,AI写代码能力突飞猛进，但“能写”不等于“能信”：多数编码Agent改完即交，对错仍要人逐行复核，这也是AI编码难以真正无人值守、规模化进入生产环境的关键障碍。把验证内化进Agent，意味着行业评判AI编码的标准，正从“它声称改对了”转向“它能否自证改对了”。

其做法是一条独立的“红绿回归证据链”：先写一个注定失败的测试给问题定性、证明它真能抓住bug，再把功能做好让测试由红转绿，最后跑一遍项目原有测试确认没弄坏别处；三关全过才算交付，任一环节校验不通过则自动驳回重写。配套还有默认的自动修复闭环——不通过就自动重改到通过为止，以及隔离施工——改动只在隔离副本里进行，验收合格才落回源码。

在官方的案例演示中，coding模式为知名开源项目micrograd，AI教育圈顶流、Anthropic研究员Andrej Karpathy的极简自动微分库，新增了“计算正确梯度”的功能——而梯度一旦算错，模型不报错也不崩溃，只会悄悄越学越偏，很难靠肉眼发现。演示分两步：先由AI走完上述“红→绿→回归”三关、自交证据；再由人把micrograd的新功能与行业标准工具PyTorch在同一道题上并排比对，前向值与每一个梯度小数点后10位完全一致。换言之，不是“AI自己说对”，而是“它和官方标准答案分毫不差”。这也是在Coding赛道上，团队继新一代基准claw-swe-bench之后，落地agent runtime的最新实践。

同期，OpenSquilla还推出首个签名并公证的桌面安装包，macOS与Windows均可双击安装，无需命令行。

OpenSquilla主打“提升单位成本的Agent智能”，以Learnable Harness为切入点，目标打造性价比最高的Agent产品。在主流Agent框架普遍推高模型调用、token成本攀升的背景下，它通过本地智能路由，按任务复杂度自动选模型、技能按需加载、记忆按需检索、工具结果预处理等方式，在“调用前”就压降成本。据硅星人相关测算数据，其智能路由相比通用网关OpenRouter，路由精度高约4.4个百分点、成本低约75%；与旗舰模型跑同类任务质量基本持平、成本相差约9倍。OpenSquilla官网则称，常规场景内测综合成本可下降约60%-80%。（华柏）

首页 >> 正文