达尔文技能进化方法论
说真的,我踩过好多坑才总结出这套方法。一开始做技能,写完就扔那儿不管了。后来发现不是这么回事——技能需要进化,需要被测试、被评估、被优化。达尔文这套方法论,就是教你怎么让技能"活"起来。
核心机制:棘轮只能前进
棘轮机制就是:分数只能往上走,不能往下掉。改好了,分数涨上去,保留;改差了,分数掉下来,自动回滚。时间站在你这边——只要持续优化,分数就会不断提高。
双重评估体系:结构60 + 效果40
| 维度 | 分值 | 评什么 |
|---|---|---|
| 结构维度 | 60分 | Frontmatter、工作流、边界条件、代码质量 |
| 效果维度 | 40分 | 整体架构是否合理、实测表现如何 |
好的结构是地基,没有地基迟早塌。实测效果是目的,不能为了好看牺牲实用。
独立评分原则:自己改的不能自己评
我踩过的坑:让同一个 Agent 既改技能又评分数,结果每次改完自评分数都涨了,但实际用起来问题一堆。这就是确认偏误。
五阶段流程
Phase 0 → Phase 0.5 → Phase 1 → Phase 2 → Phase 3 初始化 → 设计测试 → 基线评估 → 优化循环 → 汇总报告
Phase 2(优化循环)是核心,关键原则:每次只改一个维度、改完立即测试、记录分数变化。
人在回路:让人类掌控方向
每个优化循环之后,系统会暂停:展示改动内容、分数变化,等待你确认,确认之后再继续。AI 再怎么聪明,也可能有判断失误的时候,人类确认一遍,确保优化方向是对的。
核心三句话:分数只能涨不能跌;结构60+效果40独立评分;人在回路,人类掌控方向。