达尔文技能进化方法论

说真的，我踩过好多坑才总结出这套方法。一开始做技能，写完就扔那儿不管了。后来发现不是这么回事——技能需要进化，需要被测试、被评估、被优化。达尔文这套方法论，就是教你怎么让技能"活"起来。

核心机制：棘轮只能前进

棘轮机制就是：分数只能往上走，不能往下掉。改好了，分数涨上去，保留；改差了，分数掉下来，自动回滚。时间站在你这边——只要持续优化，分数就会不断提高。

维度	分值	评什么
结构维度	60分	Frontmatter、工作流、边界条件、代码质量
效果维度	40分	整体架构是否合理、实测表现如何

好的结构是地基，没有地基迟早塌。实测效果是目的，不能为了好看牺牲实用。

我踩过的坑：让同一个 Agent 既改技能又评分数，结果每次改完自评分数都涨了，但实际用起来问题一堆。这就是确认偏误。

Phase 0 → Phase 0.5 → Phase 1 → Phase 2 → Phase 3 初始化 → 设计测试 → 基线评估 → 优化循环 → 汇总报告

Phase 2（优化循环）是核心，关键原则：每次只改一个维度、改完立即测试、记录分数变化。

每个优化循环之后，系统会暂停：展示改动内容、分数变化，等待你确认，确认之后再继续。AI 再怎么聪明，也可能有判断失误的时候，人类确认一遍，确保优化方向是对的。

核心三句话：分数只能涨不能跌；结构60+效果40独立评分；人在回路，人类掌控方向。