薪火
迭代 2 · 原型
聊天原型
判官原型
原型 ·
判官 AI
(LLM-as-judge)
给候选回答 + 你的评分标准,AI 自动打分 + 解释。中阶项目 07/08 + 进阶项目 11 同款。
⚖️ 判官 AI 试跑
① 评分标准(rubric)—— 你认为什么算"好"
5 条标准(每条 0-2 分,满分 10): 1. 用了具体物件(不是抽象词) 2. 有出乎意料的转折或细节 3. 字数控制在 50-150 字 4. 没用"美丽""快乐"等空洞词 5. 最后留有余地(不是大团圆 / 不是全部交代清楚)
② 候选回答(要被打分的内容)
她推开门,桌上的茶还热着。屋里没人。窗帘飘了一下,像有谁刚走。她坐下来,端起茶杯,杯沿有口红印 —— 不是她的颜色。
③ 参考样例(可选,如果你已有"标杆")
⚖️ 让判官打分
—
/ 10 分
判官 AI 怎么用?
你写一份"什么是好"的标准,AI 用这个标准去给一堆样本打分。 你和判官打分不一样的地方 —— 就是你的审美
没说清楚
的地方。 这是把"我觉得好"变成"AI 也能照着判"的工程方法。详见
概念地基 · 评估框架
。