你正在读 进阶版 · 学院 04 · 审美工作室 ← 回到总入口

动手前 · 先懂概念

这所学院在练 评估框架 / LLM-as-judge

把"我觉得这个好"变成 AI 也能照着判的标准 —— 一直够好不靠运气。

建议先花 5 分钟到「概念地基」看完这一节的进阶版讲解 —— 你做项目时就不再"照着步骤抄",而是知道为什么

→ 看「评估框架 / LLM-as-judge」概念地基

⚖️ 审美工作室 · 进阶

把审美外化成系统:JSON Schema、LLM-as-judge、漂移检测。3 个深项目,最后一个把四所学院全部串起来。

这一所是整套进阶版的"元能力"

前面三所教孩子做出来。这一所教他判断好坏,并把判断本身做成可重复的系统:用 JSON Schema 把"好"形式化、用 LLM-as-judge 自动打分、用CI 跑回归。 这一套能力,是工业界招"AI 工程师"时最稀缺的部分。

新概念:什么是 LLM-as-judge?为什么重要?

LLM-as-judge = 用一个 AI 给另一个 AI 的输出打分。本质上是把"评估"自动化。

为什么重要?真实生产环境里,你的 AI 一天可能输出几千条 —— 你不可能手动审。但你可以做一个判官 AI,用你写的标准,自动给每条评分、统计趋势、报警异常。

项目 11 教你用本地 Qwen / DeepSeek 做这件事。完全免费、完全可控。

新概念:什么叫"审美漂移"?为什么要监测?

审美漂移 = 你(或你的 AI 模型)对"什么是好"的标准在不知不觉中改了。

例:你三个月前训练的判官 AI,用同样的标准打分;今天面对同样的样本,给出的分数已经偏移了 —— 因为你升级了基础模型 / 改了 prompt / 加了新例子。

项目 12(大压轴)会把"漂移检测"变成 CI 里的一个自动化检查 —— 让你的整个 AI 系统的"审美"在时间上稳定

3 个深项目

项目 10 · 把"好"写成 JSON Schema

能被代码读、能被 AI 评分系统执行。

项目 11 · 构建你自己的判官

本地 Qwen / DeepSeek 做 LLM-as-judge。给一组作品打分。

项目 12 · 大压轴

把四所学院串起来:一个 Skill、给一个真人、用代码 ship、用判官保证质量。

这是进阶版的尽头

12 个项目都做完了 —— 你已经"成型"

做完压轴项目,你拥有的是:一个真上线的 AI 应用 + 完整工程文档 + 自评估系统 + 给真实用户的伦理审查。 这是大多数本科应届生都拿不出的作品集 —— 而你 18 岁前就有了。