AI 概念地基 — 整套薪火课程通用。 ← 回到总入口
先懂概念,再动手

AI 概念地基

薪火所有项目背后只有5 个核心概念:prompt、context、skill、agent、harness。 理解了它们 —— 你做项目时就不再是"照着步骤抄",而是知道为什么。 每个概念都按 8–10 / 11–14 / 15+ 三个层次讲,附带"三种品质 × 这个概念"对照 —— 看同一件工具,热爱驱动 / 同理心驱动 / 审美驱动的人会做出多么不同的东西。

5 个核心概念

  1. 提示词工程 · prompt engineering
  2. 上下文工程 · context engineering
  3. 技能定义 · skill definition
  4. 智能体 · agent
  5. 评估框架 · harness · LLM-as-judge

概念 01提示词工程

所有 AI 互动的第一公里。你怎么"问",决定 AI 给你什么。 这不是"魔咒" —— 是一套可学、可改、可重复使用的方法。

概念 01

提示词工程prompt engineering

"会写 prompt" = 会让 AI 给出你真正想要的东西,而不是平均水平的东西。

"prompt" = 你跟 AI 说的那段话。

📏 比方:就像你让妈妈帮你做点心。 如果你说"做点心"—— 妈妈可能给你一块面包。 如果你说"做我最爱的、上面有彩色糖珠的、像云朵一样软的小杯子蛋糕"—— 妈妈知道该做什么。 AI 也一样。你说得越具体,它做的越像你想的那样。

3 个魔法窍门

  1. 给个角色:"假装你是一只 9 岁的恐龙小专家……"
  2. 给个例子:"像这样回答:『霸王龙最厉害,因为牙齿一咬下去骨头都断』"
  3. 说"如果不知道":"你不确定的时候,就说『我不知道』,不要瞎编"
👉 现在试试:打开通义千问。第一次问"恐龙故事"。 然后用 3 个窍门改你的问题,再问一遍。看两次答案有没有不一样。
同样是"写一段话",三种品质会让你写出不一样的 prompt:

🔥 热爱驱动

"我超爱恐龙!"

"假装你是一只 9 岁的恐龙小专家,特别迷霸王龙的咬合力。讲一个霸王龙吃晚餐的故事。"

💙 同理心驱动

"我想给弟弟讲故事"

"假装你是恐龙小专家,给我 5 岁的弟弟讲一个霸王龙的故事,要简单、要有声音、不要吓到他。"

审美驱动

"我想要一个真的好故事"

"假装你是恐龙小专家。先写三个不同开头:神秘风、搞笑风、温柔风。我选一个让你接着写。"

概念 02上下文工程

AI 不只看你刚才说的那一句 —— 它看"上下文窗口"里所有的字。 什么进、什么出、按什么顺序进 —— 这是 prompt engineering 的下一层, 也是 2024-2025 年 AI 工程最热的话题。

概念 02

上下文工程context engineering

不只是"问什么",而是"AI 看到什么"—— 包括它的角色设定、它的工具列表、它的记忆、它当前的对话历史。

每次你和 AI 说话,它能"记住"的字数是有限的 —— 像一个能装 5 个苹果的盘子。

🍎 比方:想象 AI 的"记忆"是一个小盘子,里面只能放 5 个苹果(5 段对话)。 当你聊到第 6 段,最早的那个苹果就被挤掉了 —— AI 就"忘"了开头说过的话。 所以重要的事,要定时再说一遍,或者一开始就写得清清楚楚

1 个非常实用的小技巧

每次开始一个长聊天,把最重要的事写在第一句话。比如:

"我是 9 岁。我在做一个关于恐龙的小报告。
请用我能懂的话回答下面的问题。
现在开始第一个问题:……"

这样后面就算聊很久,AI 还是知道你是 9 岁、在做恐龙报告。

👉 试一试:跟通义千问聊 10 句关于一个话题。第 11 句问它"我开头说什么了?" 看它还能不能记得。

概念 03技能定义

"技能"(skill)= 把一个 AI 固化成"懂某件事"的小专家的打包格式。 技能工坊整个学院都是教这个。

概念 03

技能定义skill definition

一段精心打磨的 system prompt + 几个例子 + 必要的背景资料 = 一个可以反复使用、给别人用的 AI 小专家。

"技能"就是给 AI 装上"懂这件事"的能力

🎒 比方:想象你给 AI 一个书包,里面装着 3 样东西: ① 一张身份证("你是恐龙小专家")+ ② 一本笔记本("这里有 50 条恐龙的事实")+ ③ 几张样题("别人这么问的时候,要这么答")。 AI 背上这个书包,就变成了"恐龙小专家"。

一个最简单的"技能"长这样

身份证:你是 9 岁孩子小美的恐龙小专家。

笔记本:
- 霸王龙最重 9 吨,相当于一辆小卡车
- 三角龙的角是用来撞的,不是装饰
- 蛇颈龙不是恐龙,是海里的爬行动物
- ...(一共 50 条)

样题:
问:霸王龙能跑多快?
答:不太快 —— 大概像我们快跑那么快。它太重了。

问:今天天气怎么样?
答:这个我不会,我只懂恐龙。
👉 试一试:选你最爱的话题,写出你的"小专家"的 3 样东西(身份证 + 笔记本 5 条 + 样题 2 个),贴到通义千问里测试。

概念 04智能体

"智能体" = 会自己做事的 AI。 它不止聊天 —— 它有"目标"、有"工具"、能"决定下一步"。 2025 年 AI 工业最热的方向。

概念 04

智能体agent

能"做事"的 AI = 一个 LLM + 一组工具 + 一个"我接下来该干什么"的循环。

普通 AI 跟你聊天 —— 你问一句、它答一句。

智能体不一样:你给它一个目标,它自己想办法、自己做、自己决定下一步。

🤖 比方:想象一个机器人服务员。
  • 普通 AI:你问"今天有什么菜",它念菜单。
  • 智能体:你说"我饿,给我点便宜又好吃的",它会查菜单 → 比价钱 → 看哪个评分高 → 帮你下单。 中间不用你管。

智能体最危险也最重要的事

它能"做事" —— 也意味着它能做错事。 所以好的智能体一定要懂:

  • 什么时候该问一下:"花 100 块以上要先问妈妈"
  • 什么时候该停下:"删除照片这种事我不做"
  • 什么时候说"我不会":"决定是不是吃药 —— 我不能定"
👉 想一想:如果你给妈妈做一个"购物智能体", 哪 3 件事它该自己做?哪 3 件事它必须先问?哪 3 件事它绝对不做

概念 05评估框架

AI 时代最稀缺的能力:知道 AI 给的东西"够不够好",并把这个判断系统化。 Harness = LLM-as-judge + 评分标准 + 回归测试。

概念 05

评估框架harness · eval framework · LLM-as-judge

把"我觉得这个好"变成"AI 也能照着判的标准",然后用一个判官 AI 自动给输出打分。

"判官 AI"就是 —— 让一个 AI 帮你看另一个 AI 答得好不好

⚖️ 比方:想象你做了 30 道题。
  • 没有判官 → 你要自己一道一道改,30 道改完手都酸了。
  • 有判官 → 你写一份"什么算对"的 5 条规则,让另一个 AI 拿着这份规则给你打分。 30 道 30 秒就改完。

"5 条规则"长什么样

这是关于"恐龙小专家答得好不好"的判官规则:

1. 答案是不是关于恐龙的?(是 / 不是)
2. 用的话 9 岁孩子能不能听懂?(能 / 不能)
3. 不确定时有没有说"我不确定"?(有 / 没有)
4. 没有瞎编恐龙不存在的事实?(没瞎编 / 有瞎编)
5. 答得有没有"小专家"的感觉?(很有 / 一般 / 没有)
👉 试一试:给你最爱的话题写 5 条"什么算好回答"的规则。 然后让 AI 拿这 5 条给同一个问题的 3 个回答打分 —— 看你和它打分一不一样。
配方机 · 试一试

一个概念一种品质配在一起,
看会产出什么样的项目

同样是"prompt engineering"—— 配上"热爱"长出深度专家,配上"同理心"长出体贴小工具,配上"审美"长出有"味道"的内容机器。 下面这个机器就让你亲手配一下,看真实的项目案例。

选一个概念 + 一种品质,按"配"看会产生什么样的项目。

5 个概念串起来

这 5 件事,就是 AI 工程的全部

Prompt 决定 AI 答什么 → Context 决定 AI 看到什么 → Skill 把这套打包给别人用 → Agent 让它"做事" → Harness 保证它一直够好。

薪火的 4 所学院 = 实战这 5 个概念: 技能工坊(prompt + context + skill)· 代码俱乐部(把 AI 装进真产品)· 智能体实验室(agent)· 审美工作室(harness)。