优化评估提示词:根据结果持续调整提示词内容,直至性能达到预期标准。 Tip: 可在提示中添加若干"优质"与"劣质"评估示例,通过"少量样本提示"(few shot)方式锚定 LLM 的响应质量。扩展你的数据集:定期添加新样本和边缘案例,以测试你的评估提示是否能有效泛化。迭代优化你的代理提示:评估能帮助你在底层 AI 系统变更时测试产品效果——某种程度上,它们是你为 AI 系统进行提示 A/B 测试的终极考验。
例如,当你对代理做出调整(如将模型从 GPT-4o 更换为 Claude 3.7 Sonnet),你可以通过更新后的代理重新运行收集的问题数据集,并用你的评估代理来评判新输出(即 Claude 3.7)的质量。目标是通过持续改进,使新代理的评估分数超越初始代理(GPT-4o)的基准水平。
第四阶段:线上监控
持续评估:将评估设定为在实时用户互动中自动运行。 例如:您可以持续对所有传入请求和代理响应运行“友好度”评估,以获取随时间变化的评分。这有助于回答 如“用户是否随着时间的推移变得更加沮丧?”或“我们对系统所做的更改是否影响了 LLM 的友好程度?”等问题。将评估结果与实际用户结果进行对比:寻找评估结果与真实表现(即人工标注的真实数据)之间的差异。利用这些洞察来优化你的评估框架,并逐步提高准确性。构建可用的评估仪表板:评估有助于向团队中的利益相关者传达 AI 指标,甚至可以与业务成果挂钩。它们可以作为系统变更的优先评估指标。
团队在评估时常犯的错误
早期的评估过于复杂,往往容易产生“噪声”信号(并导致团队对该方法失去信任)。应专注于具体输出而非复杂评估,在后续的迭代中不断增加精细度。没有覆盖边缘案例。在提示中提供一两个“好”与“坏”评估的具体示例(少样本提示)可提升评估效果。这有助于让评判 LLM 明确优劣标准。没有根据真实用户反馈验证评估结果。记住,在AI产品评估中你不仅仅是在测试代码,你是在验证你的 AI 是否能真正解决用户问题。
撰写高质量的评估报告能让你站在用户的角度思考——它们是你发现“糟糕”场景并明确改进方向的关键工具。
随着 AI 产品的日益复杂,编写优质评估的能力将变得愈发关键。
评估不仅关乎发现缺陷,更能确保您的 AI 产品能够持续创造价值、为用户带来惊喜!
评估是 AI产品从原型走向量产的关键步骤。
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.