AI Engineering 1.2 基础模型应用案例
作者:微信文章基础模型应用案例
如果你还没有开始构建 AI 应用,我希望前一节已经说服你,现在正是开始的好时机。如果你心中已经有了一个应用,你可能想直接跳到“规划 AI 应用”一节。如果你正在寻找灵感,本节将涵盖各种经过业界验证且前景广阔的应用案例。
你可以用基础模型构建的潜在应用似乎无穷无尽。无论你想到了什么应用场景,很可能都已经有相应的 AI 了。列出 AI 所有可能的应用案例是不可能的。
即使是尝试对这些应用案例进行分类也很有挑战性,因为不同的调查使用了不同的分类方法。例如,亚马逊云科技(AWS)将企业生成式 AI 应用案例分为三大类:客户体验、员工生产力和流程优化。一项 2024 年的 O'Reilly 调查则将其分为八个类别:编程、数据分析、客户服务、营销文案、其他文案、研究、网页设计和艺术。
一些组织,如德勤(Deloitte),则按价值捕获方式对应用案例进行分类,例如降低成本、提高流程效率、促进增长和加速创新。在价值捕获方面,Gartner 有一个“业务连续性”(business continuity)的类别,意思是如果一个组织不采用生成式 AI,就可能会倒闭。在 Gartner 2023 年调查的 2500 名高管中,有 7% 的人将业务连续性作为拥抱生成式 AI 的动机。
Eloundou 等人(2023)对不同职业受 AI 影响的程度进行了出色的研究。他们将一个任务定义为“暴露”(exposed),如果 AI 和 AI 驱动的软件能将完成该任务所需的时间至少减少 50%。一个 80% 暴露度的职业意味着其 80% 的任务都受到了影响。根据这项研究,暴露度达到 100% 或接近 100% 的职业包括口译员和笔译员、报税员、网页设计师和作家。其中一些职业列于表 1-2 中。不出所料,完全不受 AI 影响的职业包括厨师、石匠和运动员。这项研究很好地说明了 AI 擅长哪些应用场景。
GroupOccupations with highest exposure% ExposureHuman αInterpreters and translators
Survey researchers
Poets, lyricists, and creative writers
Animal scientists
Public relations specialists76.5
75.0
68.8
66.7
66.7Human βSurvey researchers
Writers and authors
Interpreters and translators
Public relations specialists
Animal scientists84.4
82.5
82.4
80.6
77.8Human ζMathematicians
Tax preparers
Financial quantitative analysts
Writers and authors
Web and digital interface designers
Humans labeled 15 occupations as “fully exposed”.100.0
100.0
100.0
100.0
100.0表 1-2. 由人工标注的受 AI 影响程度最高的职业。α 指直接受 AI 模型影响,β 和 ζ 指受 AI 驱动软件的影响。表格来源:Eloundou et al. (2023)。
在分析应用案例时,我同时考察了企业和消费者应用。为了理解企业应用案例,我采访了 50 家公司的 AI 战略,并阅读了 100 多份案例研究。为了理解消费者应用,我考察了 205 个在 GitHub 上至少有 500 个星标的开源 AI 应用。我将这些应用分为八组,如表 1-3 所示。这里的有限列表最好用作参考。随着你在第二章中更深入地了解如何构建基础模型,以及在第三章中学习如何评估它们,你将能更清晰地描绘出基础模型可以且应该用于哪些应用场景。
CategoryExamples of consumer use casesExamples of enterprise use casesCodingCodingCodingImage and video productionPhoto and video editing
DesignPresentation
Ad generationWritingEmail
Social media and blog postsCopywriting, search engine optimization (SEO)
Reports, memos, design docsEducationTutoring
Essay gradingEmployee onboarding
Employee upskill trainingConversational botsGeneral chatbot
AI companionCustomer support
Product copilotsInformation aggregationSummarization
Talk-to-your-docsSummarization
Market researchData organizationImage search
Memex(https://en.wikipedia.org/wiki/Memex)Knowledge management
Document processingWorkflow automationTravel planning
Event planningData extraction, entry, and annotation
Lead generation表 1-3. 消费者和企业应用中常见的生成式 AI 用例。
由于基础模型具有通用性,其上构建的应用可以解决许多问题。这意味着一个应用可以属于多个类别。例如,一个聊天机器人既可以提供陪伴,也可以聚合信息。一个应用可以帮助你从 PDF 中提取结构化数据,并回答关于该 PDF 的问题。
图 1-7 显示了这 205 个开源应用中各类用例的分布情况。请注意,教育、数据组织和写作等用例占比较小,并不意味着这些用例不受欢迎。这只意味着这些应用不是开源的。这些应用的开发者可能认为它们更适合企业应用场景。
图 1-7. GitHub 上 205 个开源仓库中用例的分布。
企业界通常更倾向于风险较低的应用。例如,一份 2024 年的 a16z Growth 报告显示,公司部署面向内部的应用(如内部知识管理)的速度快于面向外部的应用(如客户服务聊天机器人),如图 1-8 所示。内部应用有助于公司在将风险降至最低的同时(尤其是在数据隐私、合规性和潜在灾难性故障方面),发展其 AI 工程专长。同样,尽管基础模型是开放式的,可用于任何任务,但许多在其之上构建的应用仍然是封闭式的,比如分类任务。分类任务更容易评估,因此其风险也更容易估算。
图 1-8. 公司更愿意部署面向内部的应用。
即使看了数百个 AI 应用,我每周仍然会发现让我感到惊喜的新应用。在互联网早期,很少有人预见到有一天互联网的主导用例会是社交媒体。当我们学会充分利用 AI 时,最终占据主导地位的用例可能会让我们大吃一惊。幸运的话,这个惊喜会是美好的。
编程
在多项生成式 AI 调查中,编程(Coding)无疑是最受欢迎的用例。AI 编程工具之所以流行,一方面是因为 AI 在编程方面确实很出色,另一方面是因为早期的 AI 工程师本身就是程序员,他们更直接地面临着编程挑战。
基础模型在生产环境中最早的成果之一就是代码补全工具 GitHub Copilot,该工具在推出仅两年后,年经常性收入就突破了 1 亿美元。截至本书写作时,AI 驱动的编程初创公司已经筹集了数亿美元的资金,例如 Magic 在 2024 年 8 月筹集了 3.2 亿美元,Anysphere 也在同月筹集了 6000 万美元。像 gpt-engineer 和 screenshot-to-code 这样的开源编程工具在一年内就在 GitHub 上获得了 5 万个星标,而且更多工具正在被快速推出。
除了帮助通用编程的工具外,许多工具还专注于特定的编程任务。以下是一些例子:
[*]从网页和 PDF 中提取结构化数据(AgentGPT)
[*]将英语转换为代码(DB-GPT, SQL Chat, PandasAI)
[*]给定一个设计或截图,生成能渲染出类似页面的代码(screenshot-to-code, draw-a-ui)
[*]在不同编程语言或框架之间进行转换(GPT-Migrate, AI Code Translator)
[*]编写文档(Autodoc)
[*]创建测试(PentestGPT)
[*]生成提交信息(AI Commits)
显然,AI 能够完成许多软件工程任务。问题是,AI 能否彻底自动化软件工程?在这个光谱的一端,英伟达(NVIDIA)CEO 黄仁勋(Jensen Huang)预测,AI 将取代人类软件工程师,我们应该停止告诉孩子们要学编程。在一段泄露的录音中,AWS CEO Matt Garman 也表示,在不久的将来,大多数开发者将停止手写代码。他的意思并非软件开发者的终结,而是他们的工作内容将会改变。
在光谱的另一端,则是许多坚信自己永远不会被 AI 取代的软件工程师,这其中既有技术原因,也有情感原因(人们不喜欢承认自己可以被取代)。
软件工程包含许多任务,AI 在某些任务上比在其他任务上表现得更好。麦肯锡(McKinsey)的研究人员发现,AI 可以帮助开发者在文档编写方面的效率提高两倍,在代码生成和代码重构方面的效率提高 25% 到 50%。对于高度复杂的任务,生产力的提升则微乎其微,如图 1-9 所示。在我与 AI 编程工具开发者们的交谈中,很多人告诉我,他们注意到 AI 在前端开发方面比在后端开发方面要好得多。
图 1-9. AI 可以显著提高开发者的生产力,尤其是对于简单任务,但对于高度复杂的任务则效果甚微。数据来源:麦肯锡。
无论 AI 最终是否会取代软件工程师,它肯定能让工程师们变得更高效。这意味着公司现在可以用更少的工程师完成更多的工作。AI 还可能颠覆外包行业,因为外包的任务往往是公司核心业务之外的、较为简单的任务。
图像与视频制作
得益于其概率性,AI 在创意任务上表现出色。一些最成功的 AI 初创公司都是创意应用,例如用于图像生成的 Midjourney、用于照片编辑的 Adobe Firefly,以及用于视频生成的 Runway、Pika Labs 和 Sora。2023 年底,在成立仅一年半之际,Midjourney 就已经实现了 2 亿美元的年经常性收入。截至 2023 年 12 月,在苹果 App Store 图形与设计类免费应用排行榜前十名中,有一半在名字里带有“AI”。我怀疑很快,图形和设计应用默认就会集成 AI,它们的名字里也将不再需要“AI”这个词了。第二章将更详细地讨论 AI 的概率性。
现在,人们普遍使用 AI 为社交媒体(从 LinkedIn 到 TikTok)生成个人资料图片。许多求职者相信,AI 生成的头像能帮助他们展现最佳形象,从而增加找到工作的机会。人们对 AI 生成头像的看法发生了巨大变化。2019 年,Facebook 出于安全考虑,禁止使用 AI 生成头像的账号。而到了 2023 年,许多社交媒体应用都提供了让用户用 AI 生成个人资料照片的工具。
对企业而言,广告和营销领域迅速融入了 AI。AI 可以直接用于生成宣传图片和视频,也可以帮助头脑风暴或生成初稿供人类专家迭代。你可以用 AI 生成多个广告版本,测试哪个对受众效果最好。AI 还可以根据季节和地点生成广告的变体。例如,你可以在秋天让 AI 改变树叶的颜色,或在冬天给地面加上积雪。
写作
AI 长期以来一直被用于辅助写作。如果你使用智能手机,你可能已经很熟悉由 AI 驱动的自动纠错和自动补全功能了。写作是 AI 的理想应用场景,因为我们经常需要写作,这可能相当乏味,而且我们对错误的容忍度很高。如果模型给出了你不喜欢的建议,你只需忽略它即可。
鉴于 LLM 是为文本补全而训练的,它擅长写作也就不足为奇了。为了研究 ChatGPT 对写作的影响,麻省理工学院的一项研究(Noy and Zhang, 2023)给 453 名受过大学教育的专业人士分配了与各自职业相关的写作任务,并随机让其中一半人使用 ChatGPT。结果显示,在使用 ChatGPT 的群体中,平均耗时减少了 40%,而产出质量提高了 18%。ChatGPT 有助于缩小不同工作者之间的产出质量差距,这意味着它对那些不太擅长写作的人帮助更大。在实验中接触过 ChatGPT 的工作者,在实验结束两周后,使用它的可能性是原来的两倍;两个月后,这一可能性仍然高达 1.6 倍。
对消费者来说,应用场景显而易见。许多人使用 AI 来帮助自己更好地沟通。你可以在邮件中表达愤怒,然后让 AI 把它改得委婉一些。你可以给它几个要点,让它帮你写成完整的段落。有几个人声称,他们现在发送重要邮件前,一定会先让 AI 帮忙润色一下。
学生们用 AI 写论文,作家们用 AI 写书。许多初创公司已经在使用 AI 生成儿童读物、同人小说、言情小说和奇幻小说。与传统书籍不同,AI 生成的书籍可以是互动的,因为书的情节可以根据读者的喜好而改变。这意味着读者可以积极参与到他们正在阅读的故事创作中。一款儿童阅读应用会识别孩子有困难的单词,并围绕这些单词生成故事。
笔记和邮件应用,如 Google Docs、Notion 和 Gmail,都使用 AI 来帮助用户改进写作。写作助手应用 Grammarly 通过微调模型,使用户的写作更加流畅、连贯和清晰。
AI 的写作能力也可能被滥用。2023 年,《纽约时报》报道,亚马逊上充斥着粗制滥造的 AI 生成旅游指南,每本都配有作者简介、网站和好评,而这些都是 AI 生成的。
对企业而言,AI 写作在销售、营销和团队日常沟通中很常见。许多经理告诉我,他们一直在用 AI 帮助撰写绩效报告。AI 可以帮助撰写有效的冷邮件、广告文案和产品描述。像 HubSpot 和 Salesforce 这样的客户关系管理(CRM)应用也为企业用户提供了生成网络内容和外联邮件的工具。
AI 在 SEO(搜索引擎优化)方面似乎特别擅长,这可能是因为许多 AI 模型的训练数据来自互联网,而互联网上充斥着经过 SEO 优化的文本。AI 在 SEO 方面的能力催生了一代新的“内容农场”。这些农场建立垃圾网站,并用 AI 生成的内容填充,以期在谷歌上获得高排名,从而吸引流量。然后,他们通过广告交易平台出售广告位。2023 年 6 月,NewsGuard 发现,来自 141 个知名品牌的近 400 条广告出现在垃圾的 AI 生成网站上。其中一个垃圾网站每天能产出 1200 篇文章。除非采取措施加以遏制,否则互联网内容的未来将是 AI 生成的,而且会相当 bleak(黯淡)。
教育
每当 ChatGPT 罢工时,OpenAI 的 Discord 服务器就会被抱怨无法完成作业的学生们刷屏。包括纽约市公立学校和洛杉矶联合学区在内的几个教育委员会,曾因担心学生用它作弊而迅速禁止 ChatGPT,但仅仅几个月后就撤销了禁令。
与其禁止 AI,不如将其融入教学,帮助学生学得更快。AI 可以总结教科书,并为每个学生生成个性化的学习计划。我觉得很奇怪,广告能做到个性化,因为我们知道每个人都是不同的,但教育却做不到。AI 可以帮助将教材改编成最适合每个学生的格式。听觉型学习者可以让 AI 大声朗读教材。喜欢动物的学生可以让 AI 在可视化内容中加入更多动物元素。觉得读代码比看数学公式更容易的学生,可以让 AI 把数学公式翻译成代码。
AI 在语言学习方面尤其有帮助,因为你可以让 AI 扮演不同的角色来进行练习。Duolingo(多邻国)的 Pajak 和 Bicknell(2022)发现,在课程创建的四个阶段中,课程个性化是最能从 AI 中受益的阶段,如图 1-10 所示。
图 1-10. AI 可用于 Duolingo 课程创建的全部四个阶段,但在个性化阶段最有帮助。图片来源:Pajak and Bicknell (Duolingo, 2022)。
AI 可以生成测验,包括选择题和开放式问题,并评估答案。AI 还可以成为辩论伙伴,因为它比普通人更能清晰地呈现同一话题的不同观点。例如,可汗学院(Khan Academy)为学生提供 AI 助教,为教师提供课程助教。我见过的一种创新教学方法是,老师布置 AI 生成的论文,让学生找出并纠正其中的错误。
虽然许多教育公司都在拥抱 AI 以打造更好的产品,但也有很多公司的饭碗被 AI 抢走了。例如,帮助学生做作业的公司 Chegg,在 ChatGPT 于 2022 年 11 月上线后,其股价从 28 美元一路暴跌至 2024 年 9 月的 2 美元,因为学生们已经开始转向 AI 寻求帮助。
如果说风险在于 AI 可能取代许多技能,那么机遇就在于 AI 可以作为导师,帮助我们学习任何技能。对于许多技能,AI 可以帮助某人快速上手,然后他们可以继续自学,最终超越 AI。
对话机器人
对话机器人用途广泛。它们可以帮助我们查找信息、解释概念和头脑风暴。AI 可以成为你的伴侣和治疗师。它可以模拟各种性格,让你与任何你喜欢的数字副本交谈。数字女友和男友在极短的时间内变得出奇地流行。许多人花在与机器人聊天上的时间已经超过了与真人交流的时间。有些人甚至担心 AI 会毁掉约会。
在研究领域,人们还发现可以使用一组对话机器人来模拟一个社会,从而对社会动态进行研究(Park et al., 2023)。
对企业而言,最受欢迎的机器人是客户服务机器人。它们可以帮助公司在改善客户体验的同时节省成本,因为它们能比人工客服更快地响应用户。AI 还可以作为产品副驾驶(copilot),引导客户完成诸如提交保险索赔、报税或查询公司政策等痛苦且令人困惑的任务。
ChatGPT 的成功引发了一波基于文本的对话机器人热潮。然而,文本并非对话代理(conversational agents)唯一的交互界面。像 Google Assistant、Siri 和 Alexa 这样的语音助手已经存在多年了。3D 对话机器人在游戏领域已经很常见,并在零售和营销领域逐渐获得关注。
AI 驱动的 3D 角色的一个应用场景是智能 NPC(非玩家角色)。NPC 对于推进许多游戏的剧情至关重要。在没有 AI 的情况下,NPC 通常被脚本设定为执行简单动作,并拥有有限的对话选项。AI 可以让这些 NPC 变得聪明得多。智能机器人可以改变《模拟人生》(The Sims)和《上古卷轴》(Skyrim)等现有游戏的动态,也能催生前所未有的全新游戏。
信息聚合
许多人相信,我们的成功取决于筛选和消化有用信息的能力。然而,跟上邮件、Slack 消息和新闻的步伐有时会让人不堪重负。幸运的是,AI 来拯救我们了。AI 已被证明能够聚合信息并对其进行总结。根据 Salesforce 2023 年的《生成式 AI 快照研究》,74% 的生成式 AI 用户使用它来提炼复杂想法和总结信息。
对消费者而言,许多应用可以处理你的文件——合同、披露文件、论文——并让你以对话的方式检索信息。这种应用场景也被称为“talk-to-your-docs”(与你的文档对话)。AI 可以帮助你总结网站、研究报告,并就你选择的主题创建报告。在撰写本书的过程中,我发现 AI 在总结和比较论文方面很有帮助。
信息聚合和提炼对企业运营至关重要。更高效的信息聚合和传播可以帮助组织变得更加精简,因为它减轻了中层管理的负担。当 Instacart 推出一个内部的提示市场(prompt marketplace)时,他们发现最受欢迎的提示模板之一是“快速分解”(Fast Breakdown)。这个模板要求 AI 总结会议纪要、邮件和 Slack 对话,并列出事实、未决问题和行动项。这些行动项随后可以自动插入到项目跟踪工具中,并分配给相应的负责人。
AI 可以帮助你挖掘关于潜在客户的关键信息,并对竞争对手进行分析。
你收集的信息越多,对其进行组织就越重要。信息聚合与数据组织是相辅相成的。
数据组织
关于未来,有一点是确定的:我们将继续产生越来越多的数据。智能手机用户会继续拍摄照片和视频。公司会继续记录有关其产品、员工和客户的一切信息。每年都有数十亿份合同被创建。照片、视频、日志和 PDF 都是非结构化或半结构化数据。必须以一种可以事后搜索的方式来组织所有这些数据。
AI 正好能帮上忙。AI 可以自动生成关于图像和视频的文本描述,或者帮助将文本查询与匹配的视觉内容进行匹配。像 Google Photos 这样的服务已经在使用 AI 来展示匹配搜索查询的图像了。Google 图片搜索更进一步:如果找不到符合用户需求的现有图片,它甚至可以生成一些。
AI 在数据分析方面也非常出色。它可以编写程序来生成数据可视化、识别异常值,并做出像收入预测这样的预测。
企业可以使用 AI 从非结构化数据中提取结构化信息,这可以用于组织数据并帮助搜索。简单的应用场景包括自动从信用卡、驾照、收据、票务以及邮件签名中提取联系信息等。更复杂的应用场景包括从合同、报告、图表等中提取数据。据估计,智能数据处理(IDP)行业到 2030 年将达到 128.1 亿美元,每年增长 32.9%。
工作流自动化
归根结底,AI 应该尽可能地实现自动化。对终端用户而言,自动化可以帮助处理预订餐厅、申请退款、规划旅行和填写表格等无聊的日常任务。
对企业而言,AI 可以自动化重复性任务,如潜在客户管理、开具发票、报销、处理客户请求、数据录入等。一个特别令人兴奋的应用场景是使用 AI 模型来合成数据,然后用这些数据来改进模型本身。你可以用 AI 为你的数据创建标签,并引入人工来改进这些标签。我们将在第八章讨论数据合成。
要完成许多任务,需要访问外部工具。要预订餐厅,一个应用可能需要权限来打开搜索引擎查找餐厅电话、使用你的手机拨打电话,并将预约添加到你的日历中。能够规划并使用工具的 AI 被称为智能体(agents)。人们对智能体的关注近乎痴迷,但这并非毫无道理。AI 智能体有潜力让每个人的生产力大幅提升,并创造出巨大的经济价值。第六章将重点讨论智能体。
探究不同的 AI 应用是一件非常有趣的事。我最喜欢遐想的事情之一,就是我能构建哪些不同的应用。然而,并非所有应用都应该被构建。下一节将讨论在构建 AI 应用之前,我们应该考虑些什么。
页:
[1]