AI 大模型分析
作者:微信文章AI 大模型是“大数据+大算力+强算法”结合的产物,具有重要的意义和广泛的应用。
1.发展历程:
- 早期阶段:包括符号主义 AI 和连接主义 AI。符号主义 AI 基于规则,如专家系统和知识工程;连接主义 AI 以神经网络为代表,如反向传播算法和支持向量机等。
- 深度学习崛起:21 世纪初,深度学习技术使大模型训练成为可能,卷积神经网络和循环神经网络等得到广泛应用。
- 大模型发展:从参数规模上看,经历了预训练模型、大规模预训练模型、超大规模预训练模型阶段,参数量实现从亿级到百万亿级突破,目前千亿级参数规模大模型成为主流。从技术架构上,transformer 架构是主流算法架构基础,形成了 gpt 和 bert 两条主要技术路线,gpt 逐渐成为大模型主流路线。从模态支持上,可分为自然语言处理大模型、cv 大模型、科学计算大模型等,支持模态更加多样。从应用领域看,分为通用大模型和行业大模型,通用大模型具有强大泛化能力,行业大模型则利用行业知识微调以满足特定领域需求。
大模型的前世今生:源于《Attention is All You Need》中提出的 Transformer 机器翻译模型,大模型发展形成两条路。一条是以 Bert 家族为代表的舍弃 Decoder 部分,使用 Encoder 作为编码器的预训练模型,通过 Masked Language Model 进行无监督预训练;另一条是以 GPT 家族为代表的基于 Decoder 部分,通过给定前面单词序列预测下一个单词训练,其成功源于研究发现扩大模型规模可显著提高零样本与小样本学习能力。
数据的重要性:大模型的训练数据包括书籍、文章、网站信息、代码等,全面准确地反映人类知识、语言、文化等,使模型获得识别上下文并生成连贯响应的能力。零样本任务最适合大模型,少样本任务也适合通过展示“问题-答案”对增强表现性能,多样本任务微调可能仍是最好方法。
2.技术特点:
- 拥有丰富的世界知识,能更全面地吸收世界知识,减少对微调相关技术手段的依赖。
- 具备通用任务解决能力,通过预测下一个词元的预训练任务学习,建立了强于传统模型的通用任务求解能力。
- 具有复杂任务推理能力,在复杂推理任务上表现较强,如知识关系推理和数学问题解答。
- 拥有人类指令遵循能力,可直接通过自然语言描述执行任务。
- 具备人类对齐能力,采用基于人类反馈的强化学习技术进行对齐,以阻止功能滥用行为,规避使用风险。
- 展现工具使用能力,可通过微调、上下文学习等方式掌握外部工具的使用。
3.市场格局:
国内外巨头竞争激烈。国外方面,OpenAI 引领发展,如 GPT 系列;微软与 OpenAI 合作;谷歌推出 PaLM2 等;Meta 开源大模型 LLaMA 等。国内方面,科技龙头企业密集发布自研大模型,如百度的文心一言、阿里的通义千问、腾讯的混元 AI 大模型等;投创界积极入局;高校与科研院所也积极布局。
4.多模态发展:
多模态 AI 是大势所趋,以模态融合为核心技术环节,解决实际场景下复杂问题。目前以 Pika 1.0 和 Gemini 为代表的 AI 多模态模型不断突破,推动大模型应用领域加快落地并打开商业化空间。
5.产业链分析:
- 硬件层:包括 AI 芯片、存储芯片、光模块、服务器、温控系统等。如 AI 芯片市场规模增长,光模块市场规模扩大且企业积极布局 800g 光模块。
- 软件层:涵盖操作系统、数据库、中间件、云计算、虚拟化等。中间件市场规模增长,云计算成为数字经济重要基石,市场规模不断扩大。
- 模型层:市场规模快速增长。开发模式上,国内大学、科研机构、企业等不同创新主体积极参与,学术界与产业界联合开发有较大发展空间。
- 应用层:大模型产业化应用沿着通用类大模型拓展应用领域和垂直领域专业类大模型深化落地两条路径发展。
6.面临挑战:
包括评估验证、伦理道德、安全隐患、发展趋势等方面。如需要实际数据集评估模型应对现实挑战,确保模型行为符合人类价值观,做好模型可解释性和监督管理工作,以及探索模型性能是否会随规模增加而增长等问题。
7.未来展望:
随着技术发展,大模型应用将更广泛,在医疗、金融、自动驾驶等多个领域发挥重要作用,推动产业变革和经济发展。同时,普通人也将有更多机会通过学习和掌握 AI 工具,开启新的职业生涯和创业之路。
页:
[1]