AI到底吃啥?
作者:微信文章AI的“饮食”本质:AI通过摄取海量数据来学习模式和知识,类似于人类通过经验积累智慧。研究表明,高质量数据比单纯的数量更重要,能显著提升模型性能。关键“食物”类型:预训练依赖大规模数据集;SFT使用人工标注的指令样本;RAG设计实时知识库检索;多模态包括图像、音频和视频。
一、AI为啥要“吃”?——从饥饿的机器到“认知模型”
🌟
关键词:数据饥饿、表示学习、参数更新、认知模仿
AI的“食欲”从哪里来?神经网络的本质是模式提取器,靠不断吃数据、算梯度、调权重来“理解世界”。类比人类大脑,AI的“吃”其实是摄取信息、消化成参数分布的过程。每一次训练的背后,都是在让模型从“空脑袋”变成“经验丰富”的认知体。根据arXiv调研,中期训练数据集如CommonCrawl和C4帮助模型在表示学习中优化参数分布,提升泛化能力。这反映了AI对数据的“饥饿”源于其架构需求:Transformer模型通过自注意力机制“消化”序列数据,实现认知模仿。
从算法角度看“进食”机制。预训练阶段相当于无监督“暴食”,模型摄入大量互联网信息(例如The Pile数据集)。SFT是精致三餐,使用人工标注的优质样本调整模型行为。RLHF涉及反馈,通过人为的偏好来指导“口味调整”。
为什么AI会越吃越聪明?
数据覆盖面大→语义理解更丰富;训练结构的改进(如Transformer、MoE)能提升消化效率;算力增强允许吃得多还吃得“细”。2025年
二、AI在工作前都要“吃”些什么?——数据的五道硬菜
🌟
关键词:预训练数据、SFT数据、COT、RAG、Agent、多模态
主食:预训练数据集(Pretraining Datasets)。代表的项目有The Pile、C4、Common Crawl、RefinedWeb、StarCoder数据集。其中,Common Crawl是海量网页数据,RefinedWeb经过严格清洗,StarCoder专注于代码。处理工艺设计去重与清洗(正则 + 语言识别 + 低质量过滤)、去毒化与审查过滤(人工 + 自动规则)、Tokenization与分词映射。这些步骤能确保数据“营养均衡”,如Dolma数据集聚焦开源许可文本。
特制餐:SFT(Supervised Fine-tuning)数据。目的是让模型“听懂人话”“符合任务规范”。来源于人工标注问答、对话、指令执行样本。工具链如Label Studio、Argilla、Dify的可视化标注工作流,支持人类-LLM混合策略,提高效率。2025,SFT结合RLHF,使用如ACT as Human的多模态标注框架。
调味料:COT(Chain of Thought)推理样本。构成人类推理链、分布解释、计算中间过程。生成方式:人工标注 + LLM自动扩写 + 策略过滤。工程实践使用Prompt模版自动化生成推理样本(如self-consistency、ReAct),提升LLM推理能力。
快餐:RAG(Retrieval-Augmented Generation)数据流。结构外部知识库 + 向量索引 + 检索问答。实现方式数据向量化(embedding)、构建知识库(SQL/NoSQL + 向量数据库如Postgres + pgvector、Milvus、Chroma)、工作流自动化(Dify可视化工作流、LangChain、LlamaIndex)。工程药店数据更新机制(定期重建索引)、知识准确性与上下文拼接策略。(Agentic RAG实时响应)
套餐:多模态与Agent体系的数据管线。多模态训练图像、语音、视频等跨模态对齐,如Browsing Like Human的多模态代理。Agent训练行为日志、任务执行路径、API调用数据。底层支持SQL查询优化 + Workflow编排 + 调度与并行任务处理,使用Airflow或Prefect。
三、哪些“大厨”的菜AI最爱吃?
🌟
数据工程、标注策略、自动化管线、RAG、Agent框架
原理层面:从“大厨”看菜系差异。数据工程师负责把海量数据进行可训练清晰,如Recipe for Success中混合Common Crawl和RefinedWeb。算法工程师 + AI训练师进行专项微调训练,让AI更懂人话,使用人工-LLM混合如Towards a Cascaded LLM Framework。RAG动态更新,保证知识时效性。多模态工程师融合多形式数据拓展AI能力,如LLM/Agent-as-Data-Analyst调研中的多模态特征提取。
工程实践:AI数据处理:数据获取→清洗→去重→划分。存储结构一般为SQL/NoSQL/向量数据库(Postgres + pgvector、Milvus、Chroma)。人工标注→多人交叉互检→一致性验证,配合AI辅助标注(如Transforming Data Annotation with AI Agents)。自动化工作流Dify可视化平台(流程自动触发、节点执行、变量传递)、LangChain/Airflow/Prefect(代码级任务编排)。反馈与优化用户数据回流→RLHF再训练→模型更新。
四、代码级任务编排(专项介绍)
LangChain:AI链式编排的灵活引擎
专注于LLM链式和代理工作流,支持代码级任务如提示模版、工具调用和状态管理。在LLM数据管道中,它用于动态RAG检索和代理决策,实现自主循环。
关键特点:动态图 vs 静态DAG,支持内存和分支;集成LCEL(LangChain Expression Language)简化代码。
在LLM中的应用:用于SFT数据生成链,或多代理协作如研究代理 + 图表生成。
Airflow:DAG驱动的的可调度器
Airflow以DAG为核心,适合代码级批处理任务编排。在AI数据管道中,用于调度数据清晰、模型训练和评估,确保依赖关系。
关键特点:静态DAG、定时触发、监控UI;支持Python Operator自定义任务。
在LLM中的应用:构建与训练数据ETL管道,或集成Kubeflow处理大规模训练。
Perfect:动态与可靠的混合体
perfect支持代码级动态工作流,强调错误恢复和并行执行。在LLM管道中,用于实时任务如Agent行为日志处理。
关键特点:混合执行模型、子任务嵌套;云原声,支持本地到集群扩展。
在LLM中的应用:自动化多模态数据融合,或RLHF反馈循环。
综合来分析,代码级任务编排设计使用Python等语言定义工作流节点、依赖和执行逻辑,在LLM中用于协调数据从采集到训练的端到端过程。LangChain偏向AI逻辑链,Airflow/Perfect更注重调度。根据Akka的2025报告,这些工具可将管道效率提升40%,但需解决动态 vs 静态的权衡。
引用
Top 10 open source LLMs for 2025: https://www.instaclustr.com/education/open-source-ai/top-10-open-source-llms-for-2025/
LLM training datasets: https://www.glennklockwood.com/garden/LLM-training-datasets
LLMDataHub: Awesome Datasets for LLM Training: https://github.com/Zjh-819/LLMDataHub
Best AI Training Datasets for Machine Learning & Deep Learning: https://humansintheloop.org/best-ai-training-datasets-2025/
The 2025 AI Index Report: https://hai.stanford.edu/ai-index/2025-ai-index-report
Top 9 AI Agent Frameworks as of October 2025: https://www.shakudo.io/blog/top-9-ai-agent-frameworks
I Tested 7 AI Agent Frameworks in 2025: https://medium.com/lets-code-future/i-tested-7-ai-agent-frameworks-in-2025-49c5f00770c1
The Complete Guide to Choosing an AI Agent Framework in 2025: https://www.langflow.org/blog/the-complete-guide-to-choosing-an-ai-agent-framework-in-2025
Top 20+ Agentic RAG Frameworks: https://research.aimultiple.com/agentic-rag/
7 AI Agent Frameworks for Machine Learning Workflows in 2025: https://machinelearningmastery.com/7-ai-agent-frameworks-for-machine-learning-workflows-in-2025/
Guide to LLM Data Annotation: Best Practices 2025: https://keymakr.com/blog/complete-guide-to-llm-data-annotation-best-practices-for-2025/
LLMs and AI Agents Are Transforming Data Engineering Workflows: https://medium.com/%40dataandbeyond/llms-and-ai-agents-are-transforming-data-engineering-workflows-heres-how-to-leverage-them-in-2025-636310b38d89
Automated Data Labeling in 2025: Smarter, Faster, Reliable: https://cleverx.com/blog/automated-data-labeling-in-2025-how-to-deploy-ai-assisted-automation-without-losing-quality
Using LLMs for Automated Data Labeling: https://www.damcogroup.com/blogs/automated-data-labeling-with-llms
7 Best Data Labeling Platforms for Generative AI : https://encord.com/blog/data-labeling-platforms-generative-ai/
页:
[1]