【AI到底吃啥?】萍聚社区-德国热线-德国实用信息网人工智能

新闻发表于 2025-10-30 20:24

AI到底吃啥?

作者：微信文章
AI的“饮食”本质：AI通过摄取海量数据来学习模式和知识，类似于人类通过经验积累智慧。研究表明，高质量数据比单纯的数量更重要，能显著提升模型性能。关键“食物”类型：预训练依赖大规模数据集；SFT使用人工标注的指令样本；RAG设计实时知识库检索；多模态包括图像、音频和视频。

一、AI为啥要“吃”？——从饥饿的机器到“认知模型”

🌟
关键词：数据饥饿、表示学习、参数更新、认知模仿

AI的“食欲”从哪里来？神经网络的本质是模式提取器，靠不断吃数据、算梯度、调权重来“理解世界”。类比人类大脑，AI的“吃”其实是摄取信息、消化成参数分布的过程。每一次训练的背后，都是在让模型从“空脑袋”变成“经验丰富”的认知体。根据arXiv调研，中期训练数据集如CommonCrawl和C4帮助模型在表示学习中优化参数分布，提升泛化能力。这反映了AI对数据的“饥饿”源于其架构需求：Transformer模型通过自注意力机制“消化”序列数据，实现认知模仿。

从算法角度看“进食”机制。预训练阶段相当于无监督“暴食”，模型摄入大量互联网信息（例如The Pile数据集）。SFT是精致三餐，使用人工标注的优质样本调整模型行为。RLHF涉及反馈，通过人为的偏好来指导“口味调整”。

为什么AI会越吃越聪明？

数据覆盖面大→语义理解更丰富；训练结构的改进（如Transformer、MoE）能提升消化效率；算力增强允许吃得多还吃得“细”。2025年

二、AI在工作前都要“吃”些什么？——数据的五道硬菜

🌟
关键词：预训练数据、SFT数据、COT、RAG、Agent、多模态

主食：预训练数据集（Pretraining Datasets）。代表的项目有The Pile、C4、Common Crawl、RefinedWeb、StarCoder数据集。其中，Common Crawl是海量网页数据，RefinedWeb经过严格清洗，StarCoder专注于代码。处理工艺设计去重与清洗（正则 + 语言识别 + 低质量过滤）、去毒化与审查过滤（人工 + 自动规则）、Tokenization与分词映射。这些步骤能确保数据“营养均衡”，如Dolma数据集聚焦开源许可文本。

特制餐：SFT（Supervised Fine-tuning）数据。目的是让模型“听懂人话”“符合任务规范”。来源于人工标注问答、对话、指令执行样本。工具链如Label Studio、Argilla、Dify的可视化标注工作流，支持人类-LLM混合策略，提高效率。2025，SFT结合RLHF，使用如ACT as Human的多模态标注框架。

调味料：COT（Chain of Thought）推理样本。构成人类推理链、分布解释、计算中间过程。生成方式：人工标注 + LLM自动扩写 + 策略过滤。工程实践使用Prompt模版自动化生成推理样本（如self-consistency、ReAct），提升LLM推理能力。

快餐：RAG（Retrieval-Augmented Generation）数据流。结构外部知识库 + 向量索引 + 检索问答。实现方式数据向量化（embedding）、构建知识库（SQL/NoSQL + 向量数据库如Postgres + pgvector、Milvus、Chroma）、工作流自动化（Dify可视化工作流、LangChain、LlamaIndex）。工程药店数据更新机制（定期重建索引）、知识准确性与上下文拼接策略。（Agentic RAG实时响应）

套餐：多模态与Agent体系的数据管线。多模态训练图像、语音、视频等跨模态对齐，如Browsing Like Human的多模态代理。Agent训练行为日志、任务执行路径、API调用数据。底层支持SQL查询优化 + Workflow编排 + 调度与并行任务处理，使用Airflow或Prefect。

三、哪些“大厨”的菜AI最爱吃？

🌟
数据工程、标注策略、自动化管线、RAG、Agent框架

原理层面：从“大厨”看菜系差异。数据工程师负责把海量数据进行可训练清晰，如Recipe for Success中混合Common Crawl和RefinedWeb。算法工程师 + AI训练师进行专项微调训练，让AI更懂人话，使用人工-LLM混合如Towards a Cascaded LLM Framework。RAG动态更新，保证知识时效性。多模态工程师融合多形式数据拓展AI能力，如LLM/Agent-as-Data-Analyst调研中的多模态特征提取。

工程实践：AI数据处理：数据获取→清洗→去重→划分。存储结构一般为SQL/NoSQL/向量数据库（Postgres + pgvector、Milvus、Chroma）。人工标注→多人交叉互检→一致性验证，配合AI辅助标注（如Transforming Data Annotation with AI Agents）。自动化工作流Dify可视化平台（流程自动触发、节点执行、变量传递）、LangChain/Airflow/Prefect（代码级任务编排）。反馈与优化用户数据回流→RLHF再训练→模型更新。

四、代码级任务编排（专项介绍）

LangChain：AI链式编排的灵活引擎

专注于LLM链式和代理工作流，支持代码级任务如提示模版、工具调用和状态管理。在LLM数据管道中，它用于动态RAG检索和代理决策，实现自主循环。

关键特点：动态图 vs 静态DAG，支持内存和分支；集成LCEL（LangChain Expression Language）简化代码。

在LLM中的应用：用于SFT数据生成链，或多代理协作如研究代理 + 图表生成。

Airflow：DAG驱动的的可调度器

Airflow以DAG为核心，适合代码级批处理任务编排。在AI数据管道中，用于调度数据清晰、模型训练和评估，确保依赖关系。

关键特点：静态DAG、定时触发、监控UI；支持Python Operator自定义任务。

在LLM中的应用：构建与训练数据ETL管道，或集成Kubeflow处理大规模训练。

Perfect：动态与可靠的混合体

perfect支持代码级动态工作流，强调错误恢复和并行执行。在LLM管道中，用于实时任务如Agent行为日志处理。

关键特点：混合执行模型、子任务嵌套；云原声，支持本地到集群扩展。

在LLM中的应用：自动化多模态数据融合，或RLHF反馈循环。

综合来分析，代码级任务编排设计使用Python等语言定义工作流节点、依赖和执行逻辑，在LLM中用于协调数据从采集到训练的端到端过程。LangChain偏向AI逻辑链，Airflow/Perfect更注重调度。根据Akka的2025报告，这些工具可将管道效率提升40%，但需解决动态 vs 静态的权衡。

引用

Top 10 open source LLMs for 2025: https://www.instaclustr.com/education/open-source-ai/top-10-open-source-llms-for-2025/

LLM training datasets: https://www.glennklockwood.com/garden/LLM-training-datasets

LLMDataHub: Awesome Datasets for LLM Training: https://github.com/Zjh-819/LLMDataHub

Best AI Training Datasets for Machine Learning & Deep Learning: https://humansintheloop.org/best-ai-training-datasets-2025/

The 2025 AI Index Report: https://hai.stanford.edu/ai-index/2025-ai-index-report

Top 9 AI Agent Frameworks as of October 2025: https://www.shakudo.io/blog/top-9-ai-agent-frameworks

I Tested 7 AI Agent Frameworks in 2025: https://medium.com/lets-code-future/i-tested-7-ai-agent-frameworks-in-2025-49c5f00770c1

The Complete Guide to Choosing an AI Agent Framework in 2025: https://www.langflow.org/blog/the-complete-guide-to-choosing-an-ai-agent-framework-in-2025

Top 20+ Agentic RAG Frameworks: https://research.aimultiple.com/agentic-rag/

7 AI Agent Frameworks for Machine Learning Workflows in 2025: https://machinelearningmastery.com/7-ai-agent-frameworks-for-machine-learning-workflows-in-2025/

Guide to LLM Data Annotation: Best Practices 2025: https://keymakr.com/blog/complete-guide-to-llm-data-annotation-best-practices-for-2025/

LLMs and AI Agents Are Transforming Data Engineering Workflows: https://medium.com/%40dataandbeyond/llms-and-ai-agents-are-transforming-data-engineering-workflows-heres-how-to-leverage-them-in-2025-636310b38d89

Automated Data Labeling in 2025: Smarter, Faster, Reliable: https://cleverx.com/blog/automated-data-labeling-in-2025-how-to-deploy-ai-assisted-automation-without-losing-quality

Using LLMs for Automated Data Labeling: https://www.damcogroup.com/blogs/automated-data-labeling-with-llms

7 Best Data Labeling Platforms for Generative AI : https://encord.com/blog/data-labeling-platforms-generative-ai/

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

AI到底吃啥?