特制餐:SFT(Supervised Fine-tuning)数据。目的是让模型“听懂人话”“符合任务规范”。来源于人工标注问答、对话、指令执行样本。工具链如Label Studio、Argilla、Dify的可视化标注工作流,支持人类-LLM混合策略,提高效率。2025,SFT结合RLHF,使用如ACT as Human的多模态标注框架。
调味料:COT(Chain of Thought)推理样本。构成人类推理链、分布解释、计算中间过程。生成方式:人工标注 + LLM自动扩写 + 策略过滤。工程实践使用Prompt模版自动化生成推理样本(如self-consistency、ReAct),提升LLM推理能力。
套餐:多模态与Agent体系的数据管线。多模态训练图像、语音、视频等跨模态对齐,如Browsing Like Human的多模态代理。Agent训练行为日志、任务执行路径、API调用数据。底层支持SQL查询优化 + Workflow编排 + 调度与并行任务处理,使用Airflow或Prefect。
三、哪些“大厨”的菜AI最爱吃?
🌟
数据工程、标注策略、自动化管线、RAG、Agent框架
原理层面:从“大厨”看菜系差异。数据工程师负责把海量数据进行可训练清晰,如Recipe for Success中混合Common Crawl和RefinedWeb。算法工程师 + AI训练师进行专项微调训练,让AI更懂人话,使用人工-LLM混合如Towards a Cascaded LLM Framework。RAG动态更新,保证知识时效性。多模态工程师融合多形式数据拓展AI能力,如LLM/Agent-as-Data-Analyst调研中的多模态特征提取。
工程实践:AI数据处理:数据获取→清洗→去重→划分。存储结构一般为SQL/NoSQL/向量数据库(Postgres + pgvector、Milvus、Chroma)。人工标注→多人交叉互检→一致性验证,配合AI辅助标注(如Transforming Data Annotation with AI Agents)。自动化工作流Dify可视化平台(流程自动触发、节点执行、变量传递)、LangChain/Airflow/Prefect(代码级任务编排)。反馈与优化用户数据回流→RLHF再训练→模型更新。
综合来分析,代码级任务编排设计使用Python等语言定义工作流节点、依赖和执行逻辑,在LLM中用于协调数据从采集到训练的端到端过程。LangChain偏向AI逻辑链,Airflow/Perfect更注重调度。根据Akka的2025报告,这些工具可将管道效率提升40%,但需解决动态 vs 静态的权衡。
引用
Top 10 open source LLMs for 2025: https://www.instaclustr.com/education/open-source-ai/top-10-open-source-llms-for-2025/
LLM training datasets: https://www.glennklockwood.com/garden/LLM-training-datasets
LLMDataHub: Awesome Datasets for LLM Training: https://github.com/Zjh-819/LLMDataHub
Best AI Training Datasets for Machine Learning & Deep Learning: https://humansintheloop.org/best-ai-training-datasets-2025/
The 2025 AI Index Report: https://hai.stanford.edu/ai-index/2025-ai-index-report
Top 9 AI Agent Frameworks as of October 2025: https://www.shakudo.io/blog/top-9-ai-agent-frameworks
I Tested 7 AI Agent Frameworks in 2025: https://medium.com/lets-code-future/i-tested-7-ai-agent-frameworks-in-2025-49c5f00770c1
The Complete Guide to Choosing an AI Agent Framework in 2025: https://www.langflow.org/blog/the-complete-guide-to-choosing-an-ai-agent-framework-in-2025
Top 20+ Agentic RAG Frameworks: https://research.aimultiple.com/agentic-rag/
7 AI Agent Frameworks for Machine Learning Workflows in 2025: https://machinelearningmastery.com/7-ai-agent-frameworks-for-machine-learning-workflows-in-2025/
Guide to LLM Data Annotation: Best Practices 2025: https://keymakr.com/blog/complete-guide-to-llm-data-annotation-best-practices-for-2025/
LLMs and AI Agents Are Transforming Data Engineering Workflows: https://medium.com/%40dataandbeyond/llms-and-ai-agents-are-transforming-data-engineering-workflows-heres-how-to-leverage-them-in-2025-636310b38d89
Automated Data Labeling in 2025: Smarter, Faster, Reliable: https://cleverx.com/blog/automated-data-labeling-in-2025-how-to-deploy-ai-assisted-automation-without-losing-quality
Using LLMs for Automated Data Labeling: https://www.damcogroup.com/blogs/automated-data-labeling-with-llms
7 Best Data Labeling Platforms for Generative AI [2025]: https://encord.com/blog/data-labeling-platforms-generative-ai/
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.