我爱免费 发表于 2025-3-2 08:22

AI入门1:基本术语/AIGC一些应用尝试/RAG/模型

作者:微信文章
基本术语

AGI:Artificial General Intelligence。通用人工智能。AIGC:Al generated content。人工智能生成内容。这里也包含了几个方向:文本生成;图像生成;音频生成;视频生成。Agent:代理。在AI 领域,Agent(代理)是指一种能够感知环境、做出决策并执行行动的智能实体。Agent 可以是软件程序、机器人或其他形式的智能系统,其核心目标是通过自主行动实现特定的目标。Attention:注意力。在神经网络的上下文中,注意力机制有助于模型在生成输出时专注于输入的相关部分。CNN:卷积神经网络。Convolutional Neural Network (CNN),一种深度学习模型,通过应用一系列过滤器来处理具有网格状拓扑(例如图像)的数据。此类模型通常用于图像识别任务。ChatGPT:ChatGPT是OpenAl开发的人工智能聊天机器人程序。CoT:思维链提示(CoT,Chain-of-thought)通过提示LLM生成一系列中间步骤来提高LLM的推理能力,这些中间步骤会导致多步骤问题的最终答容案。该技术由谷歌研究人员于2022年首次提出。机器学习(Machine Learning),深度学习(Deep Learning),大语言模型(LLM)。
人工智能:


机器学习。
自然语言处理(Natural Language Processing, NLP) 领域
大语言模型(Large Language Models, LLMs)



计算机视觉。卷积神经网络(CNN)、生成对抗网络(GAN)。人脸识别、自动驾驶。

机器人。



Distillation:蒸馏。将大模型的知识转移到小模型的过程。微调 Fine-Tuning。微调是迁移学习的一种常用技术。目标模型复制了源模型上除掉了输出层外的所有模型设计及其参数,并基于目标数据集微调这些参数。微调在自然语言处理(NLP)中很常见,尤其是在语言建模领域。像OpenAl的GPT这样的大型语言模型可以在下游NLP任务上进行微调,以产生比预训练模型通常可以达到的更好的结果。GAN:通用Generative Adversarial Network (GAN),一种机器学习模型,用于生成类似于某些现有数据的新数据。它使两个神经网络相互对抗:一个"生成器",创建新数据,另一个"鉴别器"试图将数据与真实数据区分开来。Generative Al / Gen Al:生成式AI。AI的一个分支,专注于创建模型,这些模型可以根据现有数据的模式和示例生成新的原创内容,例如图像、音乐或文本。LLM:large language model (LLM)大语言模型是由具有许多参数(通常为数十亿或更多权重)的神经网络组成的语言模型,使用自监督学习或半监督学习对大量未标记文本进行训练。机器学习:机器学习是人工智能的一个分支。人工智能的研究历史有着一条从以"推理"为重点,到以"知识"为重点,再到以"学习"为重点的自然、清晰的脉络。显然,机器学习是实现人工智能的一个途径之一,即以机器学习为手段,解决人工智能中的部分问题。NLP:NLP是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言处理包括多方面和步骤,基本有认知、理解、生成等部分。Neural Network:神经网络。一种受人脑启发的人工智能模型。它由连接单元或节点(称为神经元)组成,这些单元或节点按层组织。神经元接受输入,对它们进行一些计算,并产生输出。Prompt Engineering:提示工程。它是人工智能中的一个概念,特别是自然语言处理(NLP)。在提示工程中,任务的描述会被嵌入到输入中。提示工程的典型工作方式是将一个或多个任务转换为基于提示的数据集,并通过所谓的"基于提示的学习(prompt-based learning)"来训练语言模型。RAG:检索增强生成。RAG(Retrieval-augmented generation)检索增强生成。强化学习:Reinforcement Learning。强化学习(Reinforcement learning,简称RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。强化学习是除了监督学习和非监督学习之外的第三种基本的机器学习方法。Token:语言模型处理的基本单位,通常是单词或子词。在与ChatGPT的对话中,"token"是指一种文本输入的单位,它可以是一个单词、一个标点符号、一个字母或者是一个特殊的编码,具体取快于文本的处理方式。在自然语言处理中,我们通常将文本拆分为一个个离散的的token,以便于计算机理解和处理在GPT模型中,token是模型接收的最小单位。模型在训练和生成文本时,将输入的文本序列划分为一系列的token,并通过对这些toker进行处理和分析来 生成响应。例如,在一个对话中,一句话可以被划分为多个token,包括单词、标点符号等。XAI:Explainable Al (XAI),人工智能的一个子领域专注于创建透明的模型,为其决策提供清晰易懂的解释。

AIGC的一些应用

文本生成

也就是问答对话,例如现在比较火的 DeepSeek,ChatGPT。
图像生成

有 OpenAI 的 DALL·E 3;Stability AI;Midjourney 等。

例如OpenAI 的 DALL·E 3:



例如 Stability AI,它的最新模型是 SD3.5,例如 https://www.diffus.me/ 就集成了该模型。


例如 Midjourney:

音频生成

TTS(Text-to-Speech,文本转语音)。这个领域上,ElevenLabs 市场领先。其他的也有 OpenAI 的 Whisper 可以用于把语音转为文本。


视频生成

可灵,sora,即梦,Runaway 等。例如可灵:



RAG

RAG 是 Retrieval-Augmented Generation(检索增强生成) 的缩写,指的是一种结合了 信息检索 和 生成模型 的技术,旨在提高语言模型在回答问题或生成内容时的准确性和相关性。简单来说,RAG 通过将外部知识库或数据源中的信息作为上下文提供给生成模型,增强其生成的质量和准确性。

RAG 结合了两部分技术:
检索(Retrieval):在生成内容之前,系统通过检索机制从一个大的外部文档集合(例如数据库、网页、知识库等)中找到相关的信息片段。生成(Generation):一旦系统从外部文档中检索到相关的信息,生成模型(如 GPT、BERT 等)将这些信息与原始查询结合,生成更准确、更丰富的回答或文本内容。

它通过动态地从外部知识库检索信息,并将其与生成模型结合,来产生更加精准和相关的回答。RAG 已在问答系统、对话系统、内容创作等领域得到了广泛应用,成为增强 AI 系统性能的一个重要技术手段。

模型

当前比较火的几类模型:
OpenAI 的 GPT 系列:

2. DeepSeek 系列:

3. Anthropic 的 Claude 系列:

4. 其他模型还有阿里的 Qwen2.5,马斯克的xAI公司的 Grok3,扎克伯格MetaAI 的 Llama3.3 等。
页: [1]
查看完整版本: AI入门1:基本术语/AIGC一些应用尝试/RAG/模型