🤖 AI 专业术语完全指南：从 LLM 到 MCP，一文掌握所有核心概念

📊 嵌入与向量 (Embedding & Vector)

什么是 Embedding？

Embedding（嵌入） 是将文本、图像等高维数据转换为低维向量表示的技术。这些向量捕捉了数据的语义信息，相似的文本在向量空间中距离更近。

主流 Embedding 模型

Vector Database 对比

🎯 常用技巧与模式

ReAct 模式

ReAct（Reasoning + Acting） 是结合推理和行动的模式：

Thought → Action → Observation → Thought → Action → ...

💡

ReAct 核心思想：让 AI 在执行任务时，一边思考一边行动，并根据行动结果调整下一步策略。

代理式工作流

🔄

典型 Agent 工作流：

用户输入 → 规划 Agent → 执行 Agent → 审核 Agent → 输出结果

规划 Agent：分解任务，制定执行计划

执行 Agent：调用工具，逐个完成任务

审核 Agent：检查结果，确保质量

并行 vs 串行工具调用

📺 学习资源

官方文档

视频教程

🏷️ 术语速查表

本文由 Claude Code 生成，参考资料详见文首

最后更新：2026-01-29

AI 专业术语完全指南：从 LLM 到 MCP

📚

本文旨在系统性地解释大语言模型（LLM）领域的核心概念，帮助读者建立完整的知识体系。文中涉及的技术细节基于 2024-2025 年主流 AI 研究成果。

大语言模型正在深刻改变人类与机器的交互方式。理解其背后的核心概念，对于有效使用 AI 工具、参与技术讨论、以及构建 AI 应用都至关重要。本文将从基础概念出发，系统性地介绍 LLM 领域的完整术语体系。

1. 基础概念：AI、机器学习、深度学习与 LLM

这四个概念形成了一个包含关系：AI ⊃ 机器学习 ⊃ 深度学习 ⊃ 大语言模型

📊

人工智能（AI）：计算机科学的一个分支，致力于创建能够模拟人类智能的系统。机器学习（ML）：AI 的子领域，让计算机通过数据学习规律，而不需要明确的编程指令。深度学习（DL）：机器学习的分支，使用多层神经网络自动学习数据的层次化特征。大语言模型（LLM）：基于深度学习的模型，在海量文本数据上训练，能够理解和生成人类语言。

2. Transformer 架构：现代 LLM 的基石

Transformer 是 2017 年由 Google 在论文 Attention Is All You Need 中提出的架构，它完全基于 Attention 机制，摒弃了传统的循环神经网络。这一创新使得模型能够并行处理序列数据，大大提升了训练效率。

📄

核心论文：Vaswani et al., Attention Is All You Need, 2017。这篇论文被引用超过 10 万次，是 LLM 领域最重要的基础论文之一。

3. Token：LLM 的语言基本单位

Token 是 LLM 处理文本的基本单位。Token 不等于单词：英文中平均 1 个单词约等于 1.3 个 Token，中文中平均 1 个汉字约等于 1 个 Token。例如：Hello, world 会被分解为 [Hello, ,, world] 三个 tokens。

💡

理解 Token 对于控制 API 成本、优化提示词长度、避免上下文截断都至关重要。不同模型使用不同的分词器（如 GPT-4 使用 cl100k_base，Claude 使用自定义分词器）。

4. Embedding：将语言转化为数字

Embedding 是将离散符号（单词、字符）映射到连续向量空间的技术。在向量空间中，语义相似的词语在空间中也更加接近。例如：国王 - 男人 + 女人 ≈ 女王。

📐

Embedding 特点：维度固定（如 768、1024、1536 维）；语义相似性可通过向量距离（余弦相似度）衡量；可通过预训练模型（如 OpenAI text-embedding-ada-002）获取高质量 Embedding。

5. Attention 机制：理解上下文的关键

Attention 机制让模型能够在处理每个位置时，关注输入序列中的其他相关位置。这种聚焦能力是 LLM 理解上下文的基础。公式：Attention = softmax(QK/d_k) × V，其中 Q=Query，K=Key，V=Value。

6. Prompt Engineering：与 LLM 对话的艺术

Prompt Engineering 是设计和优化输入提示词的技术，旨在引导 LLM 产生更准确、更有用的输出。核心技巧包括：Zero-shot（直接提问）、Few-shot（提供示例）、Chain-of-Thought（引导逐步推理）。

7. RAG：检索增强生成

RAG（Retrieval-Augmented Generation）是一种结合检索和生成的技术架构。通过从外部知识库检索相关信息，增强 LLM 的回答质量和时效性。工作流程：文档加载 → 分块 → 生成 Embedding → 存储到向量数据库 → 检索相关文档 → 注入 Prompt → LLM 生成回答。

8. Fine-tuning：模型微调技术

Fine-tuning 是在预训练模型基础上，使用特定领域数据进行进一步训练，使模型适应特定任务或领域。适用于学习新的模式、风格、格式，需要高质量标注数据，成本较高但推理速度快。

⚖️

Fine-tuning vs RAG：Fine-tuning 适合学习新模式，需要训练数据，推理快；RAG 适合引入外部知识，无需训练，数据更新容易，但推理时需要检索。

9. Agent：AI 智能体

AI Agent 是能够感知环境、做出决策并采取行动的系统。与简单的 LLM 不同，Agent 可以自主规划、执行复杂任务。核心能力包括：感知（接收输入）、推理（分析问题）、行动（调用工具）、学习（从反馈改进）。

10. Tool Use：工具调用能力

Tool Use 让 LLM 能够调用外部工具（搜索、计算、API）来扩展其能力边界。这是实现 Agent 功能的关键技术之一。常见工具类型包括：搜索工具、计算工具、API 工具、文件工具。

11. MCP：模型上下文协议

MCP（Model Context Protocol）是 Anthropic 提出的开源标准协议，用于连接 AI 与外部系统。它就像 AI 领域的 USB-C，提供统一的工具和数据访问接口。核心特性：开源标准、标准化接口、安全可控、可组合。

总结

本文系统性地介绍了 LLM 领域的核心概念，从基础的 AI/ML/DL/LLM 层次关系，到 Transformer 架构的底层原理，再到实际应用中的 Prompt Engineering、RAG、Fine-tuning 等技术，以及 Agent、Tool Use、MCP 等前沿概念。

⚠️

声明：本文由 AI 生成，可能存在错误或不准确之处。建议读者查阅原始论文和官方文档获取权威信息。

最后更新：2026-01-29