《图解大模型生成式AI原理与实战》(沙特)杰伊·阿拉马尔(Jay Alammar),(荷)马尔滕·格鲁滕多斯特(Maarten Grootendorst)人民邮电出版社豆瓣PDF电子书网盘迅雷下载在线免费阅读教育考试-考试-计算机类-Fahrenheit英汉词典

书名

图解大模型生成式AI原理与实战

分类

教育考试-考试-计算机类

作者

(沙特)杰伊·阿拉马尔(Jay Alammar),(荷)马尔滕·格鲁滕多斯特(Maarten Grootendorst)

出版社

人民邮电出版社

下载

抱歉，不提供下载，请购买正版图书。

简介

编辑推荐

1.【直观】300幅全彩插图，很好视觉化呈现
2.【全面】涵盖大模型原理、应用开发、优化
3.【实操】真实数据集，实用项目，典型场景
4.【热点】18幅图深度解读DeepSeek底层原理
5.【附赠】一键运行代码+大模型面试题200问
6.【视频】大量线上拓展资料，包括文章、视频

内容推荐

本书全程图解式讲解，通过大量全彩插图拆解概念，让读者真正告别学习大模型的枯燥和复杂。
全书分为三部分，依次介绍语言模型的原理、应用及优化。第一部分理解语言模型（第1~3章），解析语言模型的核心概念，包括词元、嵌入向量及Transformer架构，帮助读者建立基础认知。第二部分使用预训练语言模型（第4~9章），介绍如何使用大模型进行文本分类、聚类、语义搜索、文本生成及多模态扩展，提升模型的应用能力。第三部分训练和微调语言模型（第10~12章），探讨大模型的训练与微调方法，包括嵌入模型的构建、分类任务的优化及生成式模型的微调，以适应特定需求。
本书适合对大模型感兴趣的开发者、研究人员和行业从业者。读者无须深度学习基础，只要会用Python，就可以通过本书深入理解大模型的原理并上手大模型应用开发。书中示例还可以一键在线运行，让学习过程更轻松。

对本书的赞誉xi
对本书中文版的赞誉xiii
译者序xv
中文版序xxi
前言xxiii
第一部分理解语言模型
第1章大语言模型简介3
1.1什么是语言人工智能4
1.2语言人工智能的近期发展史4
1.2.1将语言表示为词袋模型5
1.2.2用稠密向量嵌入获得更好的表示7
1.2.3嵌入的类型9
1.2.4使用注意力机制编解码上下文10
1.2.5“Attention Is All You Need”13
1.2.6表示模型：仅编码器模型16
1.2.7生成模型：仅解码器模型18
1.2.8生成式AI元年20
1.3“LLM”定义的演变22
1.4LLM的训练范式22
1.5LLM的应用23
1.6开发和使用负责任的LLM24
1.7有限的资源就够了25
1.8与LLM交互25
1.8.1专有模型26
1.8.2开源模型26
1.8.3开源框架27
1.9生成你的第一段文本28
1.10小结30
第2章词元和嵌入31
2.1LLM的分词32
2.1.1分词器如何处理语言模型的输入32
2.1.2下载和运行LLM33
2.1.3分词器如何分解文本36
2.1.4词级、子词级、字符级与字节级分词37
2.1.5比较训练好的LLM分词器39
2.1.6分词器属性47
2.2词元嵌入48
2.2.1语言模型为其分词器的词表保存嵌入49
2.2.2使用语言模型创建与上下文相关的词嵌入49
2.3文本嵌入（用于句子和整篇文档）52
2.4LLM之外的词嵌入53
2.4.1使用预训练词嵌入53
2.4.2word2vec算法与对比训练54
2.5推荐系统中的嵌入57
2.5.1基于嵌入的歌曲推荐57
2.5.2训练歌曲嵌入模型58
2.6小结60
第3章LLM的内部机制61
3.1Transformer模型概述62
3.1.1已训练TransformerLLM的输入和输出62
3.1.2前向传播的组成64
3.1.3从概率分布中选择单个词元（采样/解码）66
3.1.4并行词元处理和上下文长度68
3.1.5通过缓存键值加速生成过程70
3.1.6Transformer块的内部结构71
3.2Transformer架构的近期新改进79
3.2.1更高效的注意力机制79
3.2.2Transformer块83
3.2.3位置嵌入：RoPE85
3.2.4其他架构实验和改进87
3.3小结87
第二部分使用预训练语言模型
第4章文本分类91
4.1电影评论的情感分析92
4.2使用表示模型进行文本分类93
4.3模型选择94
4.4使用特定任务模型96
4.5利用嵌入向量的分类任务99
4.5.1监督分类99
4.5.2没有标注数据怎么办102
4.6使用生成模型进行文本分类105
4.6.1使用T5106
4.6.2使用ChatGPT进行分类110
4.7小结113
第5章文本聚类和主题建模114
5.1ArXiv文章：计算与语言115
5.2文本聚类的通用流程116
5.2.1嵌入文档116
5.2.2嵌入向量降维117
5.2.3对降维后的嵌入向量进行聚类119
5.2.4检查生成的簇120
5.3从文本聚类到主题建模122
5.3.1BERTopic：一个模块化主题建模框架124
5.3.2添加特殊的“乐高积木块”131
5.3.3文本生成的“乐高积木块”135
5.4小结138
第6章提示工程140
6.1使用文本生成模型140
6.1.1选择文本生成模型140
6.1.2加载文本生成模型141
6.1.3控制模型输出143
6.2提示工程简介145
6.2.1提示词的基本要素145
6.2.2基于指令的提示词147
6.3高级提示工程149
6.3.1提示词的潜在复杂性149
6.3.2上下文学习：提供示例152
6.3.3链式提示：分解问题153
6.4使用生成模型进行推理155
6.4.1思维链：先思考再回答156
6.4.2自洽性：采样输出159
6.4.3思维树：探索中间步骤160
6.5输出验证161
6.5.1提供示例162
6.5.2语法：约束采样164
6.6小结167
第7章高级文本生成技术与工具168
7.1模型输入/输出：基于LangChain加载量化模型169
7.2链：扩展LLM的能力171
7.2.1链式架构的关键节点：提示词模板172
7.2.2多提示词链式架构174
7.3记忆：构建LLM的对话回溯能力177
7.3.1对话缓冲区178
7.3.2窗口式对话缓冲区180
7.3.3对话摘要181
7.4智能体：构建LLM系统185
7.4.1智能体的核心机制：递进式推理186
7.4.2LangChain中的ReAct实现187
7.5小结190
第8章语义搜索与RAG191
8.1语义搜索与RAG技术全景191
8.2语言模型驱动的语义搜索实践193
8.2.1稠密检索193
8.2.2重排序204
8.2.3检索评估指标体系207
8.3RAG211
8.3.1从搜索到RAG212
8.3.2示例：使用LLMAPI进行基于知识的生成213
8.3.3示例：使用本地模型的RAG213
8.3.4高级RAG技术215
8.3.5RAG效果评估217
8.4小结218
第9章多模态LLM219
9.1视觉Transformer220
9.2多模态嵌入模型222
9.2.1CLIP：构建跨模态桥梁224
9.2.2CLIP的跨模态嵌入生成机制224
9.2.3OpenCLIP226
9.3让文本生成模型具备多模态能力231
9.3.1BLIP-2：跨越模态鸿沟231
9.3.2多模态输入预处理235
9.3.3用例1：图像描述237
9.3.4用例2：基于聊天的多模态提示词240
9.4小结242
第三部分训练和微调语言模型
第10章构建文本嵌入模型247
10.1嵌入模型247
10.2什么是对比学习249
10.3SBERT251
10.4构建嵌入模型253
10.4.1生成对比样本253
10.4.2训练模型254
10.4.3深入评估257
10.4.4损失函数258
10.5微调嵌入模型265
10.5.1监督学习265
10.5.2增强型SBERT267
10.6无监督学习271
10.6.1TSDAE272
10.6.2使用TSDAE进行领域适配275
10.7小结276
第11章为分类任务微调表示模型277
11.1监督分类277
11.1.1微调预训练的BERT模型279
11.1.2冻结层281
11.2少样本分类286
11.2.1SetFit：少样本场景下的高效微调方案286
11.2.2少样本分类的微调290
11.3基于掩码语言建模的继续预训练292
11.4命名实体识别297
11.4.1数据准备298
11.4.2命名实体识别的微调303
11.5小结305
第12章微调生成模型306
12.1LLM训练三步走：预训练、监督微调和偏好调优306
12.2监督微调308
12.2.1全量微调308
12.2.2参数高效微调309
12.3使用QLoRA进行指令微调317
12.3.1模板化指令数据317
12.3.2模型量化318
12.3.3LoRA配置319
12.3.4训练配置320
12.3.5训练321
12.3.6合并权重322
12.4评估生成模型322
12.4.1词级指标323
12.4.2基准测试323
12.4.3排行榜324
12.4.4自动评估325
12.4.5人工评估325
12.5偏好调优、对齐326
12.6使用奖励模型实现偏好评估自动化327
12.6.1奖励模型的输入和输出328
12.6.2训练奖励模型329
12.6.3训练无奖励模型332
12.7使用DPO进行偏好调优333
12.7.1对齐数据的模板化333
12.7.2模型量化334
12.7.3训练配置335
12.7.4训练336
12.8小结337
附录图解DeepSeek-R1338
后记349

书评(媒体评论)

这本书延续了Jay和Maarten一贯的风格，通过精美的插图搭配深入浅出的文字，将复杂概念讲解得形象生动，为想要深入理解大模型底层技术的读者提供了宝贵的学习资源。
——吴恩达（Andrew Ng），DeepLearning.AI创始人
在大模型时代，想不出还有哪本书比这本更值得一读！不要错过书中任何一页，你会从中学到至关重要的知识。
——Josh Starmer，YouTube热门频道StatQuest作者
这本书堪称探索大模型技术与行业实践应用的权威指南。全书通过高度可视化的方式解析大模型的生成、表示与检索应用，帮助读者快速理解技术原理、落地实践并优化大模型。强烈推荐!
——Nils Reimers，Cohere机器学习总监、sentence-transformers库创建者
这本书以“图解”为特色，将复杂的大模型技术转化为直观易懂的视觉语言，让抽象概念一目了然，堪称技术人的“视觉化学习手册”!书中既剖析语言模型和Transformer的核心原理，又涵盖提示工程和微调等实战技巧，兼具深度与实用性。
——袁进辉(@老师木)，硅基流动（SiliconFlow）创始人
这是一本少见的将原理讲解、实践操作与直观图示融合得如此出色的入门书。中文版由技术功底深厚的李博杰老师精心翻译，并特别补充了DeepSeek原理介绍，是理解生成式AI的重要起点。
——周礼栋，微软亚洲研究院院长
本提供了丰富的插图和案例，帮助读者掌握大模型基础知识，了解不同类型的大模型及其在不同场景中的典型用法。不论对于大模型初学者还是行业专家，这都是一本的好教材!
——林俊旸，阿里巴巴Qwen算法负责人

入门大模型的好教材！原作者思路清晰、逻辑严密，善于将复杂的原理抽丝剥茧、层层展开；译者则用准确而流畅的语言再现了原作的精髓，确保中文读者同样能够轻松理解并掌握这些前沿技术。
——李国豪，CAMEL-AI.org社区创始人

从大模型的核心理论到实战，通过这一本书就能学透。对于“大模型训练师”这样的热门职业，这本书堪称经典入门教材，强烈推荐!
——仲泰，特工宇宙(AgentUniverse)创始人

随便看

Fahrenheit英汉词典电子书栏目提供海量电子书在线免费阅读及下载。