6000字解读：当前大语言模型LLM研究的10大挑战（nlp 语言模型）

大型模型卡车正在吸引众多企业和企业家的投资。那么，目前大规模模型赛道的主流研究方向和常见挑战有哪些呢？在本文中，作者将整理LLM研究的十大挑战。这对于想要了解这方面的同学可能会有用。

Open challenges in LLM research

这是我一生中第一次看到这么多聪明的人同时为一个共同的目标而努力：让大规模语言模型更加完整。经过与工业界和学术界的多位人士交流，我们发现已经出现了10个主要研究方向。目前最受关注的两个方向是幻觉（输出幻觉）和情境学习。

我最感兴趣的是下面的第三个方向（多模态多模态数据模式）、第五个方向（新架构）、第六个方向（开发GPU替代解决方案）。

LLM 研究中十大未解决的挑战：

减少和评估输出输出（虚构信息）优化上下文长度和上下文构建集成其他数据格式提高语言模型的速度和成本效益设计新的模型架构开发替代GPU 解决方案代理（人工智能）提高聊天界面的可用性来自人类偏好的改进以及学习和构建英语以外语言的语言模型的能力

一、减少和评估幻觉

输出环境是一个经常争论的话题，因此我们将在这里简要讨论它们。当人工智能模型编造某些东西时，就会出现幻觉。在许多创意用例中，幻觉是一种功能。

然而，在大多数应用中，幻觉都是错误的。最近，我参加了一个关于LLM的研讨会，与会者包括来自Dropbox、Langchain、Elastics和Anthropic**的专家。在他们看来，虚拟输出是企业将LLM应用到现实生产环境时需要克服的第一个障碍。 **

减少模型的虚幻输出并开发评估虚幻输出的指标是一个新兴的研究课题，目前许多初创公司都在关注这个问题。还有一些技术可以减少虚假输出的可能性，例如为提示词添加更多上下文、CoT、自我一致性，以及特别要求模型响应简洁且明确。

以下是一系列关于幻觉输出的论文和参考文献。

研究自然语言产生中的幻觉（Ji 等人，2022）语言模型幻觉如何滚雪球（Zhang 等人，2023） ChatGPT 在推理、幻觉和交互性方面的多任务、多语言和多模式评估（Bang 等人） . 2023), 2023)对比学习减少对话中的幻觉(Sun et al. 2022)自洽改善语言模型中的思维推理(Wang et al. 2022)SelfCheckGPT: 用于生成大规模语言模型零资源黑色-box 幻觉检测（Manakul 等人，2023）使用NVIDIA NeMo-Guardrails 进行事实检查和幻觉的简单示例

二、优化上下文长度和上下文构建

大多数问题都需要上下文。例如，如果您询问ChatGPT“哪家越南餐厅是最好的？”，您需要的上下文是“这家餐厅到底位于哪里？”因为越南最好的越南餐厅和美国最好的越南餐厅是一样的。对于餐馆来说，问题的范围有所不同。

根据《SITUATEDQA: Incorporating Extra-Linguistic Contexts into QA》下的一篇很酷的论文（Zhang & Choi，2021），信息检索问题的答案很大一部分是上下文相关的，例如在Naturalquestions NQ-Open 数据集中大约16.5%。

（NQ-Open:https://ai.google.com/research/NaturalQuestions）

**我个人认为，如果企业实际遇到的情况下，这个比例会更高。 **例如，当公司构建客户支持聊天机器人来回答客户有关产品的问题时，所需的上下文可能是客户的历史记录或有关产品的信息。语言模型从它们提供的上下文中“学习”，因此这个过程也称为上下文学习。

客户支持查询所需的上下文

上下文长度对于RAG（Retrieval Augmentation Generation）来说非常重要，它已经成为大规模语言模型行业应用场景的主导模式。具体来说，搜索扩展生成分为两个主要阶段。

第1 阶段：分块（也称为索引）分块（也称为索引）

它收集LLM 使用的所有文档，将这些文档分割成可以输入模型以生成嵌入的块，并将这些嵌入存储在向量数据库中。

第二阶段：查询

当用户提交诸如“我的保险涵盖药物X 吗？”之类的查询时，大型语言模型会将此查询转换为名为QUERY_EMBEDDING 的嵌入。矢量数据库检索填充与QUERY_EMBEDDING 最相似的块。

上下文长度越长，可以将更多块打包到上下文中。模型捕获的信息越多，其输出和响应的质量就越高。

不总是。模型可用的上下文数量以及模型使用上下文的效率是两个不同的问题。我们正在努力增加模型的上下文长度，同时提高上下文的效率。有人称之为“即时工程”或“即时施工”。例如，最近的一篇论文描述了模型如何更好地理解索引的开头和结尾，而不仅仅是中间的信息。—— 迷失在中间，语言模型如何使用长上下文（Liu 等人， 2023）。

三、其他数据模式融入（多模态）

在我看来，多模态是一个非常强大但被低估的方面。解释应用多模态的原因。

首先，许多特定的应用场景需要多模态数据，特别是在医疗保健、机器人、电子商务、零售、游戏和娱乐等具有混合数据模态的行业。例如：

医学测试通常需要文本（例如医生的笔记或患者调查问卷）或图像（例如CT、X 射线或MRI 扫描）。产品元数据通常包括照片、视频、描述，甚至表格数据（制造日期、重量、颜色等）。这是因为，从需求角度来看，我们可能需要根据用户评论或者产品照片自动填写缺失的产品信息。您可能希望允许用户使用视觉信息（例如形状或颜色）搜索产品。

其次，多模态有望显着提高模型性能。理解文本和图像的模型难道不应该比仅理解文本的模型表现得更好吗？基于文本的模型需要如此多的文本，以至于我担心我很快就会耗尽用于训练的互联网数据。在。一旦文本用尽，就必须使用其他数据模式。

我特别兴奋的一个用例是多模态技术如何帮助有视觉障碍的人浏览互联网和现实世界。

以下是与多模态相关的一系列论文和参考文献。

[CLIP] 从自然语言观察中学习可转移视觉模型(OpenAI, 2021) Flamingo: 用于少量学习的视觉语言模型(DeepMind, 2022) BLIP-2: 从自然语言观察中学习可转移视觉模型(OpenAI, 2021) Bootstrap Image Pre-培训（Salesforce，2023）KOSMOS-1: 这不仅仅是语言：语言模型和识别对齐（Microsoft，2023）PaLM-E: 体现多模态语言模型（Google，2023）LLaVA: 视觉指令调整（Liu 等人，2023）NeVA: NeMo Visual和语言助手（NVIDIA，2023）

四、让 LLM 更快、成本更低

当GPT-3.5 于2022 年11 月底首次发布时，许多人对在生产中使用它的延迟和成本表示担忧。然而，从那时起，延迟/成本分析发生了迅速变化。在不到六个月的时间里，社区发现了一种创建模型的方法，该模型的性能非常接近GPT-3.5，但仅需要GPT-3.5 约2% 的内存占用。

这里的要点是，如果你构建的东西足够好，人们就会找到一种快速且经济高效地构建它的方法。

下面是《Guanaco 7B》的性能数据与《Guanco》论文中报告的ChatGPT GPT-3.5 和GPT-4 的性能相比。请注意：总体而言，下面的表现比较远非完美，评估LLM非常困难。

guanaco 7B 与ChatGPT GPT-3.5 和GPT-4 的性能比较：

四年前，当我开始撰写笔记（成为第《设计机器学习系统》本书的“模型压缩”部分）时，我写了关于模型优化/压缩的四种主要技术。

量化：迄今为止最通用的模型优化方法。量化通过使用更少的位来表示参数来减小模型的大小。例如，您可以使用16 位甚至4 位来表示浮点数，而不是使用32 位。知识蒸馏：如何训练小模型来模仿大模型或模型集合。低阶分解：这里的关键思想是用低维张量替换高维张量以减少参数数量。例如，33张量可以分解为31张量和13张量的乘积，因此只需要6个参数，而不是9个。修剪

上面列出的所有四种技术今天仍然相关且流行。羊驼利用知识的蒸馏来进行训练。 QLoRA 使用低秩分解和量化的组合。

五、设计一种新的模型架构

自2012 年AlexNet 以来，我们见证了许多架构的兴衰，包括LSTM、seq2seq 等。相比之下，《变形金刚》的影响力是巨大的。 Transformer 自2017 年以来就已出现，但这种架构会继续流行多久还是一个悬而未决的问题。

开发一种性能优于Transformer 的新架构并不容易。 Transformer 在过去的六年里经历了大量的优化，这个新的架构需要运行在人们现在关心的硬件上，以人们现在关心的规模运行。

注：Google 最初设计Transformer 是为了在TPU 上快速运行，然后在GPU 上对其进行了优化。

2021年，Chris R实验室的S4受到广泛关注。有关更多信息，请参阅《Efficiently Modeling Long Sequences with Structured State Spaces》（Gu 等人，2021）。 Chris R 的实验室仍在积极开发新架构，其中之一是最近与初创公司Together 合作开发的Monarch Mixer（Fu，2023）。

他们的主要思想是，对于现有的Transformer 架构，感兴趣的复杂度是序列长度的二次方，而MLP 的复杂度是模型维度的二次方。具有二次二次复杂度的架构将更加高效。

君主搅拌机

六、开发 GPU 替代方案

自2012 年AlexNet 以来，GPU 一直是深度学习的主要硬件。 **事实上，AlexNet 受欢迎的一个公认原因是它是第一篇使用GPU 成功训练神经网络的论文。 **在GPU 出现之前，如果你想训练AlexNet 规模的模型，你必须使用数千个CPU，就像Google 在AlexNet 之前几个月发布的那样。与数千个CPU 相比，少数GPU 更适合博士生和研究人员使用，从而引发了深度学习研究的热潮。

在过去的十年中，许多公司，无论是大型公司还是初创公司，都尝试开发新的人工智能硬件。一些最著名的成果包括Google 的TPU、Graphcore 的IPU（什么是IPU？）和Cerebras。 SambaNova 已筹集超过10 亿美元用于开发新的AI 芯片，但似乎已转向生成式AI 平台。

一段时间以来，量子计算前景广阔，主要参与者包括：

IBM 的QPU、谷歌的量子计算机今年早些时候在期刊《自然》上报告了减少量子误差方面的一个重要里程碑。其量子虚拟机可通过Google Colab 公开访问。麻省理工学院量子工程中心、马克斯普朗克量子光学研究所、芝加哥量子交换中心和橡树岭国家实验室等研究机构。

**另一个同样有趣的方向是光子芯片。 **本人对这方面的了解有限，如有错误请指正。现有芯片使用电力来传输数据，这会消耗大量能源并带来延迟。另一方面，光子芯片使用光子传输数据并利用光速来执行更快、更高效的计算。多家初创公司已在该领域筹集了数亿美元，包括Lightmatter（2.7 亿美元）、Ayar Labs（2.2 亿美元）、Lightelligence（超过2 亿美元）和Luminous Compute（我们正在采购）。

以下是光子矩阵计算的三种主要方法的进展时间表，摘自论文《Photonic matrix multiplication lights up photonic accelerator and beyond》（Zhou，Nature 2022）。这三种不同的方法是平面光转换(PLC)、马赫曾德尔干涉测量(MZI) 和波分复用(WDM)。

七、提高agents的可用性

代理是指一种大型语言模型，可以执行浏览互联网、发送电子邮件、预订等动作（之所以称为代理，是因为可以理解为可以代表用户完成各种任务的代理）。 **与本文中的其他研究方向相比，这可能是最新的方向之一。人们对代理感到兴奋，因为它们的新颖性和巨大的潜力。 **Auto-GPT 目前是GitHub 上最受欢迎的存储库中排名第25 的。 GPT-Engineering 是另一个流行的存储库。

**虽然这个方向很有趣，但仍然存在关于大规模语言模型是否可靠且性能足以执行操作的问题。 **然而，使用代理进行社会研究的应用场景也正在出现。

例如，著名的斯坦福大学实验表明，小群的生成代理可以产生新的社会行为。例如，如果代理想要以用户指定的想法开始举办情人节聚会，代理将自动传播聚会邀请并邀请新朋友和彼此参加聚会.（Generative Agents: Interactive Simulacra of Human行为，Park 等人，2023），

也许这个领域最著名的初创公司是Adept。该公司由Transformer 的两位前合著者和OpenAI 的前副总裁创立，迄今为止已筹集近5 亿美元。去年，他们展示了代理如何浏览互联网并向Salesforce 添加新帐户。

八、迭代RLHF

RLHF（人类反馈强化学习）很棒，但可能有点棘手。如果人们找到更好的方法来培训法学硕士，也就不足为奇了。然而，RLHF 仍有许多未解决的问题，包括：

如何用数学方式表达人类的偏好？

目前，人类的偏好是通过比较来确定的。人类注释者决定响应A 是否优于响应B。但是，它没有考虑响应A 比响应B 好多少。

人的偏好是什么？

Anthropic 根据其输出从三个方面衡量模型的质量：有帮助、诚实和无害。请参阅《Constitutional AI: Innocence with AI Feedback》（Bai 等人，2022 年）。

DeepMind 试图生成一个能让大多数人满意的响应。请参阅微调语言模型以在具有不同偏好的人类中查找匹配（Bakker 等人，2022）。

此外，我们想要一个能够主张自己立场的人工智能，还是一个避免潜在争议话题的传统人工智能？

谁的偏好是“人类”？是否应该考虑文化、宗教、政治倾向等方面的差异？要获得充分代表所有潜在用户的训练数据，存在许多挑战。

例如，对于OpenAI的InstructGPT数据，没有65岁以上的注释者。注释者主要是菲律宾人和孟加拉国人。请参阅InstructGPT: 训练语言模型以遵循人类反馈的指令（Ouyang et al. 2022）。

InstructGPT注释者国籍统计

社区驱动的努力虽然其意图值得称赞，但可能会导致数据出现偏差。例如，在OpenAssistant 数据集中，222 名受访者中有201 名(90.5%) 自认为是男性。杰里米·霍华德(Jeremy Howard) 在Twitter 上有一个很棒的帖子：

九、提高聊天界面效率

自ChatGPT 以来，关于聊天是否适合各种任务的界面一直存在争议。

请参阅下面的详细信息。

自然语言是一种懒惰的用户界面（Austin Z. Henley，2023）为什么聊天机器人不是未来（Amelia Wattenberger，2023）您应该以对话方式回答什么类型的问题？（Huang 等人，2023）人工智能聊天界面可以成为用于阅读文档的主要用户界面（Tom Johnson，2023）通过最少的聊天与法学硕士进行交互（Eugene Yan，2023）

然而，这并不是一个新话题。正如丹·格罗弗(Dan Grover) 在2014 年所写的那样，聊天作为超级应用程序界面在许多国家（尤其是亚洲）已经使用了大约十年。

2016 年，当许多人认为应用程序已死、聊天机器人才是未来时，争论再次升温。

关于聊天作为界面（Alistair Croll，2016）对于聊天机器人趋势存在很大的误解吗？（Will Knight，2016）机器人永远不会取代应用程序（Dan Grover，2016）

我个人比较喜欢聊天界面，原因如下：

** 聊天界面是一个通用界面，任何人都可以立即使用，即使他们从未使用过计算机或互联网。 **2010 年代初，当我在肯尼亚的一个低收入社区做志愿者时，我惊讶地发现那里的每个人都习惯通过手机或短信办理银行业务。那个社区里没有人拥有电脑。

轻松访问聊天界面。如果您的双手被占用，请使用语音而不是文本。

聊天也是一个非常强大的界面——。向聊天室发送任何请求，您都会收到回复，即使回复并不总是完美。

不过，作者认为聊天界面仍然可以在几个方面进行改进。

可以同时交换多条消息

目前，我们基本上假设每次通信只有一轮消息。但我和我的朋友们不会那样发短信。您需要插入各种数据（图像、位置、链接等），因此您可能会错过上一条消息中的某些内容，或者您不想将所有内容组合成一条大消息来完成您的想法，这通常需要多条消息。段落。

多模态输入

**在多模式应用领域，大部分精力都花在构建更好的模型上，而较少花在构建更好的接口上。以Nvidia 的NeVA 聊天机器人为例。 **我不是用户体验专家，但我认为这里可能还有改进的空间。

PS：很抱歉在这里提到NeVA 团队，但你的工作仍然很酷！

将一代AI集成到工作流程中

Linus Lee 在他的分享《超越聊天的生成式人工智能接口》中详细解释了这一点。例如，如果您想询问有关您正在创建的图表中的特定列的问题，您应该能够指向该列。

编辑/删除留言

编辑或删除用户输入如何改变与聊天机器人的对话流程？

十、为非英语语言创建 LLM

我们知道，当前以英语为主的法学硕士在性能、延迟和速度方面无法与许多其他语言很好地扩展。看：

ChatGPT Beyond English: 迈向多语言学习中大规模语言模型的综合评估（Lai et al. 2023）所有语言并非平等创建（标记化）（Yennie Jun, 2023）

我只知道训练越南人的尝试（例如Symato 社区的尝试），但本文的一些早期读者表示，他们认为不应该包含这个方向，原因如下：Ta。

这与其说是一个研究问题，不如说是一个逻辑问题。我们已经知道如何去做，我们所需要的只是有人愿意投入金钱和精力。然而，这并不完全正确。由于大多数语言被认为是低资源语言，并且许多语言的高质量数据远不如英语或中文，因此可能需要其他技术来训练大规模语言模型。也可以看看：

低资源语言：过去的研究和未来工作回顾（Magueresse 等人，2020）JW300: 低资源语言的广泛覆盖平行语料库（Agi 等人，2019）

更悲观的人认为，未来很多语言都会消失，互联网将变成两个世界，有两种语言：英文和中文。这个想法并不新鲜。有人记得世界语吗？

机器翻译和聊天机器人等人工智能工具对语言学习的影响仍不清楚。人们能够更快地学习新语言，还是完全不需要学习新语言？

如何系统的去学习大模型LLM ？

作为一名善良的互联网老手，我认识到我有很多经验和知识值得与大家分享。我们还可以利用我们的能力和经验来解答学习人工智能中的很多困惑。所以我还能工作。我繁忙的工作日程。

是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的 AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以V扫描下方二维码免费领取🆓

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。内容：
L1.1 人工智能简述与大模型起源L1.2 大模型与通用人工智能L1.3 GPT模型的发展历程L1.4 模型工程
– L1.4.1 知识大模型
– L1.4.2 生产大模型
– L1.4.3 模型工程方法论
– L1.4.4 模型工程实践L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。内容：
L2.1 API接口
– L2.1.1 OpenAI API接口
– L2.1.2 Python接口接入
– L2.1.3 BOT工具类框架
– L2.1.4 代码示例L2.2 Prompt框架
– L2.2.1 什么是Prompt
– L2.2.2 Prompt框架应用现状
– L2.2.3 基于GPTAS的Prompt框架
– L2.2.4 Prompt框架与Thought
– L2.2.5 Prompt框架与提示词L2.3 流水线工程
– L2.3.1 流水线工程的概念
– L2.3.2 流水线工程的优点
– L2.3.3 流水线工程的应用L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。内容：
L3.1 Agent模型框架
– L3.1.1 Agent模型框架的设计理念
– L3.1.2 Agent模型框架的核心组件
– L3.1.3 Agent模型框架的实现细节L3.2 MetaGPT
– L3.2.1 MetaGPT的基本概念
– L3.2.2 MetaGPT的工作原理
– L3.2.3 MetaGPT的应用场景L3.3 ChatGLM
– L3.3.1 ChatGLM的特点
– L3.3.2 ChatGLM的开发环境
– L3.3.3 ChatGLM的使用示例L3.4 LLAMA
– L3.4.1 LLAMA的特点
– L3.4.2 LLAMA的开发环境
– L3.4.3 LLAMA的使用示例L3.5 其他大模型介绍

阶段4：AI大模型私有化部署

目标：掌握多种AI大模型的私有化部署，包括多模态和特定领域模型。内容：
L4.1 模型私有化部署概述L4.2 模型私有化部署的关键技术L4.3 模型私有化部署的实施步骤L4.4 模型私有化部署的应用场景

学习计划：

阶段1：1-2个月，建立AI大模型的基础知识体系。阶段2：2-3个月，专注于API应用开发能力的提升。阶段3：3-4个月，深入实践AI大模型的应用架构和私有化部署。阶段4：4-5个月，专注于高级模型的应用和部署。

这份完整版的大模型 LLM 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取🆓

#以上关于6000字解读：当前大语言模型LLM研究的10大挑战的相关内容来源网络仅供参考，相关信息请以官方公告为准！

原创文章，作者：CSDN，如若转载，请注明出处：https://www.sudun.com/ask/93959.html