【AIGC】Llama（#ai#）

Llama-3 技术报告（中文翻译）

【Youcans的AGI学习笔记】欢迎大家关注原创作品。

0. 简介

现代人工智能（AI）系统的核心驱动力来自于基础模型。

本文介绍了一组新的基础模型，称为Llama 3。它是一个语言模型家族，本身支持多语言、编码、推理和工具使用。

我们构建的最大模型是一个密集的Transformer 架构，具有4050 亿个参数，可以处理多达12,000 个令牌的上下文窗口。

本文对Llama 3 进行了广泛的实证评估。在广泛的任务中，我们发现Llama 3 的性能质量可与GPT-4 等领先语言模型相媲美。我们使Llama 3 普遍可用，包括405B 参数语言模型的训练前和训练后版本以及用于输入/输出安全的Llama Guard 3 模型。

本文还介绍了通过组合方法将图像、视频和音频功能集成到Llama 3 中的实验结果。据观察，该方法在图像、视频和语音识别任务上的表现与最先进的方法一样好。由于该模型仍在开发中，尚未向公众发布。

骆驼3简介：

型号：llama 3.1 模型系列：405B（内容版本）、70B、8B、128k 上下文工具：支持代理系统的开源网站：https://llama.meta.com/Date : 七月23, 2024 Llama3 的出色性能来自于三个主要特性。核心要素：

高质量数据：15T代币的高质量多语言数据。比例尺：8B、70B、405B模型矩阵。使用较大的模型来提高较小模型的质量，以获得一流的结果。简单性：选择Transformer 架构而不是MoE 架构，并使用相对简单的训练后步骤（如SFT、RS 和DPO）而不是复杂的强化学习算法。

该报告还介绍了Llama3 多模态集成的初步实验，展示了其在图像、视频和音频处理方面的潜力。 Llama3开发流程：训练前和训练后

预训练：使用8K 令牌的上下文窗口对15.6 万亿个令牌对具有4050 亿个参数的模型进行预训练。接下来，继续预训练并将上下文窗口扩展到128K 个标记。训练后：通过多轮人类反馈调整模型，包括监督微调（SFT）和直接覆盖优化（DPO）。训练后阶段还融入了工具使用等新功能，并在编码和推理等领域取得了重大进展。 Llama3 的多模式功能：合并图像、视频和音频

为了赋予Llama3 多模式功能，Meta 采用组合方法并引入图像、视频和音频编码器。具体流程包括：

预训练多模态编码器：图像和音频编码器分别进行训练，以学习视觉和音频信号的表示。视觉适配器训练：将图像编码器与预先训练的语言模型集成，以实现图像和语言表示的对齐。在此基础上，训练视频适配器以实现帧之间的信息聚合。训练语音适配器：将语音编码器集成到您的模型中以实现高质量的语音理解。 Llama3 技术报告目录

简介：Llama3成功的三个关键要素、开发流程、多模态特征概述和预训练

预训练数据：数据来源、清洗、去重、过滤等。

模型架构：跨架构选择、参数设置等。

试验规模法则：模型规模如何影响性能

基础设施、扩展、效率：训练硬件、并行策略、优化技术等。

训练方式：初始预训练、长上下文预训练、退火等后训练

建模：SFT、RM、DPO等技术

训练后数据：清理、剪枝等。

聊天功能：代码、多语言、数学和推理、长文本、工具调用功能、减少幻觉等效果的评估方法

基本模型：基准指标、稳健性、对抗性和污点分析

聊天模型：常识和说明与基准指标保持一致，并与单一技能测试保持一致，例如真人考试GRE/LSAT/SAT/AP/GMAT。

人类评分：Llama 3 405B 和GPT-4 胜率几乎在所有功能上都在误差范围内

安全评估：安全评估基准、预训练和微调效果等推论

流水线并行：推理加速技术

FP8 Quantification：模型量化技术的可视化实验

数据：图像、视频数据处理

模型架构：图像编码器、图像适配器和视频适配器的音频实验

数据：音频数据处理

模型架构：音频编码器、音频适配器相关工作结论贡献者和致谢

原创文章，作者：CSDN，如若转载，请注明出处：https://www.sudun.com/ask/93936.html

【AIGC】Llama（#ai#）

Llama-3 技术报告（中文翻译）

0. 简介

相关推荐

486页超全面Android开发相关源码精编解析火爆互联网，完整版开放免费下载！

Transformers 4.37 中文文档（九）

DDOS详细解释

联想KN101无线键鼠套装，手感真好

发表回复

Please sign in