【AIGC】Llama(#ai#)

【AIGC】LlamaLlama-3 技术报告(中文翻译)
欢迎关注【youcans的AGI学习笔记】原创作品 0. 简介
现代人工智能(AI)系统的核心驱动力来自于基础模型。 本

Llama-3 技术报告(中文翻译)

【Youcans的AGI学习笔记】欢迎大家关注原创作品。

0. 简介

现代人工智能(AI)系统的核心驱动力来自于基础模型。

本文介绍了一组新的基础模型,称为Llama 3。它是一个语言模型家族,本身支持多语言、编码、推理和工具使用。

我们构建的最大模型是一个密集的Transformer 架构,具有4050 亿个参数,可以处理多达12,000 个令牌的上下文窗口。

本文对Llama 3 进行了广泛的实证评估。在广泛的任务中,我们发现Llama 3 的性能质量可与GPT-4 等领先语言模型相媲美。我们使Llama 3 普遍可用,包括405B 参数语言模型的训练前和训练后版本以及用于输入/输出安全的Llama Guard 3 模型。

本文还介绍了通过组合方法将图像、视频和音频功能集成到Llama 3 中的实验结果。据观察,该方法在图像、视频和语音识别任务上的表现与最先进的方法一样好。由于该模型仍在开发中,尚未向公众发布。

骆驼3简介:

型号:llama 3.1 模型系列:405B(内容版本)、70B、8B、128k 上下文工具:支持代理系统的开源网站:https://llama.meta.com/Date : 七月23, 2024 Llama3 的出色性能来自于三个主要特性。核心要素:

高质量数据:15T代币的高质量多语言数据。比例尺:8B、70B、405B模型矩阵。使用较大的模型来提高较小模型的质量,以获得一流的结果。简单性:选择Transformer 架构而不是MoE 架构,并使用相对简单的训练后步骤(如SFT、RS 和DPO)而不是复杂的强化学习算法。

该报告还介绍了Llama3 多模态集成的初步实验,展示了其在图像、视频和音频处理方面的潜力。 Llama3开发流程:训练前和训练后

预训练:使用8K 令牌的上下文窗口对15.6 万亿个令牌对具有4050 亿个参数的模型进行预训练。接下来,继续预训练并将上下文窗口扩展到128K 个标记。训练后:通过多轮人类反馈调整模型,包括监督微调(SFT)和直接覆盖优化(DPO)。训练后阶段还融入了工具使用等新功能,并在编码和推理等领域取得了重大进展。 Llama3 的多模式功能:合并图像、视频和音频

为了赋予Llama3 多模式功能,Meta 采用组合方法并引入图像、视频和音频编码器。具体流程包括:

预训练多模态编码器:图像和音频编码器分别进行训练,以学习视觉和音频信号的表示。视觉适配器训练:将图像编码器与预先训练的语言模型集成,以实现图像和语言表示的对齐。在此基础上,训练视频适配器以实现帧之间的信息聚合。训练语音适配器:将语音编码器集成到您的模型中以实现高质量的语音理解。 Llama3 技术报告目录

简介:Llama3成功的三个关键要素、开发流程、多模态特征概述和预训练

预训练数据:数据来源、清洗、去重、过滤等。

模型架构:跨架构选择、参数设置等。

试验规模法则:模型规模如何影响性能

基础设施、扩展、效率:训练硬件、并行策略、优化技术等。

训练方式:初始预训练、长上下文预训练、退火等后训练

建模:SFT、RM、DPO等技术

训练后数据:清理、剪枝等。

聊天功能:代码、多语言、数学和推理、长文本、工具调用功能、减少幻觉等效果的评估方法

基本模型:基准指标、稳健性、对抗性和污点分析

聊天模型:常识和说明与基准指标保持一致,并与单一技能测试保持一致,例如真人考试GRE/LSAT/SAT/AP/GMAT。

人类评分:Llama 3 405B 和GPT-4 胜率几乎在所有功能上都在误差范围内

安全评估:安全评估基准、预训练和微调效果等推论

流水线并行:推理加速技术

FP8 Quantification:模型量化技术的可视化实验

数据:图像、视频数据处理

模型架构:图像编码器、图像适配器和视频适配器的音频实验

数据:音频数据处理

模型架构:音频编码器、音频适配器相关工作结论贡献者和致谢

原创文章,作者:CSDN,如若转载,请注明出处:https://www.sudun.com/ask/93936.html

(0)
CSDN的头像CSDN
上一篇 2024年7月26日
下一篇 2024年7月26日

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注