关于“文档图像前沿技术探索 —多模态及图像安全”专题报告分享

文章目录

* 简介

多模态模型的进展与探索*LLM时代的文档图像处理技术

著名文档图像大规模模型OCR性能分析图像安全*图像篡改检测

AIGC判断标准制定联盟信息总结

前言

10月14日，第六届中国模式识别与计算机视觉大会在厦门召开。逆转录病毒疗法

2023是由中国计算机学会（CCF）、中国自动化协会（CAA）、中国图像图形学会（CSIG）、中国人工智能协会（CAAI）共同主办，厦门大学承办的国内顶级领域。模式识别和计算机视觉学术活动，CCF推荐会议（C类）。

本次大会的主题是“邂逅绿岛，照亮未来”。本次会议汇聚了国内外从事模式识别和计算机视觉理论与应用研究的科研人员和工业界同仁，提供我国模式识别和计算机视觉领域的最新理论和技术信息。分享结果。

PRCV2023共举办会议主题报告5场、邀请报告8场、口头报告32场、专题论坛9场、研讨会7场，共接收论文1420篇，被接收论文532篇。本文介绍了娃娃信息与智能技术平台事业部副总监郭凤军博士的公司报告《探索文档图像前沿技术》。

— 多模式和图像安全”。

多模态模型进展与探索

多模态模型是一种可以处理不同类型数据的模型，例如图像、文本和音频。近年来，随着深度学习技术的发展，多模态模型在计算机视觉、自然语言处理、语音识别等领域得到广泛应用。在本次专题报告中，郭博士首先介绍了文档图像在多模态大规模模型方向的一些探索。

文档图像字面上就是文本+图像，因此天然具有多模态属性。看看下面的中国模式识别与计算机视觉大会海报。从这张海报中，我们可以看到文字本身实际上是图形，是一种象形文字。因此，在处理文档图像时，我们首先考虑一个大的多模态模型，现在我们正在思考如何将多模态技术引入到OCR中。

人工智能世界正在迅速发展，OpenAI 继续引领潮流。 9月25日，该组织宣布对其ChatGPT系统进行重大升级，推出具有视觉功能的GPT-4V。

模型和多模式交互能力。

经过一系列的评测，我们发现GPT-4V在识别英文方面还是不错的，但是在识别中文方面就有些不足了，而且在识别一些数学符号方面也存在问题。下图是中英文识别的效果。

LLM时代文档图像处理技术

近年来，多模态模型的研究进展迅速。其中，几种基于深度学习的多模态模型在图像描述、视频理解、情感分析等任务中取得了良好的效果。

文档图像领域专家认为，LLM时代文档图像处理技术呈现三个趋势：

输入：多模态架构： Transformer 编码器/解码器数据：大容量/高质量数据

尽管多模态大型模型目前势头强劲，但OCR 仍然是一项非常重要的技术。至少在现阶段，训练大型模型必须依赖于高质量的大数据，而OCR本身不仅是一个非常好的提供大数据的工具，而且它还可以处理多种格式和困难的图像。

知名文档图像大模型OCR性能分析

下面列出了文档图像处理领域的一些知名系统。

BLIP2：Q-Former 连接图像编码器(ViT) 和LLM 解码器。只有Q-Former部分需要训练。 Flamingo：通过向LLM 添加门控注意力层来引入视觉信息。 LLaVA：连接CLIP ViT-L 和LLaMA。使用全连接层GPT-4 和自指令生成高质量158k

说明以下数据MiniGPT：ViT+ Q-Former + VicunaNougat: Swin Transformer + Transformer Decoder 图像到820 万页文档数据集范例Kosmos: win Transformer + Transformer Decoder 范例。

3.2亿数据和13亿模型远超Nougat等Sota指标Donut: 无需OCR即可理解文档的Transformer模型

许多该领域的专家将这些知名系统与OCR进行了比较，但在性能方面识别率仍然较差。原因可能是视觉编码器的分辨率和训练数据的限制。

图像安全

近年来，随着人工智能（AI）技术的快速发展，人工智能

成像领域的应用也在不断扩大。但与此同时，图像篡改、假图像生成、图像隐写等与图像安全相关的问题也随之出现。多起基于虚假图像的诈骗和网络暴力事件正在给社会带来负面影响。世界规模。

基于这样的研发背景，娃娃信息提供了图像篡改检测和AIGC识别两种图像安全技术解决方案，并参与了图像篡改检测标准的制定。

图像篡改检测

和合信息利用监督学习技术将已知的图像篡改样本输入到模型中，模型不断调整权重和偏差，使模型输出与实际标签（篡改与否）尽可能接近。总的来说，图像篡改检测分为四种类型。

复制和移动：将图像的一个区域复制到另一个区域；拼接：将两个不相关的图像组合成一个新图像；擦除：根据添加变化重新创建图像。

为了解决上述问题，组合信息采用了基于分段模型的系统架构。 Backbone 使用ConvNeXt 作为编码器，并使用两个并行网络：LightHam 和EANet 作为解码器。通过合并两个解码器，可以获得更好的判断效果。这个判断不仅可以判断是否存在篡改，还可以判断篡改的具体位置。

图像篡改检测面临两大技术挑战。这是数据合成和训练策略。在数据合成方面，通过手动标注多种字体、多种场景、多种篡改形式、篡改头像对象，自动生成大量图像对。通过对网络架构、损失函数、数据添加、迭代训练和超参数调整的广泛实验，我们获得了篡改检测任务的最优策略。

在今年的国际文档分析与识别会议（ICDAR）挑战赛上，和合信息击败了来自全球的数千支参赛队伍，获得了“文本篡改检测”赛道的总冠军。

目前，图像篡改检测系统已发布在娃娃信息平台，并已在证券、保险、银行、零售等多个行业推广。

AIGC判别

针对生成式AI欺诈，和合信息也开发了相关检测产品。以人脸场景为例，该产品通过多个空间注意力头关注空间特征，并使用纹理增强模块放大浅层特征的细微伪影，以区分模型的真脸和假脸，从而提高人脸识别的准确性。下面是更详细的架构图。

标准制定

为贯彻落实《中华人民共和国网络安全法》、《生成式人工智能服务管理》等文件对人工智能服务的规范要求，系统建立图像内容安全产业发展秩序，中国信息通信研究院（以下简称“信通院”））《文档图像篡改检测标准》我们已经开始制定工作。该标准由中国信息通信研究院牵头，上海合合信息技术有限公司、中国图像图形学学会、中国科学技术大学等科技创新与健康机构联合主编公司。著名学术机构。

合合信息

合合信息主要从事智能文本识别和商业大数据两大业务。底层技术包括模式识别、图像处理、神经网络、深度学习、STR、NLP等人工智能技术，以及隐私计算、知识图谱等大数据技术。 C端明星产品主要有名片全能、扫码全能、启信宝等。这些都是深受全球用户欢迎的效率工具，B端服务包括AI+大数据、金融风险知识图谱解决方案、供应链等，助力数字化转型。大数据风险管理解决方案、政企大数据治理解决方案等。

目前，图像处理领域在分析、识别和理解文档图像方面仍然面临着场景和格式的多样性、采集设备的不确定性、用户需求的多样性以及文档图像面临的质量显着下降等技术难题。

为了解决上述问题，娃娃信息在文档图像分析、版面分析、文档信息提取等方面积累了大量的经验，并不断创新方法。同时，和合信息还为文档图像文本识别、文本检测、布局元素标注等提供高质量数据，用于训练多模态大规模模型。

总结

本次会议是一次非常重要的学术会议，旨在促进模式识别和计算机视觉领域的交流与合作。本次会议上，国内外专家学者分享和讨论了该领域的最新研究成果，包括图像处理、机器学习、深度学习等。

通过这次“文档图像前沿技术探索”

分享《多模态与图像安全》专题报告，展示了和合信息在文档影像领域十余年的深耕。这种技术实力使得和合信息能够在这个日新月异的领域保持竞争优势。我们为社会提供更安全的图像解决方案。

总体而言，本次会议是一次非常成功的学术活动，为该领域的发展做出了积极的贡献。

接下来我们将为每个同学划分学习计划！

学习计划

那么，作为初学者，问题又出现了：我应该先学什么，接下来又应该学什么？

既然你诚实地问了，我就告诉你你需要从头开始学习什么。

阶段一：初级网络安全工程师

接下来，安排一个月的基本网络安全计划。完成课程后，基本上可以找到渗透测试、Web渗透、安全服务、安全分析等与网络安全相关的工作。其中，如果你学好等级保障模块，就可以从事等级保障工程师的工作。

总体薪资范围6,000-15,000

1.网络安全理论知识（2天）

了解行业背景和前景，决定发展方向。

学习有关网络安全的法律法规。

网络安全运营理念。

等保制度介绍、等保法规、流程、规范。（很重要）

2.渗透测试基础知识（1周）

渗透测试流程、分类及标准

信息收集技术：主动/被动信息收集、Nmap工具、Google Hacking

漏洞扫描、漏洞利用、原理、使用、工具（MSF）、IDS绕过、防病毒侦察

主机攻防训练：MS17-010、MS08-067、MS10-046、MS12-20等。

3.操作系统基础知识（1周）

Windows系统常用功能及命令

Kali Linux系统常用功能及命令

操作系统安全（系统入侵调查/系统加固基础设施）

4.计算机网络基础（1周）

计算机网络基础、协议、体系结构

网络通信原理、OSI模型、数据传输流程

常用协议分析（HTTP、TCP/IP、ARP等）

网络攻击技术和网络安全防御技术

Web漏洞原理及防御：主动/被动攻击、DDOS攻击、CVE漏洞复现

5.数据库基础操作（2天）

数据库基础

SQL语言基础

加强数据库安全

6. 网络渗透（1周）

HTML、CSS 和JavaScript 简介

OWASP前10名

Web漏洞扫描工具

Web入侵工具：Nmap、BurpSuite、SQLMap、其他（Chop Knife、Miss Scan等）

所以到现在为止已经过去了大约一个月的时间。你已经成功成为“脚本小子”了。那么，你还想继续探索吗？

阶段二：中级or高级网络安全工程师（看自己能力）

薪资水平：15,000 至30,000 日元

7.脚本编程学习（4周）

在网络安全领域。编程能力是“脚本小子”和真正的网络安全工程师之间的关键区别。在实际的渗透测试过程中，面对复杂多变的网络环境，当常用的工具不能满足实际需求时，往往需要扩展现有工具或者可能需要创建工具或自动化脚本来满足要求。需要特定的编程技能。在分秒必争的CTF比赛中，需要具备一定的编程能力，才能有效地利用自制的脚本工具来实现各种目标。

对于从零开始的学生，我们建议选择一种脚本语言：Python/PHP/Go/Java，并学习常用库的编程。

设置您的开发环境并选择您的IDE。 PHP 环境推荐Wamp 和XAMPP，IDE 强烈推荐Sublime。

学习Python编程，包括语法、正则、文件、网络、多线程等常用库。推荐《Python核心编程》，不需要全部看完。

使用Python 创建漏洞利用程序，然后创建一个简单的网络爬虫。

学习PHP 的基本语法并创建一个简单的博客系统。

熟悉MVC 架构并尝试学习PHP 或Python 框架（可选）。

了解引导布局或CSS。

阶段三：顶级网络安全工程师

如果您有兴趣开始网络安全，请点击此处。网络安全的主要优势：我们免费提供完整的入门级和高级共享的282G学习资源包。

学习资料分享

当然是【282G】网络安全工程师学习资料包，只给你方案，不给你学习资料。点击下面的二维码链接即可获取。

#以上专题报告《探索文档影像前沿技术——多模态与图像安全》分享的相关内容来源网络，仅供参考。相关信息请参见官方公告。

原创文章，作者：CSDN，如若转载，请注明出处：https://www.sudun.com/ask/91257.html

关于“文档图像前沿技术探索 —多模态及图像安全”专题报告分享

文章目录

前言

多模态模型进展与探索

LLM时代文档图像处理技术

知名文档图像大模型OCR性能分析

图像安全

图像篡改检测

AIGC判别

标准制定

合合信息

总结

学习计划

阶段一：初级网络安全工程师

阶段二：中级or高级网络安全工程师（看自己能力）

阶段三：顶级网络安全工程师

学习资料分享

相关推荐

信息获取：高清录播系统的实际应用效果

电脑编程以后是做什么

Java过滤removeIf和filter有什么区别？

史上最贵吉他诞生，“The Black Strat”实心电吉他售价397.5万美元

发表回复

Please sign in