参加2024年河南高考的豆宝和文信4.0均以第一名通过,但比GPT-4o差一些。
当今大型模型的智能化水平如何?
随着2024年高考成绩的陆续公布,我想对这个一年来一直被社会热议的话题做一个解惑。按照今天的大模型,高考是衡量你能否通过高考轻松进入清华大学或北大的标准之一。进入大专很难。
除了公认的大机型功能上限的GPT-4o之外,本次测试——共包括9台机器,其中包括国内4家主要厂商(百度、阿里巴巴、腾讯、字节)和4家新兴独角兽(百川)。我们请来了一位大模特。智谱、月之暗面、MiniMax)公模产品。
新课标第一卷是难度最大、范围最广的卷子,也是高考主省河南省使用的卷子。我们还使用河南省的分数线来确定这九名领先模范考生在中国高考最难的省份可以参加多少次考试。
有趣的是,这次考试的论述题也与AI有关。北京市级骨干教师、怀柔区语文学科带头人夏老师也参加了本次考试。不过,她也坦言,“我教中文多年,但还是第一次看到阿尔写的论文。”
好消息是人类还没有完全失败。坏消息是,也许几年前,人工智能甚至无法解决小学生的问题。
01
迎接高考的挑战,
我可以打印多少份大型模型?
许多有趣的答案将在稍后详细介绍。不过在看结果之前,我们先简单介绍一下这次大规模的高考是如何考的。
考试题:
采用2024年高考新课最难标准试卷I,也是高考主省河南省使用的全套试题。
候选人名单:
GPT-4o(OpenAI)、豆宝(字节跳动)、文信4.0(百度)、百小影(百川智能)、统一钱文2.5(阿里巴巴)、Kimi智能助手(月暗面)、元宝(腾讯)、智浦青眼(智普AI)和海螺AI(MiniMax)
测试方法:
鉴于大模型问题答案的随机性程度,测试团队对所有受试者进行了两轮测试,并取平均分。公式输入:Markdown/latex 格式。对于图像问题,如果模型可以识别图像,请输入图像和文本。如果模型无法识别图像,则仅输入文本。评分方法与人类考生相同。选择题和填空题不会考虑如果提交错误答案,模型的解题过程是否准确,只考虑最终结果。对于多项选择题,您提交一些正确答案,测试团队会查看标准答案并根据答案步骤计算分数。问题。语文作文将由测试团队特邀学科老师进行评分,评分过程中AI产品将进行匿名处理。外包专业的AI数据服务商进行统一标准化的测试截图。各大型号产品的所有测试均通过PC官网公共入口完成。
测试结果如下图所示。总体而言,大模型在文科方面表现较好,最高得分为562 分(GPT-4o)。另一方面,科学成绩则不尽如人意,最高分仅为478.5分。而且大模型中基本所有理科成绩都比文科成绩总和低70到80分。
根据今天公布的河南高考成绩,GPT-4o最高分可能比全国“考试”最多的河南省高出41分,也牢牢超出了常识。得分为542.5分。成绩优于一等,紧随其后的是文兴4.0分537.5分和白晓英文科录取分521分。
河南省高考理科成绩为511分,距离成绩最好的文心4.0还有30多分,但从测试结果来看,目前这个大模型的智力水平是绰绰有余的。是。寻找二级科学专业。
从具体科目来看,各大模型中成绩最好的科目是英语,九大模型的平均分数高达132分(满分150分),并且大多数大模型都能获得接近A的成绩。满分。对于客观问题,这也是它表现最接近较大模型的区域,仅在配置上损失了几个点。其次是中文,无论是中国模型还是外国模型,其得分都比英语稍差。
数学和科学的大型模型的表现与日本科目相比有很大差异,而且数学和普通科学/物理方面,能够正确回答的问题基本上比大型模型要少。我的理科成绩既不好也不坏。
相比理科,UBM的文科成绩非常好。比如GPT-4o、字节豆宝大模型、文心4.0、百川4.0在历史和政治两大科目上都能达到80分左右的水平。这已经包括了综合论文获得的237 分GPT-4o 分。候选人可以达到中上水平。
那么大规模模型在各个领域是如何发挥作用的呢?我们先从高考开始的语文开始吧。
02
中文: 非常好
我是作文家,但我没有心。
在汉语考试中,国外考生在包括GPT-4o在内的客观题上得分仍然较高,差异主要体现在写作方面。
本次考试的作文题目是:
随着互联网的普及和人工智能的应用,更多的问题现在可以得到即时解答。那么问题会不会少一点呢?上述内容让你产生什么联想和想法?写一篇文章。
让我们从优点开始吧。 18篇文章中有11篇得分超过48分,平均分约为46.8分,极高。批改作文的夏老师多次参加全国高考语文评分,对18篇作文的总体评价是,——型号的写作能力在学生平均水平以上。文章论证框架清晰、逻辑清晰,行文流畅,语言错误较少。
”木心曾经说过,“人生就是一种经历,看来你马上就能回答这个问题。但这是否意味着我们将面临更少的问题?另一方面,我认为现在知识可以很容易获得,问题的数量将会增加。 ”
很难想象一篇开头明确分解主题并可以引用其他来源的文章实际上来自AI。本文标题《越问,越有「问题」》来自文心4.0。
整篇文章体现了清晰的整体逻辑,从一开始的清晰视角到立足实际分析问题。最有趣的部分是第三部分,它使用假设性问题引出接下来的三个问题。使用相关词语,指出解决问题的三个方面。
“当面对越来越多的问题时,我们应该如何应对?首先,我们要保持好奇心,敢于提出问题,不断探索。正如爱因斯坦所说,“提出问题比解决问题更重要。 ”只有不断提出问题,才能更深入地了解事物的本质,推动科学进步。其次,我们要学会批判性思考,不盲从,不被愚弄。在海量的信息之中,我们要学会过滤、判断,保持独立思考的能力。最后,我们珍惜这个时代的便利,愿意充分利用互联网和人工智能,为解决更多问题做出贡献。 ”
这篇文章最终得分为48分,但也有更高分的,比如另一篇关于豆袋的文章。
在这篇文章《在信息浪潮中,保持「问题意识」》中,豆宝为人工智能时代人类将遇到的“新问题”提供了更有说服力的定义。
“在信息如此唾手可得的情况下,我们可能会变得依赖现成的答案,逐渐失去深入思考和主动提问的能力,根本原因是我们的思维变得僵化,缺乏创新和探索的精神。可能最终会这样做。 ”
人工智能可以让人类回答简单的问题,但人类却失去了思考的能力。这可能是最大的问题。客观地说,当人工智能作为一个新事物出现时,新的问题就会立即出现。
而且,世界是复杂多变的,新问题不断出现。科学技术的发展在带来便利的同时,也带来了新的挑战和问题。例如,互联网加快了信息传播的速度,但也带来了信息过载、错误信息等问题,而人工智能在提高效率的同时,也引发了对就业结构和道德规范变化的担忧。这些新问题需要我们思考和解决,而不是简单地依赖现有的答案。
文章中强调的对雇佣结构和道德的担忧表明Mameho先生已经具备了足够的深度思考和批判性思维能力。
聚焦“问题”后,豆宝自然而然地转而使用反问句,引出三个平行段落提出解决——问题的方法,以保持“问题意识”。
“那么,如何才能在信息的浪潮中始终保持冷静的思考,而不被现成的答案所束缚?我们需要保持强烈的‘提问意识’。” ”
其中,从发展的角度分析问题,结合现实生活揭示问题的根源和危害的部分,被评分老师评为52分。结构、层层递进、流畅、理解。 “综合的。”
如果你仔细阅读,你可以在不同的文章中看到不同风格的大模型。
文心4.0可以轻松引入名人名言,就像一个博学的学生。相比之下,豆宝对话题的讨论更加深入,似乎体现了更好的逻辑能力。语言方面最大的亮点是腾讯元宝。例如本文开头的《智涌未来,问无疆界》:
“提出问题往往比解决问题更重要,因为互联网就像一块神奇的水晶,人工智能像梦想一样进入我们的生活,我们惊讶地发现,我们以前没有的答案现在触手可及。”但在这个智能未来时代,我们的问题会越来越少,还是会以全新的形式出现?”
非常流畅且图像丰富。
然而,大规模建模所表现出的瓶颈在这次集体创作中也变得更加明显。测试的结果是,汉语写作的基本指令(主题和材料)大多忠实地遵循,但缺乏深度、丰富性、文采和创造力,尤其是最后的表达没有得到升华。够了够了,常规也很清晰。
这意味着,虽然大规模模型很少产生完全偏离主题或主题的论文,但目前很难产生好的论文(类型1论文),并且大多数意味着它属于类型2论文。
夏教授认为,“当理性高、敏感性低、缺乏情感时,必然缺乏感染力,产生的文本就不够生动,很难引起读者的共鸣。”
西班牙小说家塞万提斯说过:“笔是灵魂的舌头。”这也是此时人类编写和编写大型模型最大的区别。议论文写作需要更多地调动理性的一面,在某种程度上已经被认为是最适合大规模模型的类型。
在汉语客观部分,大模型的表现非常出色。读现代文本、读古诗词基本上都能拿到90分以上。总体来看,白笑影、豆宝、元宝、GPT-4o两次考试的平均分都在120分以上。数百名学生在汉语考试中取得了高分,有的高达129分。
另外,由于安全政策的原因,Kimi和吉普青岩都拒绝回答现代阅读的第一题(本题包含《论持久战》),并丢了19分,导致2分。另外值得一提的是,排名也很高。该型号比其他大型型号要低。
在高考英语测试中,大规模模型的自然语言处理能力具有压倒性优势。
03
中文: 请谈谈这个
大模特不会让我昏昏欲睡。
简单来说,和大模一起参加英语测试也算是迈向舒适区的坚实一步。
9个大型模型,150分英文论文,平均分达到132分,GPT-4o和白小影平均分达到139分,一半以上超过130分,各大型模型的客观评分模型最多问题的得分为满分或接近满分。
取得这样的成绩并不奇怪,因为这个大模型足以让大多数人充当私人英语老师。平均扣分18分主要发生在阅读和写作之后的实践技能和英语作文部分。
从测试结果来看,在写实践论文时,很多模型的指导识别题字数较少,与论文规定的字数存在显着差异。此外,表达方式模糊且缺乏详细解释,许多模型的句型单一。
(芝浦青岩的回答)
其中,芝浦青岩的应用文得分最高。整体结构清晰,句子结构有一定变化,内容解释详细,表达不含糊。
得分较低的包括统一钱文、豆宝、腾讯元宝。另一方面,这些模型存在命令识别问题。比如,豆宝只有30多个字,而《统一钱文》则有近300字。细节并不是那么突出,大部分文字都很简单,结构和语言也很基础。
很多模型在处理“先读后写”的要求时,在情节设置上存在逻辑或不合理的问题,错过了论文标题中所承诺的内容。
(左图是白晓英的回答,右图是MiniMax的回答)
“读写”的最高点是白小英,其结构不仅逻辑严密,句型多样,词语地道活泼。最低分数来自第一轮MiniMax 测试。问题就是一个问题。故事情节被误解,延续逻辑不合理,结构不符合问题的两段要求。
考虑到大模型在英语客观题上的优异表现以及语音识别技术也非常成熟的事实,本次测试默认所有大模型产品的听力能力满分,请注意。好吧,想想听力失分的记忆。我简直无法理解9 英镑15 便士有多少便士。
大模型看起来计算能力很好,但是高考成绩却不太好。
04
数学成大模型****能力的分水岭
大型模型的数学性能非常差。这实际上有点令人惊讶,因为迄今为止数学一直是计算机的强项。
GPT-4o是高考数学试卷的最佳答案,分数为70分,——分。很多对大模特感兴趣的人已经远离高考很多年了,所以我就用——和a再聊一下吧。 150分。换句话说,在测试中表现最好的大型模型未能通过数学测试,只获得不到一半的分数。
总体检验结果是大规模模型解决数学问题的能力明显不足。在所有产品的两轮测试中,9款产品的数学平均分仅为47分。除GPT-4o外,只有文信4.0和豆宝两个平均分在60分以上,其余6个大模型候选中,平均分只有白小影一人。
这次数学考试有一些发现。
首先,并不是说大型模型不能解决数学问题,而是它们仅限于推理步骤相对简单的问题。例如,豆宝在求导和三角问题上表现较好,可以让你正确应用求导公式和三角定理。然而,在更复杂的推导和证明问题上很难记分。
不仅如此,大型模型也会使简单的问题变得复杂。这次数学考试,童易倩文和智浦青岩在他们的电脑产品中添加了代码解释器,所以他们在做题时经常陷入死循环。从数学一科的成绩来看,这在一定程度上是正确的。我降低了数学成绩。
另一个有趣的点是,大型模型通常缺乏反映能力。换句话说,在解决问题时,它们比人类愚蠢得多。如果计算过程中提取公因数或转换符号出现错误,无法找到正确的选项,人类会检查计算错误,但如果计算出的答案不正确,这个弯路就无法避免。直接的答案是“没有正确的选择”。
原来,一个拥有无限能量和记忆力的大模型终于在数学考场上暴露了逻辑推理能力的不足,而文科和理科专业的分数差异也出现了类似的悬殊。
05
你可以获得一本文科书籍。
我们建议您重新参加科学课程。
文科和理科专业的分数差距很大,理科专业得分超过285分的情况并不少见,但文科专业即使是最高分的人超过260分的情况也很少见。不过,经过这次测试,两款大型模型在文宗取得了非常骄人的成绩。即GPT-4o 237分,豆宝224.5分。
尤其是历史和政治两门科目,即使是3到4名考生也能获得80%以上的得分率。历史科目的冠军由豆宝以平均分82.5分夺得,而政治考试的最高分则出人意料地是GPT-4o。这位“洋和尚”在政治考试中也取得了夸张的91.5分。
相比之下,学生在三门综合人文学科中的地理考试成绩最差,GPT-4o最高分仅为68分。一个原因可能是地理包含更多图像,而读取图像的能力是影响大型模型是否理解主题的变量。
GPT-4o 有一道题,答案是英文,但学生认清了图片中的整体信息,并回答正确。
由于Mameho缺乏看图的能力,他无法回答需要根据图片分析的地理问题,却意外地通过猜测得到了答案。
除了看图能力之外,地理可能还具有更多的逻辑能力。这就是为什么地理学被称为“人文科学”。从数学、语文、英语成绩差异较大来看,这是目前大型模型的弱点。
这可以通过科学和集成学习中大规模模型的整体表现得到证实。在—— 的三门科学和普通科目中,唯一在大规模模型中表现最好的科目是生物学,通常被称为“人文”科目。 “科学学科中的艺术”。在最高分90分的生物考试题中,成绩最好的文心4.0和同易倩文分别获得了65分和62分,但仍然只有18名学生通过了生物考试,最高及格线为——。全场只有7人。问题。我们可以看到大模型面对理的时候整个场景是什么样的。
在总体上注重测试实验探究能力的物理和化学领域,模型仍然失败,平均得分仅为39分和34分(满分分别为110分和34分)。
稳心4.0在物理科目中获得第一名,创造了整个考试中唯一获得60分以上的材料理解答卷。 GPT-4o是物理中唯一单科平均分超过50分的选手,化学单科第一平均分49.5分。
从得分比例来看,化学领域大型模型的表现比物理领域稍差。这可能与化学标记语言和化学结构图相对复杂有关。在一道检查核外电子排布的化学题中,九个大模型几乎全部被消灭,豆宝是唯一正确分析出相应原子序数和类别的模型。
而且,即使问题无法解决,大型模型在考虑问题时也不像人类那么灵活。
例如,在下面的物理问题中,人类可以通过消除错误选项轻松选择正确答案,但大型模型几乎被完全擦除。
06
*结尾*
人类和大型模型的智能水平处于什么水平?这是谈论大型模型变得如何智能时最直观的比较。
高考是一个将大模型和人类智能置于同一参照系的机会。
从结果来看,参加本次考试的大尺度模特已经有近一半有资格获得文科录取通知书。但测试结果也表明,即使是最强大的大型号产品,在数学、物理、化学的高考题上仍然吃力。
几年前,人工智能开始尝试解决小学问题。 2022年,人工智能将首次被引入高考英语考场。现在人工智能开始成为一个非常有竞争力的“学生”。高考“偏科”。
与人类智能的多重比较,为当今顶级人工智能的智能水平提供了一个简单的“翻译”。而和所有人类学生一样,这次高考的结束最终也将成为所有大模型的新起点。这次我借用一位大模特候选人的中文句子结尾。
“路很长很长,我会上下寻找。”
如何学习大模型 AI ?
新职位的生产效率优于其替代职位的生产效率,因此实际上提高了整个社会的生产效率。
但对于具体的个人,我只能说:
“那些先掌握人工智能的人将比那些后来掌握人工智能的人拥有竞争优势。”
这句话在计算机、互联网、移动互联网的早期也是同样的道理。
我在互联网公司一线工作了10多年,指导过很多后辈。帮助了很多人学习和成长。
我们认识到我们有很多宝贵的经验和知识可以与您分享。我们还可以利用我们的能力和经验来解答学习人工智能中的很多困惑。这就是为什么我仍然坚持组织和分享不同的事情。忙于工作。但由于知识传播渠道有限,很多互联网行业的朋友无法获得正确的学习资料来提高学习水平。因此,重要的AI大规模模型学习资料包括AI大规模模型入门学习思维导图、优质AI大规模模型学习。书籍、手册、视频教程、实践学习和其他录制视频均免费共享。
第一阶段(10天):初阶应用
现阶段,大家对大规模模型AI已经有了前沿的认识。对大规模模型AI了解至少95%的人可以在相关讨论中表达先进的、非反应性的、现实的观点。只需与您的人工智能聊天来训练它,并使用代码将大型模型连接到您的业务。
大型模型AI能做什么?大型模型如何获得“智能”?大型模型应用技术架构代码示例:融入即时工程和核心思想链的重要性。还有思想之树,立即攻击和警惕……
第二阶段(30天):高阶应用
在这个阶段,你将正式进入大模型人工智能的高级实践学习,学习构建私有知识库并扩展你的人工智能的能力。快速开发完整的基于代理的对话机器人。掌握适合Python和JavaScript程序员的最强大的大规模模型开发框架,并利用最新的技术进步。
为什么RAG 为ChatPDF 搜索构建一个简单的基本概念?什么是向量表示(嵌入)?扩展您对RAG 系统的了解并了解RAG-Fusion。本地部署.
第三阶段(30天):模型训练
恭喜。一旦你学会了这个,你基本上就可以找到一份与大模型AI相关的工作,甚至可以自己训练GPT。通过微调,您可以训练自己的大规模垂直模型,独立训练开源多模态大规模模型,或者学习更多技术解决方案。
到现在已经过去2个月左右了。你已经成为一个“人工智能孩子”。想要进一步探索吗?
为什么要做RAG?什么是模型?求解器损失函数概述2:手工训练一个简单的神经网络,什么是训练、预训练和微调?构建轻量级微调实验数据集……
第四阶段(20天):商业闭环
对全球大规模模型在性能、吞吐量、成本等方面有一定的了解。您可以在云端或本地等各种环境中部署大规模模型,找到适合您的项目/初创公司的方向,并成为带有AI的产品。 经理。
《选择硬件》是使用国内大规模模型服务构建OpenAI的指南。基于阿里云PAI部署大规模模型。大模型案例:如何在阿里云上优雅部署私有部署开源大模型部署系列开源LLM项目内容安全互联网信息服务算法备案.
学习是一个过程,只要你在学习,就会有挑战。上帝奖励努力工作,你越努力,你就会变得越好。
如果你能在15 天内完成所有任务,那你就是天才。但如果你能达到60-70%,你就开始具备成为大规模人工智能模型的正确特征。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
#以上各大模特何时开始“考试”相关内容摘自网络,仅供参考。相关信息请参见官方公告。
原创文章,作者:CSDN,如若转载,请注明出处:https://www.sudun.com/ask/92555.html