苹果被硅谷AI包围!
发布时间:2025-06-23 09:37
Zhidongxi May -set | Li Shuiqing编辑| Xinyuan Zhidongxi在6月21日报道说,自从苹果上周发表职位以来,质疑大型模型的思考能力,并表明大型模型将在复杂问题中“崩溃”,因此许多行业仆人的许多行业仆人。 “ https://garymarcus.substack.com/p/seven-plies-to-to-the-viral-苹果 - 苹果 - 苹果 - 苹果 - 苹果 - 还提到了Salesforce于5月24日发表的一篇论文,Salesforce,SaaS的全球领导者,SaaS的全球领导者,以支持Apple的视图。本文指出,在AlgorithM的“均为5%”的情况下,可能需要“多个旋转”的条件。纸质地址:https://arxiv.org/abs/2505.18878,另外,加利福尼亚大学发表的一篇论文,伯利克里(Berlekri)在6月9日出版了视觉语言模型的弱点:“视觉语言的性能明显比他们的视觉编码者降低到接近级别so considered a powerful argument for the "large model of apple theory. The paper address: https://www.arxiv.org/abs/2506.08008 It is worth mentioning that in addition to people, there are also those with AI sets involved in this debate. In the past, on June 10, theLarge model Claude was placed in a work of the Arxiv paper, and together "posted" with a man's author to ask if Apple's experimental设计有一个问题,强调所谓的“惯性下降”确实是限制:https://arxiv.org/abs/2506.09250 1。 Anthropic的大型Claude被一个名为“诉讼”的人放在纸上,并在Arxiv平台上“发表”了题为“思考的幻觉”的论文。是一个巨大的合理模型,表明在计划难度超过阈值一定复杂性的规划困难中“跌倒的准确性”,而克劳德(Claude)的作用是试图证明它主要反映了实验设计的局限性,而不是主要的推理失败的局限性。本文主要用Apple的AI纸攻击了河内塔实验。河内塔游戏是一款经典游戏,有三列,许多碟片,玩家必须将所有光盘移至右列中的左列,并且不能在较小的圆盘上放置较大的光盘。论文分析显示了三个主要问题:1。河内塔的实验系统地超过了模型输出对报告故障的输出令牌极限,该模型清楚地识别出其输出时的这些限制。 2。MA评论集的自动概述未能认识到实际障碍的识别失望,从而导致模型能力分类的错误; 3。最关心的Ed的事情是,他们的“河流交叉”基准测试包含了由于船舶能力不足而无法在数学中不可能的N5的机会,但是该模型一直未能解决无法解决的问题。当他们控制这些实验结果时,在许多模型上的初始实验要求生产操作员而不是完整的过渡列表,这表明河内塔的机会(以前曾报道过完全失败,具有很高的准确性)。这些发现具有评估AI的推理能力时精心设计的实验的重要性。许多人都同意了路径论文。一些网民认为,克劳德的批评证明了象征性限制会改变大型模型的产出。苹果的“推理秋季”是技术性的,而不是主要的 - 研究方法最终将适应。有人还说,“论点的代币限制为绩效指标提供了新的观点S“”,并认为“有趣的是,看到直接参加学术讨论的AI很友好。“许多网民都赞扬“ AI时期的工作正式到达”,“ C。 Opus将是最提到的研究人员之一。”现在,每个人都在阅读LLM文章,即使研究人员相同”,这并不能直接证明大型模型的强大功能。但是Rebuttal仍然很强大。Gumagax平台的MIT平台Chomba Bupe说:“我在Twitter上看到了我在Twitter上的观点。列为一组的克劳德到底有什么贡献?如果语言模型(LM)无法执行需要255次迭代的算法,那么它是什么使用的?” 2。关于苹果AI论文的七个主要疑问。NYUNYU Semeritus教授:所有人都缺乏说服苹果AI的AI AI论文。GaryMarcus。瓶颈”,谁是总结的,列出了七个论点和repu独自一人。总的来说,马库斯认为所有这些反驳都没有说服。苹果的角色被重新确定,规模不是解决方案。观点1:人们很难处理MGA复杂问题和内存要求。马库斯退休了:“是的。但是,这还不够全面。我们有充分的理由希望机器做我们无法做的事情。耐力更强,计算器不会犯算术错误。这就是为什么我们发明了计算机:进行重复计算的原因:进行重复的错误计算。在许多情况下,没有任何错误的训练,不再需要远距离训练。算法,如果我们要实施AGI,则不应作为计算器,我们需要做得更好。S太长了,无法开发出的大型理解模型)。马库斯(Marcus)反驳说:“这部分是真的,但这也是一个非常聪明的观察:脑袋的大型模型 - 遗失 - 长期的产量,长期的产量,长期的产量,有限。对于某些大数字模型,对于12个步骤的hanoi塔的正确答案,hanoi塔的正确答案太长了,而作者则是确定的,但要解决这个问题,这是一个不明显的选择。大型模型在8个磁盘上失败了,其最佳解决方案是255个步骤,在所谓的标记限制中,通常不会遇到这个问题 - 符合大型语言的limal语言,不应遇到一般的人工智能。重大计算,例如“河内塔”,您如何认为它将正确计算军事方法(尤其是在战争中)或分子生物学(许多不知道的人)?苹果的铜需求副本比现实世界中通常的需求简单。 “观点3:这篇论文是由实习生撰写的。马库斯退休:“这是我的生气,因为这是一种人身攻击而不是一种物质,它具有误导性,几乎是错误的,并且完全缺乏上下文。第一作者是Apple实习生Parshin Shojaee,但Marcus强调:1。他还是一位非常有前途的三年级学生,并在许多主要会议上发表了论文。 2。如果您真的阅读了这篇文章,您会清楚地看到他正在与Iman Mirzadeh分享领导责任,并获得博士学位。 3。这篇论文有六本,没有一个,其中四个有博士学位。一个是Yoshua Bengio的兄弟Samy Bengio,他在机器研究社区非常受欢迎。 4。在科学的许多领域FIC,例如本文,普遍的技能是优先考虑那些患有大三学生和长者的人。我发表了数千篇文章,从未受到过批评。 5。真正重要的是论文的质量。 Alfred Sturtvic发明了基因地图时也是一名本科生。 “观点4:更大的模型可以做得更好。马库斯反驳:“是的,总是这样,我已经看到一份报告说,O3-Pro可以以某种方式解决这些问题之一。一些大型型号可以在河内塔游戏中成功使用6个光盘,这提供了精通的幻想,但崩溃了8个光盘,这不是一个好兆头。马库斯退休:“在某些情况下,确实是这种情况,这对于神经象征性人工智能而言是一个巨大的成功,因为它们无法与代码无关解决难题,并且代码是象征性的。诸如逻辑,代码,知识图等的精确概述。重要的是,苹果的目的是了解模型的定义和回溯,而不是了解使用从研究概念的人获得的现有代码是如何良好的。大语言模型是否了解河内塔算法的概念?这正是苹果团队想要探索的。大语言模型可以下载正确的代码吗?当然。但是,如果遇到新问题,环境会很快变化,下载代码而不理解该概念是没有用的。 “观点6:本文有四个例子,至少一个(河内塔)不是理想的。 “他本人在该算法的算法中发现了许多类似的错误,并将在某些日子内写。r示例模型...可以纠正语言问题的简单版本(小语法,短字符串),但是随着问题变得更加复杂,准确降低了准确性。马库斯(Marcus)认为,随着时间的流逝,我们将看到大量加强苹果公司结果的论文。 “观点7:本文并不是什么新鲜事物。我们已经知道这些模型的一般能力都很差。马库斯已经退休了:“是的,但是为什么我们认为这些模型是通用通用人工智能的良好道路呢?此外,这是一项明智的研究,很明显,重要的一点是真正的消息是,人们终于开始专注于生成AI的两个致命弱点之一,并认识到其重要性。顺便说一句,同时听到“这是错误的”和“我们知道的过去”是非常有趣的。至少一次,我看到有人同时说这两个句子,相距几分钟。归根结底,所有这些反驳都不令人信服。如果SOM像山姆·奥特曼(Sam Altman)一样的人很紧张,这是因为他们应该紧张。再次,苹果纸清楚地表明,比例不是解决方案。目前,人们终于开始注意这个问题。 “3。Salesforce的新研究”碰撞问题:Apple:在多个推理测试周期下,准确性速度仅为35%。除了Marcus的一系列反驳外,Salesforce发表的最新角色支持Apple的观点。而且,算法的准确性,甚至领先于Gemini-1-Profformenly 35%的apple iSS APPLE ISS的领导。可靠的和真实的业务数据在现有的平台上都缺乏与用户的环境,数据和代理人互动的忠诚度,而范围有限在各种专业环境中的Arge语言模型代理。 CRMARENA-PRRO已将其扩展到CRMARENA,其中包括19项涵盖销售,服务,定价和摘录的验证任务,适用于B2B和B2C方案,该过程结合了由多个论文领导的多个接触周期和保密信息评估。实验表明,领先的大语言模型的单一成功率在CRMARENA-PRO中的单一成功率近58%,在设置的许多旋转中,性能已显着下降至约35%。虽然实施工作流程更容易掌握(单个周期中超过83%的成功率),但其他评估的业务技能面临着更多的挑战。此外,对代理商的自然机密意识几乎为零。尽管目标线索可以改善这一点,但任务的执行往往会造成伤害。这些发现在当前大型语言模型和业务需求之间存在巨大的差距,表明了M中进步的需求任何推理,机密性和获得多功能技能的动力。本文还质疑了基本测试的当前基本基准的价值,并通过基于业务方案数据的新基准测试了基本理解模型的缺点。此外,其中之一是许多公司的破坏性因素:几乎为零的机密性。它再次攻击大型语言安全模型的缺点。 4。伯克利UC纸:视觉语言模型很脆弱,只能知道快捷方式。另一个角色显示了视觉语言模型(VLM)的脆弱性:“视觉语言模型的性能明显比其视觉编码器差得多,并且其性能将降低到几乎偶然的水平。” X用户Chomba Bupe认为,这是哀悼的是,语言模型不仅忽略了视觉编码器和输出内容的丰富信息。他说:“了解视觉信息需要SOMe抽象推理的形式。不用推理,与视觉编码器(VES)相关的语言模型只能学习捷径,即忽略来自VE的信息和形式看似合理但毫无意义的细节。视觉活动。而且表演降至几乎意外的水平。他们通过对整个视觉语言模型进行一系列评估来研究这些结果:1。视觉表示的破坏,2。任务线索中的弱点和3。语言模型在解决任务中的作用。他们发现,以视觉为中心的活动中的瓶颈在于这第三类。视觉语言模型无法在整个模型中有效地使用易于访问的视觉信息,并且它们继承了大型语言模型中存在的语言先验。如下图所示,在所有任务中,尽管视觉编码器的性能发生了巨大变化,但两种表演的视觉编码器都比审查视觉语言模型和盲目盲目的镜头要好得多。此外,尽管Dinov2是5至6个活动中表现最高的编码器,但在任何任务中,它都无法实现视觉语言模型方法的最高性能。结论:APPLE AI的争议要求新的审查范式。围绕苹果论文的学术辩论超出了技术细节,并应对开发大型模型的前景的信念。一方面,这种反征服的景色被许多政党所包围。另一方面,Pasalesforce和UC伯克利分校的研究人员从各个角度提供了强有力的证据,例如复杂识别活动的许多旋转的明显低成功率以及在使用视觉信息中的视觉语言模型的退化。这场辩论不仅指出了“规模”路径的潜在限制,而且还提倡改变基础体系结构中的审查和突破的范式。未来的突破可能会更深入地了解模型失败引起的根源,设计更好地反映智力本质并探索新体系结构(例如神经符号)的基准,以便AI不仅识别PA PAttern,但也执行可靠的一般计算和刺激。回到Sohu看看更多
下一篇:没有了