AI大语言模型的科技军备竞赛已经打响了…

2024年3月4日,OpenAl 公司最大的竞争对手 Anthropic 发布了新一代 AI 大模型 - Claude 3

Claude 3 包含 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku 这三个最先进的模型,在推理、数学、编码、多语言理解和视觉方面树立了新的行业基准。

Anthropic 在官网发布了一篇阅读时长为7min的文章来介绍他们的下一代Claude。

以下是官网原文翻译:


今天,我们宣布推出 Claude 3 模型系列,它为广泛的认知任务树立了新的行业基准。该系列包括三种最先进的模型(按功能升序排列):Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。每个后续的模型都提供越来越强大的性能,允许用户为其特定应用选择智能、速度和成本的最佳平衡。

Opus 和 Sonnet 现已可在 claude.ai 中使用,而 Claude API 现已在159 个国家/地区广泛使用。Haiku 即将推出。

智能的新标准

Opus 是我们最智能的模型,在人工智能系统的大多数常见评估基准上都优于同行,包括本科水平专家知识 (MMLU)、研究生水平专家推理 (GPQA)、基础数学 (GSM8K) 等。它在复杂任务上表现出接近人类水平的理解力和流畅性,引领通用智能的前沿。

所有Claude 3模型都显示出在分析和预测、细致内容创建、代码生成以及西班牙语、日语和法语等非英语语言对话方面的增强能力。

以下是 Claude 3 模型与我们的同行模型在多个性能基准 [1] 上的比较:

近乎实时的响应结果

Claude 3 模型可以支持实时客户聊天、自动完成和数据提取任务,其中响应必须立即且实时。

Haiku 是智能类别市场上速度最快且最具成本效益的模型。它可以在不到三秒的时间内阅读 arXiv 上包含图表和图形的信息和数据密集的研究论文(约 10k tokens),发布后,我们期望进一步提高性能。

对于绝大多数工作负载,Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍,且智能水平更高。它擅长执行需要快速响应的任务,例如知识检索或销售自动化。Opus 的速度与 Claude 2 和 2.1 相似,但智能水平更高。

强大的视觉能力

Claude 3 模型具有与其他领先模型相当的复杂视觉功能,它们可以处理各种视觉格式,包括照片、图表、图形和技术图表。我们特别高兴能够为我们的企业客户提供这种新模式,其中一些客户有高达 50% 的知识库是基于各种格式编码的,例如 PDF、流程图或演示幻灯片。

更少的拒绝回复

以前的Claude模型经常做出不必要的拒绝,这表明缺乏语境理解。我们在这一领域取得了有意义的进展:与前几代模型相比,Opus、Sonnet 和 Haiku 拒绝回答那些接近系统底线的提示(prompts)的可能性明显降低。如下所示,Claude 3 模型对请求表现出更细致的理解,能够识别真正有害的prompts,并且拒绝回答无害prompts的频率要少得多。

准确率提高

各种规模的企业都依赖我们的模型来为其客户提供服务,因此我们的模型输出必须保持大规模的高精度。为了评估这一点,我们使用了大量复杂的事实问题来针对当前模型中已知的弱点。我们将答案分为正确答案、错误答案(或幻觉)和承认不确定性,其中模型表示它不知道答案,而不是提供不正确的信息。与 Claude 2.1 相比,Opus 在这些具有挑战性的开放式问题上的准确性(或正确答案)提高了一倍,同时也减少了错误答案。

除了产生更值得信赖的回复之外,我们很快还将在 Claude 3 模型中启用引用,以便他们可以指向参考材料中的精确句子来验证他们的答案。

长上下文和近乎完美的回忆召回能力

Claude 3 系列模型在发布时最初将提供 200K 上下文窗口。然而,所有三种模型都能够接受超过 100 万个tokens的输入,我们可能会将其提供给需要增强处理能力的精选客户。

为了有效地处理长上下文提示,模型需要强大的回忆召回能力。Needle In A Haystack(NIAH)“大海捞针”评估衡量模型从大量数据中准确回忆信息的能力。我们通过在每个prompt中使用 30 个随机 needle/question 对之一并在不同的众包文档库上进行测试,增强了该基准的稳健性。Claude 3 Opus 不仅实现了近乎完美的召回率,超过 99% 的准确率,而且在某些情况下,它甚至识别出“Needle”这句话似乎是人类人为插入到原文中的,并以此来识别出评估本身的局限性。

负责任的设计

我们开发的 Claude 3 系列模型不仅功能强大,而且值得信赖。我们有几个专门的团队来跟踪和减轻广泛的风险,从错误信息和 CSAM 到生物滥用、选举干扰和自主复制技能。我们继续开发宪法人工智能等方法来提高模型的安全性和透明度,并调整我们的模型以减少新模式可能引发的隐私问题。

解决日益复杂的模型中的偏差是一项持续的努力,我们在这个新版本中取得了长足的进步。如模型卡所示,根据问答 (BBQ) 偏差基准, Claude 3 显示的偏差比我们之前的模型要少。我们仍然致力于改进技术,减少偏见并促进我们的模型更加中立,确保它们不偏向任何特定的党派立场。

虽然与之前的模型相比,Claude 3 模型系列在生物知识、网络相关知识和自主性的关键指标方面取得了进步,但根据我们的负责任的扩展政策,它仍处于 AI 安全级别 2 (ASL-2) 。我们的红队评估(根据我们的白宫承诺和2023 年美国行政命令进行)得出的结论是,这些模型目前带来灾难性风险的可能性可以忽略不计。我们将继续仔细监控未来的模型,以评估它们是否接近 ASL-3 阈值。更多安全细节请参见Claude 3 模型卡。

更容易使用

Claude 3 模型更擅长遵循复杂的多步骤指令。他们特别擅长遵守品牌声音和响应准则,并开发用户可以信赖的面向客户的体验。此外,Claude 3 模型更擅长以 JSON 等格式生成流行的结构化输出,从而可以更轻松地指导 Claude 进行自然语言分类和情感分析等用例。

模型的细节

Claude 3 Opus 是我们最智能的模型,在高度复杂的任务上具有市场最佳的性能。它可以以惊人的流畅性和类似人类的理解能力来导航开放式提示和看不见的场景。Opus 向我们展示了 生成式人工智能 的外部极限。

Claude 3 Sonnet 在智能和速度之间实现了理想的平衡,特别是对于企业的工作负载来说。与同类产品相比,它以更低的成本提供强大的性能,并且专为大规模人工智能部署中的高耐用性而设计。

Claude 3 Haiku 是我们最快、最紧凑的模型,具有近乎即时的响应能力,它以无与伦比的速度回答简单的查询和请求,用户将能够构建模仿人类交互的无缝人工智能体验。

模型可用性

Opus 和 Sonnet 现在可以在我们的 API 中使用,该 API 现已普遍可用,开发人员能够立即注册并开始使用这些模型。Haiku即将推出。Sonnet 正在为 claude.ai 提供免费体验,Opus 可供 Claude Pro 订阅者使用。

Sonnet 现已通过 Amazon Bedrock 提供,并在 Google Cloud 的 Vertex AI Model Garden 上提供私人预览版,Opus 和 Haiku 也即将推出。

更智能、更快、更安全

我们认为模型智能还没有达到极限,我们计划在未来几个月内频繁发布 Claude 3 模型系列的更新。我们还很高兴发布一系列功能来增强我们模型的功能,特别是对于企业用例和大规模部署。这些新功能将包括工具使用(又名函数调用)、交互式编码(又名 REPL)和更高级的代理功能。

当我们突破人工智能能力的界限时,我们同样致力于确保我们的安全护栏跟上这些性能飞跃的步伐。我们的假设是,处于人工智能发展的前沿是引导其走向积极社会成果的最有效方式。

我们很高兴看到您使用 Claude 3 创作的作品,并希望您能给我们反馈,使 Claude 成为更有用的助手和创意伴侣。要开始与 Claude 一起构建,请访问anthropic.com/claude

脚注

  1. 该表显示了与目前已发布评估的商用模型的比较。我们的模型卡显示了与已宣布但尚未发布的模型(例如 Gemini 1.5 Pro)的比较。此外,我们还想指出,工程师们一直在努力优化评估prompts和少量样本,并为较新的 GPT-4T 模型报告了更高的分数。

后话

有趣的小知识:这里的Opus Sonnet 和 Haiku 分别代表史诗级乐章 十四行诗和 日本的俳句,很诗意的说法,通俗理解就是super pro,pro 和 regular版本。

据说 Antropic 这次是抢在 OpenAI 发布 ChatGPT5 之前发布 Claude 3,算是在明面上打响了各大科技公司的“军备竞赛”。

PS:但无论是 ChatGPT 还是 Claude 都屏了CN地区,因此还没有用上chatgpt的小伙伴可以看看➡️ 2024年升级ChatGPT Plus最详细图文教程 | AI头号玩家 ,体验一下各种LLM(大语言模型)的不同

Claude 3 看起来很不错,但是对于已经使用上ChatGPT的用户来说,除非Claude有很大的优势,否则是不会轻易换到另一个语言模型的(对我来说是这样的),先等一手 ChatGPT5 吧。

原文出处:Introducing the next generation of Claude

服务类型 教程
ChatGPT Plus 2024年升级ChatGPT Plus最详细图文教程
2024年手把手教你升级 ChatGPT Plus
2024年教你使用电子邮箱轻松注册chatgpt账号
ChatGPT 无法登录提示「Unable to load site」怎么办?
Claude 3 Claude 3 打响科技“军备”竞赛之一——【什么是 Claude 3?】
Claude 3 打响科技“军备”竞赛之二——【如何升级 Claude 3?】
Apple ID【美区】 苹果手机如何注册美区Apple ID并绑卡(解决支付问题)?
Onlyfans 2024年手把手教你使用虚拟信用卡订阅 Onlyfans
Midjourney 什么是 Midjourney 以及 如何订阅 Midjourney?
OpenAI Sora What is OpenAI Sora?–小白必看
YouTube 【2024】如何订阅 YouTube Premium 会员服务?
Gmail谷歌邮箱 【2024】如何注册Gmail谷歌邮箱?