扬帆创投微信小程序
更聚焦的出海投融资平台
精准高效领先的融资对接服务
微信扫一扫进入小程序

包括处理模糊任务、从海量信息中提取关键信息、复杂文档推理与决策、多流程AIAgent、视觉推理、代码审查和性能评估。这些场景展示了o系列模型在处理复杂任务和推理方面的强大能力。

摘要

o系列模型专注于复杂任务的推理和规划,适合需要深入思考和高准确性的场景;GPT系列模型则更适合快速执行简单任务,具有低延迟和高成本效益。

金融分析平台通过o系列模型发现关键条款,节省7500万美元;AI税务研究平台BlueJ通过o1模型提升性能4倍;AI代码审查公司CodeRabbit通过o系列模型提高产品转化率3倍。

如果任务简单且对速度和成本敏感,选择GPT系列模型;如果任务复杂且需要高准确性和可靠性,选择o系列模型。在多数AI工作流程中,结合使用两种模型,o系列负责规划和决策,GPT系列负责执行具体任务。

使用简洁明了的指令,避免冗长复杂的表述;不使用“一步一步思考”等思维链提示;使用分隔符(如Markdown)清晰指示输入的不同部分;为成功的响应设定具体参数,鼓励模型不断推理和迭代。

今早5点,OpenAI分享了o系列模型的7大实际应用场景,包括处理模糊任务、从海量信息中提取关键信息、复杂文档推理与决策、多流程AIAgent、视觉推理、代码审查以及性能评估。

在这些实际案例中,一家金融分析平台通过o系列模型成功找出了影响收购的关键变更条款,帮助公司节省了7500万美元。

此外,还解读了o系列推理模型与效率型GPT系列模型的区别,帮助你在实际应用中该如何高效选择这两种模型。

图片

7大实际应用场景

处理模糊任务

推理模型在处理模糊任务方面表现卓越。能够凭借有限或零散的信息,通过简单的提示,理解用户的意图,并处理指令中的信息缺口。Hebbia,一家专注于法律和金融领域的AI知识平台公司,使用o1模型处理复杂文档。

在处理信用协议时,o1模型仅通过一个基本提示,就能轻松识别出在受限支付能力下可用的篮子。与其他模型相比,o1在处理复杂提示时,在密集的信用协议上有52%的情况能够产生更优的结果。

从海量信息中提取关键信息

在面对大量非结构化信息时,推理模型能够准确理解并提取出最相关的信息来回答问题。Endex,一家AI金融情报平台,在分析一家公司的收购案时,使用o1模型审查了数十份公司文件,如合同和租约。

图片

o1模型成功地找出了可能影响交易的关键条款,在文件脚注中发现了一个至关重要的“控制权变更”条款。如果公司被出售,必须立即偿还7500万美元的贷款。这一发现充分体现了o1模型在海量信息中精准筛选关键信息的能力,为金融专业人士提供了有力的支持。

挖掘复杂数据关系

推理模型擅长对包含大量密集、非结构化信息的复杂文档进行推理,如法律合同、财务报表和保险索赔等。BlueJ,一家AI税务研究平台,在税务研究中需要综合多个文档得出最终合理的答案。

在将GPT-4o更换为o1模型后,发现o1在推理文档之间的相互作用以得出逻辑结论方面表现更为出色,这些结论在单个文档中并不明显。通过使用o1模型,BlueJ的端到端性能提升了4倍,这一显著的效果证明了o1模型在挖掘复杂数据关系方面的优势。

推理模型在处理复杂的金融场景时也表现出色。BlueFlameAI,一家投资管理AI平台,在测试不同模型处理有关股东权益的复杂问题时发现,o1和o3-mini能够完美地处理诸如融资对现有股东的影响,特别是在股东行使反稀释特权时的复杂计算。

这些问题即使是顶级金融分析师也需要花费20-30分钟才能解决,而o1和o3-mini不仅能够准确计算,还能生成清晰的计算表展示对10万美元股东的影响。这一成果展示了推理模型在金融分析领域的巨大潜力,为投资决策提供了更准确、高效的支持。

多步骤智能规划

推理模型在多步骤智能规划中起着关键作用。ArgonAI,一家为制药行业服务的AI知识平台,使用o1作为其代理基础设施中的规划器。

o1能够精心安排工作流程中的其他模型,将大问题分解为较小的子问题,并选择合适的数据类型,让其他模型专注于执行。在药物研发的复杂过程中,o1模型可以根据研究目标和现有数据,制定详细的研究计划,包括选择合适的实验方法、安排实验步骤以及确定数据分析方法等,从而提高研发效率

Lindy.AI,一款工作AI助手,也使用o1模型为其许多代理工作流程提供动力。o1模型通过函数调用从用户的日历或电子邮件中提取信息,然后自动帮助用户安排会议、发送电子邮件和管理日常任务。

在将出现问题的代理步骤切换到o1后,Lindy.AI的代理表现得到了显著提升,几乎达到了完美的程度。这一应用展示了推理模型在智能办公领域的实际价值,为用户提供了更加便捷、高效的工作体验。

视觉推理新突破

目前,o1是唯一支持视觉能力的推理模型。与GPT-4o相比,o1在处理具有挑战性的视觉内容方面表现出色,如结构模糊的图表、表格以及质量较差的照片。Safetykit,一家AI商家监测平台,在自动化风险和合规审查数百万在线产品时发现,GPT-4o在最难的图像分类任务上准确率仅为50%,而o1在无需对其流程进行任何修改的情况下,准确率达到了令人瞩目的88%

这一巨大的差距凸显了o1模型在视觉推理方面的优势,为电商平台的商品监测提供了更可靠的解决方案。

图片

OpenAI内部测试显示,o1能够从高度详细的建筑图纸中识别固定装置和材料,生成全面的材料清单。o1还能在不同图像之间进行关联,通过建筑图纸某一页的图例,正确地应用到另一页,即使没有明确的指令。这一能力在建筑设计和施工领域具有重要的应用价值,能够提高设计和施工的准确性和效率。

代码审查与优化

推理模型在代码审查和提高代码质量方面非常有效。CodeRabbit,一家AI代码审查初创公司,在GitHub和GitLab等平台上提供自动化AI代码审查服务。代码审查过程对延迟不太敏感,但需要理解多个文件中的代码差异。o1模型在这方面表现出色,能够可靠地检测到人类审查员可能忽略的代码库中的微小变化。在切换到o系列模型后,CodeRabbit的产品转化率提高了3倍,这一数据充分证明了推理模型在代码审查领域的价值

Codeium,一家AI代码扩展初创公司发现,o3-mini在代码生成方面表现出色,对于定义明确的问题,即使是非常具有挑战性的编码任务,o3-mini也能经常生成高质量、确定性的代码,并找到正确的解决方案。相比之下,其他模型可能只适用于小规模、快速的代码迭代,而o3-mini在规划和执行复杂软件设计系统方面具有明显优势。这表明o3-mini在软件开发的全流程中都能发挥重要作用,为开发者提供更强大的支持。

模型响应评估与基准测试

推理模型在评估和基准测试其他模型的响应方面也表现出色。Braintrust,一家AI评估平台,许多客户在评估过程中使用“大语言模型作为评判者”的方法。例如,一家医疗保健公司可能使用像gpt-4o这样的模型来总结患者问题,然后使用o1来评估总结的质量。

在一个实际案例中,使用o1作为评判者后,F1分数从使用4o时的0.12提高到了0.74。这一显著的提升表明,o1在发现完成结果中的细微差异方面具有独特的优势,为模型评估提供了更准确、更智能的方法,尤其适用于最困难和最复杂的评分任务。

o与GPT系列模型的功能差异

o系列模型可称为“规划者”。它们经过专门训练,在面对复杂任务时,能够进行长时间、深入的思考。这种特性使得o系列模型在制定策略、规划复杂问题解决方案以及基于大量模糊信息做出决策等方面表现出色。

以数学领域为例,在解决复杂的微积分证明题时,o系列模型可以从多个定理和公式中筛选出合适的内容,逐步构建出严谨的证明过程。在工程领域,当设计一个大型建筑结构时,o系列模型能综合考虑各种因素,如地理环境、建筑用途、材料性能等,制定出最优的设计方案。此外,o系列模型执行任务的准确性和精度极高,在金融服务和法律服务等对专业性要求极高的领域,它们能够胜任原本需要人类专家才能完成的工作。

GPT模型则像是“工作马”,具有较低的延迟和较高的成本效益,更适合用于执行简单直接的任务。在一些对速度要求较高的场景中,如实时聊天机器人的回复生成,GPT模型能够快速给出回应,满足用户即时交互的需求。在文本内容的简单格式转换任务中,GPT模型也能高效完成,以较低的成本实现任务目标。

该如何选择合适的模型

在实际应用中,选择合适的模型至关重要。如果项目对速度和成本最为看重,且任务简单明确,那么GPT模型无疑是最佳选择。例如在一个新闻资讯类APP中,需要快速对用户的简单查询(如查询某明星的基本信息)做出回应,GPT模型凭借其快速的处理速度和较低的成本,能够很好地满足需求。若任务侧重于执行明确界定的任务,例如按照特定格式对数据进行整理,GPT模型也能轻松应对。

图片

但当准确性和可靠性是关键因素,且需要解决复杂的多步骤问题时,o系列模型则更为合适。在医疗诊断辅助系统中,医生上传患者的各种检查报告,o系列模型可以对这些信息进行深入分析,准确判断患者的病情,并给出合理的诊断建议。在科学研究领域,面对复杂的实验数据和理论问题,o系列模型也能发挥其优势,帮助科研人员得出准确可靠的结论。

在大多数AI工作流程中,往往会结合使用这两种模型。o系列模型负责智能规划和决策,GPT模型则专注于具体任务的执行

以一个电商智能客服系统为例,o系列模型根据用户的问题,制定解决问题的策略和步骤,然后选择合适的GPT模型去执行具体的任务,如查找商品信息、处理订单等,从而实现高效的客户服务。

推理模型提示技巧

推理模型擅长理解和回应简洁明了的指令。在编写提示时,应避免冗长复杂的表述,尽量用简短、清晰的语言表达需求。

例如,在让模型分析一段文本的情感倾向时,直接输入 “分析这段文本的情感倾向”,比使用复杂的表述 “请你仔细阅读以下这段文本,从语义、语境、词汇使用等多个方面综合分析,判断其传达的是积极、消极还是中性的情感倾向” 更能让模型快速准确地理解任务。

由于推理模型内部已经具备强大的推理能力,因此无需使用 “一步一步思考” 或 “解释你的推理过程” 等思维链提示。这些提示不仅可能无法提升模型性能,有时还会起到反作用。在实际应用中,应相信模型的内部推理机制,直接提出明确的任务要求即可。

图片

使用分隔符如 Markdown、XML 标签和章节标题等,可以清晰地指示输入的不同部分,帮助模型正确解释各个部分的内容。

在输入包含文本描述和示例的提示时,可以使用 Markdown 的分隔符将描述和示例分开,如 “任务描述:分析文本主题。示例:[文本 1],主题:科技发展;[文本 2],主题:文化传承”,这样模型能够更清晰地理解任务和示例之间的关系,提高回答的准确性。

在指令中,应尽量为成功的响应设定非常具体的参数,鼓励模型不断推理和迭代,直到满足成功标准。例如,在让模型创作一篇文章时,可以明确规定文章的主题、字数、风格要求等参数,让模型清楚知道需要达到的目标,从而创作出更符合期望的文章。

原文链接:点击前往 >

文章作者:AIGC开放社区

版权申明:文章来源于AIGC开放社区。该文观点仅代表作者本人,扬帆出海平台仅提供信息存储空间服务,不代表扬帆出海官方立场。因本文所引起的纠纷和损失扬帆出海均不承担侵权行为的连带责任,如若转载请联系原文作者。 更多资讯关注扬帆出海官网:https://www.yfchuhai.com/

{{likeNum}}

好文章,需要你的鼓励

请前往扬帆出海小程序完成个人认证
认证通过后即可申请入驻
扫码添加小助手
微信扫描二维码,添加小助手
微信号:yfch24
扫码添加小助手
微信扫描二维码,添加小助手
微信号:yfch24
APP
小程序
微信公众号
微信小程序
扬帆出海APP
扬帆出海APP
微信
公众号
微信公众号
关注扬帆出海
专注服务互联网出海!
出海人
社群
微信公众号
扫码进群
与10万+出海人同行!