chatgpt热度还未散去,chatgpt开发商openai发布了更强大的gpt-4,堪称“王炸”产品。
当地时间3月14日,openai公开发布大型多模态模型gpt-4,与chatgpt所用的模型相比,gpt-4不仅能够处理图像内容,且回复的准确性有所提高。目前gpt-4没有免费版本,仅向chatgpt plus的付费订阅用户及企业和开发者开放。
“这是openai努力扩展深度学习的最新里程碑。”openai介绍,gpt-4在专业和学术方面表现出近似于人类的水平。例如,它在模拟律师考试中的得分能够排进前10%左右,相比之下,gpt-3.5的得分只能排在倒数10%左右。
与此前的gpt系列模型相比,gpt-4最大的突破之一是在文本之外还能够处理图像内容。openai表示,用户同时输入文本和图像的情况下,它能够生成自然语言和代码等文本。
目前图像处理功能还未公开,不过该公司在官网上展示了一系列案例。例如,输入如下图片并询问“这张图片有什么不寻常之处”,gpt-4可作出回答“这张照片的不同寻常之处在于,一名男子正在行驶中的出租车车顶上,使用熨衣板熨烫衣服。”
在官方演示中,gpt-4几乎就只花了1-2秒的时间,识别了手绘网站图片,并根据要求实时生成了网页代码制作出了几乎与手绘版一样的网站。
除了普通图片,gpt-4还能处理更复杂的图像信息,包括表格、考试题目截图、论文截图、漫画等,例如根据专业论文直接给出论文摘要和要点。
gpt-4可对论文进行解读 来源:openai官网
与此前的模型相比,gpt-4的准确性有所提高。openai称,该公司花费6个月的时间,利用对抗性测试程序和chatgpt的经验教训迭代调整gpt-4,从而在真实性、可操纵性和拒绝超出设定范围方面取得了有史以来最好的结果,“至少对我们而言,gpt-4训练运行前所未有地稳定,成为首个能够提前准确预测其训练性能的大型模型。”
openai称,在公司内部的对抗性真实性评估中,gpt-4的得分比最新的gpt-3.5高40%,相应的“不允许内容请求的倾向”降低了 82%,根据政策响应敏感请求(如医疗建议和自我伤害)的频率提高了29%。
不仅是英语,该模型在多种语言方面均表现出优越性。openai称,在测试的26种语言中,gpt-4在24种语言方面的表现均优于gpt-3.5等其他大语言模型的英语语言性能。其中gpt-4的中文能够达到80.1%的准确性,而gpt-3.5的英文准确性仅为70.1%,gpt-4英文准确性提高到了85.5%。
来源:openai官网
不过, 与早期的gpt模型一样,gpt-4仍然存在一定的局限性。
openai称,它并不完全可靠,可能会出现推理错误 ,“gpt-4缺乏对绝大多数数据切断后(2021年9月)发生的事件的了解,并且无法从中吸取经验教训……它有时会出现简单的推理错误,它会轻信用户明显的虚假陈述,有时它会像人类一样在难题上失败,例如在它生成的代码中引入安全漏洞。”
基于此,openai提醒,用户在使用语言模型时应格外小心,最好辅助以人工审查、附加上下文、或完全避免在高风险情况下使用它。
值得注意的是,gpt-4虽然于14日才正式公开,但早在一个月前,微软的新版搜索引擎必应(bing)就已经在gpt-4 上运行。微软表示,“如果您在过去五周内的任何时间使用过新版必应,那么您已经体验过gpt-4的早期版本。”
与免费的chatgpt不同,gpt-4目前仅向chatgpt plus的付费用户开放,它也将作为api(应用程序编程接口)提供给企业及开发者,开发者需进入等候名单上,将该模型集成到他们的应用程序中。
openai表示,已经有多家公司将gpt-4搭载到他们的产品中,包括语言学习工具软件多邻国(duolingo)、移动支付公司stripe和可汗学院(khan academy)。