
在星期二的直播中,OpenAI首席执行官Sam Altman宣布了ChatGPT图像生成能力一年多来的第一个重大升级。
ChatGPT现在可以利用公司的GPT-4o模型原生地创建和修改图像和照片。GPT-4o长期以来一直支持这款AI驱动的聊天机器人平台,但直到现在,这个模型只能生成和编辑文本,而不能处理图像。
Altman表示,GPT-4o原生图像生成现在已经在ChatGPT和OpenAI的AI视频生成产品Sora中上线,供订阅公司每月200美元的专业计划用户使用。OpenAI表示,该功能将很快在ChatGPT的Plus和免费用户以及使用公司API服务的开发者中推出。
GPT-4o生成图像的速度比其有效替代品DALL-E 3稍慢一些,以生成更准确和详细的图像。GPT-4o可以编辑现有的图像,包括有人物的图像,转变它们或对前景和背景对象进行修补。
为了支持新的图像功能,OpenAI告诉《华尔街日报》,他们在“公开可用的数据”以及与Shutterstock等公司合作的专有数据上对GPT-4o进行了训练。
许多生成式AI供应商认为训练数据是一种竞争优势,因此他们会将相关信息保密。但训练数据的细节也可能是知识产权诉讼的潜在来源,这也是公司不愿透露太多信息的一个因素。
OpenAI的首席运营官Brad Lightcap在向《华尔街日报》发表的声明中表示:“我们尊重艺术家的权利,我们有一套政策措施,防止我们生成直接模仿任何现存艺术家作品的图像。”
OpenAI提供了一个退出表格,允许创作者请求将他们的作品从其训练数据集中删除。该公司还表示,他们尊重不允许其网络爬虫从网站收集训练数据,包括图像的请求。
ChatGPT的图像生成功能升级紧随谷歌推出的旗舰型号之一Gemini 2.0 Flash的实验性原生图像输出之后。这个强大的功能在社交媒体上迅速走红,但并不总是因为最好的原因。Gemini 2.0 Flash的图像组件结果出现了一些问题,允许人们删除水印并创建涉及受版权保护的角色的图像。
本文于太平洋时间12点更新,包括OpenAI向《华尔街日报》发表关于GPT-4o训练数据的声明。