ChatGPT的图像生成功能升级

极点视野

Friday, April 18 2025

在星期二的直播中，OpenAI首席执行官Sam Altman宣布了ChatGPT图像生成能力一年多来的第一个重大升级。

ChatGPT现在可以利用公司的GPT-4o模型原生地创建和修改图像和照片。GPT-4o长期以来一直支持这款AI驱动的聊天机器人平台，但直到现在，这个模型只能生成和编辑文本，而不能处理图像。

Altman表示，GPT-4o原生图像生成现在已经在ChatGPT和OpenAI的AI视频生成产品Sora中上线，供订阅公司每月200美元的专业计划用户使用。OpenAI表示，该功能将很快在ChatGPT的Plus和免费用户以及使用公司API服务的开发者中推出。

GPT-4o生成图像的速度比其有效替代品DALL-E 3稍慢一些，以生成更准确和详细的图像。GPT-4o可以编辑现有的图像，包括有人物的图像，转变它们或对前景和背景对象进行修补。

为了支持新的图像功能，OpenAI告诉《华尔街日报》，他们在“公开可用的数据”以及与Shutterstock等公司合作的专有数据上对GPT-4o进行了训练。

许多生成式AI供应商认为训练数据是一种竞争优势，因此他们会将相关信息保密。但训练数据的细节也可能是知识产权诉讼的潜在来源，这也是公司不愿透露太多信息的一个因素。

OpenAI的首席运营官Brad Lightcap在向《华尔街日报》发表的声明中表示：“我们尊重艺术家的权利，我们有一套政策措施，防止我们生成直接模仿任何现存艺术家作品的图像。”

OpenAI提供了一个退出表格，允许创作者请求将他们的作品从其训练数据集中删除。该公司还表示，他们尊重不允许其网络爬虫从网站收集训练数据，包括图像的请求。

ChatGPT的图像生成功能升级紧随谷歌推出的旗舰型号之一Gemini 2.0 Flash的实验性原生图像输出之后。这个强大的功能在社交媒体上迅速走红，但并不总是因为最好的原因。Gemini 2.0 Flash的图像组件结果出现了一些问题，允许人们删除水印并创建涉及受版权保护的角色的图像。

本文于太平洋时间12点更新，包括OpenAI向《华尔街日报》发表关于GPT-4o训练数据的声明。

极点视野