Meta的羊驼AI模型现在也支持图像

本杰明·富兰克林曾经写道,除了死亡和税收之外,没有任何东西是确定的。让我修改一下这句话,以反映当前的AI热潮:除了死亡、税收和新的AI模型之外,没有什么是确定的,后面这三者以越来越快的速度出现。

本周早些时候,谷歌发布了升级版的Gemini模型,这个月早些时候,OpenAI推出了o1模型。但是,周三,Meta在公司位于门洛帕克的年度Meta Connect 2024开发者大会上展示了最新的成果。

羊驼的多模态

Meta的多语言羊驼系列模型已经达到了3.2版本,从3.1版本升级到3.2版本表示几个羊驼模型现在是多模态的。Llama 3.2 11B是一个紧凑型模型,而90B是一个更大、功能更强的模型,可以解释图表和图形,为图像加注释,并根据简单的描述准确定位图片中的物体。

例如,给出一张公园的地图,Llama 3.2 11B和90B可能能够回答问题:“这条路径何时会变得更陡峭?”和“这条路径的长度是多少?”或者,提供一张显示一家公司一年内收入情况的图表,这些模型可以迅速找出表现最好的几个月。

对于希望仅将模型用于文本应用的开发人员,Meta表示,Llama 3.2 11B和90B设计成“即插即用”替代品。11B和90B可以在有或没有新的安全工具Llama Guard Vision的情况下部署,该工具旨在检测向模型输入或生成的潜在有害(即偏见或有毒)文本和图像。

在世界大部分地区,多模态羊驼模型可以从Hugging Face、Microsoft Azure、Google Cloud和AWS等多个云平台下载和使用。Meta还将它们托管在官方的羊驼网站Llama.com上,并将它们用于推动其AI助手Meta AI在WhatsApp、Instagram和Facebook上的运行。

图片来源:Meta

但是,欧洲无法访问羊驼3.2 11B和90B。因此,一些在其他地方可用的Meta AI功能,比如图像分析,对欧洲用户不可用。Meta再次归咎于该地区法规环境的“难以预测”性质。

Meta对与AI法案有关的担忧表达了拒绝签署一项自愿安全承诺。欧盟的AI法案规定,开发AI的公司在欧盟承诺判断他们的模型是否可能在“高风险”情况下部署,如执法。Meta担心,其模型的“开放”性质使其无法对模型的使用情况有充分了解,这可能使其难以遵守AI法案的规定。

对Meta而言,GDPR的 provisions 相关于AI训练也是个问题。Meta在不同欧洲国家的用户数据上训练模型,而这些数据在欧洲受到GDPR保障。今年早些时候,欧盟监管机构要求Meta停止对欧洲用户数据进行训练,同时他们评估公司的GDPR合规性。

本月早些时候,Meta表示将在英国用户数据中恢复训练,之后将“整合监管反馈”到修订的退出流程中。但公司尚未就其在欧盟其他地区的训练情况进行更新。

更紧凑的模型

其他新的Llama模型——这些模型不是在欧洲用户数据上训练的——本周在欧洲(以及全球)推出。

Llama 3.2 1B和3B是两个轻量级的纯文本模型,设计用于在智能手机和其他边缘设备上运行,可以用于任务如总结和重写段落(例如在电子邮件中)。Meta表示,经过优化的1B和3B可以在高通和联发科的Arm硬件上运行,并且还可以通过一些配置访问日历应用,从而可以自主执行操作。

与8月发布的旗舰Llama 3.1 405B模型没有后续,无论是多模态还是不是。考虑到405B的巨大规模——训练需要几个月的时间——这很可能是受到计算资源的限制。我们已经询问了Meta是否还有其他因素在起作用,如果有进一步消息,我们将更新本文。

Meta的新的Llama栈,一套以Llama为中心的开发工具,可用于微调所有的Llama 3.2模型:1B、3B、11B和90B。无论如何定制,Meta表示这些模型可以一次处理约10万个单词。

图片来源:Meta

争夺关注

Meta首席执行官马克·扎克伯格经常谈论确保所有人都能获得AI的“好处和机会”。然而,这种言辞中隐含的是一种渴望,即这些工具和模型是由Meta制造的。

投入资金用于训练可以随后实现商业化的模型迫使竞争对手(例如OpenAI、Anthropic)降低价格,将Meta的AI版本广泛传播,并让Meta吸收来自开源社区的改进。Meta声称其羊驼模型已被下载超过3.5亿次,并被Zoom、AT&T和高盛等大型企业使用。

对于许多这些开发人员和公司来说,羊驼模型并非“开放”得最严格的意义上。Meta的许可约束了某些开发人员如何使用它们;有超过7亿月活用户的平台必须向Meta申请特殊许可,Meta将根据自己的决定进行授予。

诚然,没有多少平台的规模达到如此之大,没有自己的内部模型。但Meta在这个过程中并不是特别透明。当我这个月询问公司是否已经批准了一个平台的自愿羊驼许可证时,一位发言人告诉我,Meta“在这个话题上没有什么要分享的”。

毫无疑问,Meta是认真对待的。它正在花费数百万在游说监管机构,让他们接受其首选的“开放”AI的方式,并正在向服务器、数据中心和网络基础设施投入数十亿美元用于训练未来的模型。

Llama 3.2的模型并未解决如今AI的主要问题,例如它倾向于虚构事物并重复有问题的训练数据(例如未经许可使用的受版权保护的电子书,这成为了对Meta的一项集体诉讼的主题)。但正如我之前所写的那样,它们确实推动了Meta的一个关键目标:成为与AI,特别是生成式AI相提并论。