Mistral推出新API,将任何PDF文档转换为AI-ready Markdown文件

\

上周四,法国大型语言模型(LLM)开发者Mistral推出了一款新的API,供处理复杂PDF文档的开发人员使用。Mistral OCR是一种光学字符识别(OCR)API,可以将任何PDF转换为文本文件,以便AI模型更轻松地吸收。

\

支撑知名GenAI工具如OpenAI的ChatGPT的LLMs特别擅长处理原始文本。因此,想要创建自己的AI工作流程的公司都知道,将数据存储和索引以干净的格式保存非常重要,以便这些数据可以用于AI处理。

\
\
\
\
\

与大多数OCR API不同,Mistral OCR是一种多模式API,意味着它可以检测文本块中夹杂的插图和照片。OCR API会在这些图形元素周围创建边界框,并将它们包含在输出中。

\

Mistral OCR不只是输出一大堆文本;输出格式为Markdown,这是开发人员用来在纯文本文件中添加链接、标题和其他格式元素的格式化语法。

\
\
\

LLMs在其训练数据集中大量使用Markdown。同样,当您使用AI助手,如Mistral的Le Chat或OpenAI的ChatGPT时,它们通常会使用Markdown来创建项目列表、添加链接或将某些元素加粗。助手应用程序会将Markdown输出无缝地格式化为丰富的文本输出。这就是为什么原始文本和Markdown在GenAI蓬勃发展的近年中变得更加重要。

\

“多年来,组织积累了大量文档,通常以PDF或幻灯片格式存储,这些文档对LLMs,尤其是RAG系统来说是无法访问的。通过Mistral OCR,我们的客户现在可以将丰富而复杂的文档转换为所有语言可读的内容,”Mistral联合创始人兼首席科学官Guillaume Lample表示。

\

“这是向那些需要简化对其大量内部文档访问的公司广泛采用AI助手的关键一步,”他补充道。

\
\
\

Mistral OCR可在Mistral自己的API平台上或通过其云合作伙伴(AWS、Azure、Google Cloud Vertex等)上使用。对于处理机密或敏感数据的公司,Mistral提供了本地部署选项。

\

根据总部位于巴黎的AI公司称,Mistral OCR的性能优于Google、Microsoft和OpenAI的API。该公司已经使用其OCR模型测试过包含数学表达式(LaTeX格式)、高级布局或表格的复杂文档。它还被认为在处理非英语文档时表现更好。

\
图片来源:Mistral

鉴于Mistral OCR只做一件事,公司认为它也比现有的工具更快。如果将其与具有OCR功能的多模式LLM如GPT-4o进行比较,这一结论也不足为奇。

\
\
\
\
\
\
\
\
\

Mistral还在其自己的AI助手Le Chat中使用Mistral OCR。用户上传PDF文件时,公司会在后台使用Mistral OCR来理解文档内容,然后处理文本。

\

公司和开发人员很可能会将Mistral OCR与RAG系统一起使用,以在LLM中使用多模态文档作为输入。有许多潜在的用例。例如,我们可以想象律师事务所使用它来帮助他们迅速浏览大量文档。

\

RAG是一种用于检索数据并将其作为上下文与生成式AI模型一起使用的技术。