学术党狂喜,Meta推出OCR神器,PD

北京中科白癜风医院医生 https://wapjbk.39.net/yiyuanfengcai/ys_bjzkbdfyy/793/

机器之心报道

编辑:陈萍、梓文

有了Nougat,再也不用怕复杂的数学公式了。

我们平时在阅读论文或者科学文献时,见到的文件格式基本上是PDF(PortableDocumentFormat)。据了解,PDF成为互联网上第二重要的数据格式,占总访问量的2.4%。

然而,存储在PDF等文件中的信息很难转成其他格式,尤其对数学公式更是显得无能为力,因为转换过程中很大程度上会丢失信息。就像下图所展示的,带有数学公式的PDF,转换起来就比较麻烦。

现在,MetaAI推出了一个OCR神器,可以很好的解决这个难题,该神器被命名为Nougat。Nougat基于Transformer模型构建而成,可以轻松的将PDF文档转换为MultiMarkdown,扫描版的PDF也能转换,让人头疼的数学公式也不在话下。

论文


转载请注明:http://www.aierlanlan.com/grrz/9052.html