百度推出基于文心大模型的通用图像关键信息抽取工具PP-ChatOCR

近期，百度飞桨团队发布了一款名为PP-ChatOCR的通用图像关键信息抽取工具，其基于文心大模型进行开发。PP-ChatOCR采用了OCR文字识别和大模型技术相结合的方式，可以在各种场景下提取图像中的关键信息。

该工具的核心思想是通过利用大模型的泛化能力和规则化处理，将OCR识别结果传递给文心大模型进行信息提取。其技术框架包含了OCR推理、场景判别、Prompt构造和后处理等多个步骤。

百度强调，使用PP-ChatOCR可以快速构建通用的图像关键信息抽取系统，从而降低开发成本。对于个性化需求，可以根据业务场景进行优化，包括微调OCR模型和调整大模型输出。据称，PP-ChatOCR在多个场景中已取得了精度和稳定性方面的良好表现。

据了解，PP-ChatOCR已正式上线飞桨AI套件PaddleX，开发者可以利用PaddleX对PP-OCRv4进行训练微调。同时，PaddleX还支持PP-ChatOCR的高性能部署。

PaddleX支持10+种任务能力，包括图像分类、目标检测、图像分割、3D、OCR以及时序预测等。其内置了36种飞桨生态特色模型，包括PP-ChatOCR、PP-OCRv4、RP-DETR、PP-YOLOE、PP-ShiTu、PP-LiteSeg、PP-TS等。

有关PP-ChatOCR的使用体验，开发者可以在AI Studio应用中心进行尝试，链接如下：
https://aistudio.baidu.com/aistudio/projectdetail/**886**

同时，PaddleX中也提供了PP-ChatOCR相关内容，详情请点击以下链接：
https://aistudio.baidu.com/aistudio/modelsdetail?modelId=332

此外，PaddleOCR的GitHub页面也提供了更多有关PP-ChatOCR的信息，链接如下：
https://github.com/PaddlePaddle/PaddleOCR

暂无评论

暂无评论...