附件转图片

文本附件:doc,docx,PDF,txt转换图片,当Word文件包含图片时,总体设计思路有3种方案:

方案一、把Word拆分成文本和图片,PDF转换成图片,TXT转换成文本,进行数据存储和判重等操作。word转换的文本相对容易,图片会是原始图片。但Word拆分图片难度很大,word文件有两种:doc 是二进制格式,docx是xml格式,后者可以通过POI实现拆分图片。但前者POI不支持。需要把doc先转docx,然后拆分图片。

但当word中图片较多,以及要素提取的反向定位问题都很复杂。所以不建议该方案。

方案二、把Word、PDF按页直接转换成图片,TXT转成文本。目前主要有2种方式:

2.1、Jacob包是一个开源的工具,当Jacob包只针对windows系统, 它是基于JNI封装调用系统库,Linux是没有word系统库;

2.2、Aspose.words 包可以完全支持word直接转成图片,图片清晰度也很高,唯一的缺点是商业版收费;如果直接使用会再第一张图片顶部加个水印,需要考虑是否合规,可以找到破解版。系统可在每个word前面自行插入一个空白页,在转换成图片后,舍弃第一张图片,就解决了水印的问题。

**方案三、**把word转换PDF,把PDF转成图片,把txt转成文本或图片。Word转成PDF通常的做法是通过调用open office软件命令实现。Open Office 支持所有的office文档,转换PDF格式;PDF转换图片是通过base64方法;txt找到open office支持转成图片,但当txt内容很多,需要考虑单张图片的清晰度和大小问题,故建议:

TXT通过POI转word,再通过open office转PDF,再通过base64转多张图片。

优点:OpenOffice是开源的软件工具。

缺点:需要在linux安装OpenOffice;

上次更新时间: 2024/5/7 05:59:02