Skip to content

PDF 表格提取

概述

即从 PDF 文档中提取出表格。

表格类型:标准表格 & 非标准表格

常见的表格类型可以分为标准表格与非标准表格两类,具体定义如下:

  • 标准表格:表格边框完整,表格内线完整且清晰,无需人为再添加表格线条做表格内容分割。

image-20231116145224545

  • 非标准表格:缺少表格边框或者表格内线,表格线条不清晰,需要人为添加表格线条分割表格内容。

image-20231116145517818

注意事项

  • 当未开启 OCR 选项时无法提取原 PDF 文档中的非标准表格。
  • 建议开启 OCR 或者 AI 版面分析选项进行表格提取,以支持非标准表格识别并提升标准表格的准确率。

示例

以下是完整的示例代码,演示了基本的表格提取功能。

java
        CPDFConvert cpdfConvertJson = new CPDFConvertJson();
        CPDFConvertJsonOptions cpdfConvertJsonOptions = new CPDFConvertJsonOptions();
        cpdfConvertJsonOptions.setAllowOcr(true);
        cpdfConvertJsonOptions.setContainOcrBg(true);
        cpdfConvertJsonOptions.setOnlyAiTable(true);
        cpdfConvertJsonOptions.setPdtToJsonEnum(PDFToJsonEnum.TABLE);
        convert = cpdfConvertJson.convert(file.getPath(), null, num + "" + time, cpdfConvertJsonOptions, null, dto.getPassword(), null);