PDF 表格提取

概述

即从 PDF 文档中提取出表格。

表格类型：标准表格 & 非标准表格

常见的表格类型可以分为标准表格与非标准表格两类，具体定义如下：

标准表格：表格边框完整，表格内线完整且清晰，无需人为再添加表格线条做表格内容分割。

非标准表格：缺少表格边框或者表格内线，表格线条不清晰，需要人为添加表格线条分割表格内容。

注意事项

当未开启 OCR 选项时无法提取原 PDF 文档中的非标准表格。
建议开启 OCR 或者 AI 版面分析选项进行表格提取，以支持非标准表格识别并提升标准表格的准确率。

示例

以下是完整的示例代码，演示了基本的表格提取功能。

python

options = ConvertOptions()
error_code = PDFToOffice.start_extract_pdf_table("sample.pdf", "", "path/to/output", options, callback)

if error_code == ErrorCode.Success:
    print("Convert success")

PDF 表格提取 ​

PDF 表格提取