数据提取指南

ComPDFKit Conversion SDK 的数据提取功能支持识别、分析、提取 PDF 文档中的文本、图片、表格等数据。

PDF 文本提取

概述

从 PDF 文档中提取文本数据。

注意事项

当未开启 OCR 功能时可能会导致图片中的表格内的文本未被提取出来。
当我们从 PDF 文档中读取文本内容时，我们经常会遇到部分数据。例如，假设我们正在尝试从 PDF 文档中提取一个句子，上面写着 “这是一个示例句子”。我们最终可能会得到两个文本内容：“这” 和 “是一个示例句子”。这是可能的，因为在 PDF 文档中，文本对象并不总是整齐地组织成单词、句子或段落。未开启 OCR 识别时，CPDFConverterJsonText返回与 PDF 页面中的文本内容完全相同的对象。

示例

以下是完整的示例代码，演示了基本的文本提取功能。

string inputFilePath = "***";
string outputFolderPath = "***";
string outputFileName = "***";

CPDFConverterJsonText converter = CPDFConvertFactroy.CreateConverter(CPDFConvertType.CPDFConvertTypeJsonText, inputFilePath) as CPDFConverterJsonText;

CPDFConvertJsonOptions jsonOptions = new CPDFConvertJsonOptions();
jsonOptions.IsAllowOCR = false;

ConvertError error = ConvertError.ERR_UNKNOWN;
jsonTextConverter.Convert(outputFolderPath, ref outputFileName, jsonOptions, ref error);

数据提取指南 ​

PDF 文本提取 ​

概述 ​

注意事项 ​

示例 ​

数据提取指南

PDF 文本提取

概述

注意事项

示例