本页内容
数据提取指南
ComPDFKit Conversion SDK 的数据提取功能支持识别、分析、提取 PDF 文档中的文本、文本结构、表格等数据。
PDF 文本提取
概览
从 PDF 文档中提取文本数据。
注意事项
- 当我们从 PDF 文档中读取文本内容时,我们经常会遇到部分数据。例如,假设我们正在尝试从 PDF 文档中提取一个句子,上面写着 “这是一个示例句子”。我们最终可能会得到两个文本内容:“这” 和 “是一个示例句子”。这是可能的,因为在 PDF 文档中,文本对象并不总是整齐地组织成单词、句子或段落。
示例
以下是完整的示例代码,演示了基本的文本提取功能。
kotlin
val cPDFConvert = CPDFConverterTextToJson(context, uri, "")
val params = CPDFConvertTextToJsonOptions()
val result: ConvertError = cPDFConvert.convert(outputDir, outputFilenameNoSuffix, params, pageArrays,
onHandle = onHandleCal,
onProgress = onProgressCal,
onPost = onPostCal)