本页内容
Guides
智能文档解析
基于 AI 的 ComIDP 解决方案,能够智能处理和理解文档和图片内容,包括报告、合同、论文等标准文件,识别和分类元素、模块和结构,同时保留原始阅读逻辑,通过结构化非结构化和半结构化数据,为下游应用提供精准数据源。
输出 .Json 格式文件
将PDF文档解析成 JSON 文件,接口参考 ComIDP API
参数 executeType
使用 pdf/json
参数 parameter
如下:
java
{
"version": "v2"
}
所需参数
version
: PDF 转 JSON 不同版本(v1、v2),选择 v2 时使用智能文档解析。默认v1。
JSON内容解释
json
{
"version": "1.0.0",
"objects": [
{
"type": "Header",
"rect": [
49.0,
43.5,
171.5,
76.0
],
"text": "Intelligent Document Parsing",
"page": 0,
"order_index": 0
}
]
}
所有的对象所共有的属性如下:
rect
: 对象在页面上的位置page
: 对象所在的页码order_index
: 对象在当前页面上的阅读顺序位置type
:用于标识对象的类型。目前支持的对象类型有:- Text: 普通文本类型对象,包含文本内容
- Image: 图片类型对象,包含图片的路径
- Table和UnstdTable 表格类型对象,包含表格的内容和结构
- Catalogue 目录类型对象,包含目录的内容
- List和UnorderedList 列表类型对象,包含列表的内容
- Formula 公式类型对象,包含公式的内容
- Header 页眉类型对象,包含页眉的内容
- Footer 页脚类型对象,包含页脚的内容
- PageNumber 页码类型对象,包含页码的内容
- FigureTitle 图标题类型对象,包含图标题的内容
- FigureCaption 图注类型对象,包含图注的内容
支持的输入格式
支持的输出格式
- Zip:压缩包包括Json-结果文件和图像文件夹。