文章目录
[+]
专利摘要显示,本发明公开了一种基于Python框架的PDF文本表格识别方法、装置及计算机设备,包括以下步骤:S1、定时监测目标网站所需PDF文档是否更新,若检测到PDF文档更新,进入步骤2,若未检测到PDF文档更新,则退出程序;S2、获取PDF文档内所有文本信息特征;S3、定位文本信息中的表格内容和表格标题并做标记;S4、判断所做标记表格是否为跨页表格;S5、通过Python构建PDF表格识别算法,输出到word文档和Excel表格。本发明通过匹配不同表格样式,构建不同的Python表格文本识别算法框架,得到包含表格标题的word文档和包含表头的Excel表格。实现数据标准化,节约人工成本,优化工作效率。
本文源自金融界

(图片来自网络侵删)