涉及两个场景:
1. 比如我们常看的杂志,每篇文章的布局其实不是固定的,标题可能在当前页面的下部,而正文内容在上部,当您用普通的SDK提取PDF中的文本内容时,它只会“按部就班的从上到下,从左到右的提取”,而版面识别提供的算法能力,能帮助开发者按照正常人眼阅读习惯,提取到想要拿到的内容,也就是提取的数据更精准,更结构化。
2. 比如,您具备一个报表PDF,您想把表格中的数据提取出来,此时难免会有表格之外的数据,表格之内的数据干扰,版面识别能够高精度的提取到每个表格中的单元格的数据,返回给开发者做业务上的进一步处理。