-QuQ-
Articles10
Tags4
Categories0

Archive

2024暑期实习

2024暑期实习

实习内容

  • 主要任务:PDF数据提取 (所以…是什么岗位呢?
  • 项目回顾
    1. 项目选型(20240801-20240806):Google现有方案,进行筛选
    2. 项目深挖(20240807-):对筛选出的方案进行分析

背景

  • 为训练行业大模型,需要非常多行业相关语料(数据很多,但缺乏能直接用来训练的数据)
  • 电子元器件的数据大多在数据手册中
  • 数据手册为 PDF 格式,有很多图/表。传统方法难以解析
  • 部分 PDF 是图片,需要 OCR

需求

  1. 将 PDF 转化为 Markdown 格式
  2. 准确保留表格结构

1. 项目选型

目前(截至20240806)已经有很多 PDF 解析工具,但大多是针对某一类文档或文档具体部分。

项目 介绍 优点 缺点
nougat Facbook的学术论文OCR工具 没跑出来,不知道
camelot PDF表格提取&解析库 import就能用 无法识别非传统表格(合并单元格,表格无边框线)
pdfminer.six PDF解析库
PyMuPDF PDF解析库
MinerU 上海人工智能实验室的开源数据提取工具 一站式解决方案,复杂版面分析,多模态信息转换,公式解析

经过选型,我认为MinerU项目是最优解

2.项目深挖

MinerU:

一站式开源高质量数据提取工具,支持PDF/网页/多格式电子书提取。

项目地址:https://github.com/opendatalab/MinerU

  • 项目效果

    • 能较准确地识别不同元素,OCR准确率也较高
    • 最终输出为markdown格式(标题,段落标题等作为一级标题标出,图/表作为图片插入)

    preview

    Span与Layout演示

  • 项目流程

    pipeline

    pipeline

Author:-QuQ-
Link:http://172.207.131.165/2024/08/06/2024%E6%9A%91%E6%9C%9F%E5%AE%9E%E4%B9%A0/
版权声明:本文采用 CC BY-NC-SA 3.0 CN 协议进行许可