python读取学术论文PDF文件内容

使用几种python库读取学术论文PDF文件内容，给出了效果分析

IT修炼家

926人浏览 · 2024-10-22 11:08:00

IT修炼家 · 2024-10-22 11:08:00 发布

1、PyPDF2

PyPDF2 是一个常用的库，可以用来读取、合并、分割和修改PDF文件。读取pdf内容：

import PyPDF2

# 打开PDF文件
with open('ELLK-Net_An_Efficient_Lightweight_Large_Kernel_Network_for_SAR_Ship_Detection.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
    # 获取页面数
    num_pages = len(reader.pages)
    print(f"页面数: {num_pages}")
    
    # 读取每一页的文本
    for i in range(num_pages):
        page = reader.pages[i]
        text = page.extract_text()
        print(f"第 {i + 1} 页的内容:\n{text}")

结果如下：
在这里插入图片描述

效果： 可以看出，读取是从左往右，从上往下，文本内容读取的还挺全的，但是图片、表格都读不出来。

2、pdfplumber

pdfplumber 是一个功能强大的库，专门用于提取PDF文件中的文本和表格数据。读取PDF内容：

import pdfplumber

# 打开PDF文件
with pdfplumber.open('example.pdf') as pdf:
    for i in range(len(pdf.pages)):
        page = pdf.pages[i]
        text = page.extract_text()
        print(f"第 {i + 1} 页的内容:\n{text}")

结果如下：
在这里插入图片描述

效果： 看结果，这个库读取PDF是一整行一整行读取的，当文档内容是两页的时候，两列同一行会被同时读取。看别人说读取表格方便，但是这里也没读取出来，具体如下图所示。
在这里插入图片描述

此外，使用table = page.extract_table()单独读取有表格的页，输出结果为None

3、PyMuPDF

PyMuPDF 是另一个高效的库，可以处理PDF文件，支持文本提取、图像提取等功能。读取pdf如下：

import fitz  # PyMuPDF
from PIL import Image
import io
# 打开PDF文件
doc = fitz.open('ELLK-Net_An_Efficient_Lightweight_Large_Kernel_Network_for_SAR_Ship_Detection.pdf')
for page_number,page in enumerate(doc):
    text = page.get_text()
    print(f"第 {page.number + 1} 页的内容:\n{text}")
    # 获取页面中的所有图片
    image_list = page.get_images(full=True)
    
    # 遍历所有图片
    for img_index, img in enumerate(image_list):
        # 图片的XREF
        xref = img[0]
        
        # 获取图片对象
        base_image = doc.extract_image(xref)
        
        # 获取图片的二进制数据
        image_bytes = base_image["image"]

        # 将二进制数据转为PIL图像
        image = Image.open(io.BytesIO(image_bytes))
        
        # # 左右翻转
        # image = image.transpose(method=Image.FLIP_LEFT_RIGHT)
        
        # 上下翻转
        image = image.transpose(method=Image.FLIP_TOP_BOTTOM)
        
        # 获取图片的扩展名
        image_ext = base_image["ext"]
        
        # 保存图片
        # with open(f"page_{page_number + 1}_img_{img_index + 1}.{image_ext}", "wb") as image_file:
        #     image_file.write(image_bytes)
        image.save(f"page_{page_number + 1}_img_{img_index + 1}.{image_ext}")
        
        print(f"第 {page_number + 1} 页中提取的图片 {img_index + 1} 已保存。")

读取效果如下：
在这里插入图片描述

效果：文字提取效果与PyPDF2差不多，不同点是遇到大的空格会直接换行。可以读取图片，我这里发现读取的图片需要上下翻转。插入的图片可以直接读取，但是流程图可能因为是visio画的，读取不出来。另外，三线表格还是没有读取出来。

4、pdfminer

pdfminer.six 是一个专注于从PDF文件中提取文本和元数据的库。读取PDF如下：

from pdfminer.high_level import extract_text

# 提取文本
text = extract_text('example.pdf')
print(text)

读取结果：
在这里插入图片描述

效果： 读取结果整体空行多。读取方式按行读取，有左右两列的时候，哪一列先读到就读哪一列，因此顺序可能会错乱，就像上面结果图一项，该页内容先读取的右边的列。

总结

看网上的说法是：
PyPDF2：适合基本的PDF操作，如合并和提取文本。
pdfplumber：非常适合提取文本和表格。
PyMuPDF：功能强大，处理速度快，支持多种操作。
pdfminer.six：更适合复杂的文本提取需求。
但在读取类似上面这样的论文文档时，PyPDF2和PyMuPDF感觉好用点。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Js分割字符串(单个分割符、多个分割符、正则)

1.单个分割符1.1定义和用法split() 方法用于把一个字符串分割成字符串数组。1.2语法stringObject.split(separator,howmany)参数描述separator必需。字符串或正则表达式，从该参数指定的地方分割 stringObject。howmany可选。该参数可指定返回的数组的最大长度。如果设置了该参数，返回的子串不会多于这个参数指定的数组。如果没有设置该参数，

腾讯云开发者社区

curl

什么是curl命令？curl是利用URL语法在命令行方式下工作的开源文件传输工具。它被广泛应用在Unix、多种Linux发行版中，并且有DOS和Win32、Win64下的移植版本。如何在windows下使用curl命令？第一步：进入curl下载官网，下载合适的版本，我这里下载的是windows 64位的curl。其中我下载的zip文件。另外CAB文件也是压缩文件，这...

腾讯云开发者社区

Zynq7000 USB2.0协议解析及USB控制器详解

USB 2.0规范及控制器文章目录USB 2.0规范及控制器USB2.0Univerasl Serial BusUSBHostUSB总线接口标准总线信号USB拓扑结构数据流模型数据编解码和位填充USB逻辑部件USB时间基准USB 描述符USB设备USB设备供电方式USB设备分层USB设备插入检测机制USB设备状态USB总线枚举USB传输传输类型包(Packet)事务(transaction)传输(