PyPDF2读取PDF文件内容保存到本地TXT实例

2023-07-25 11:36:12 469

我就废话不多说了，大家还是直接看代码吧！

fromPyPDF2.pdfimportPdfFileReader
importpandasaspd

defPdf_to_txt(pdf):

foriinrange(0,pdf.getNumPages()):
title=[]
lin1,lin2,lin3,lin4,lin5,lin6,lin7,lin8=[],[],[],[],[],[],[],[]
extractedText=pdf.getPage(i).extractText()
text=extractedText.split('\n')
num=0
forlinintext:
ifnum==0:
title.append(lin)
elifnum==1:
lin1.append(lin)
elifnum==2:
lin2.append(lin)
elifnum==3:
lin3.append(lin)
elifnum==4:
lin4.append(lin)
elifnum==5:
lin5.append(lin)
elifnum==6:
lin6.append(lin)
elifnum==7:
lin7.append(lin)
elifnum==8:
lin8.append(lin)
num=0
num+=1
Lin_num=len(lin8)
data={'Lin1':lin1[:Lin_num],'Lin2':lin2[:Lin_num],'Lin3':lin3[:Lin_num],'Lin4':lin4[:Lin_num],'Lin5':lin5[:Lin_num],'Lin6':lin6[:Lin_num],'Lin7':lin7[:Lin_num],'Lin8':lin8[:Lin_num]}
df=pd.DataFrame(data,columns=['Lin1','Lin2','Lin3','Lin4','Lin5','Lin6','Lin7','Lin8'])
file_name=title[0]+'_page'+str((i+1))
df.to_csv('tool/pdf解析/%s.txt'%file_name,index=False,sep='\t')


if__name__=='__main__':
filename='E:/SVN/采集框架V2/analyse_code/政策/pdf/con026465.pdf'
pdf=PdfFileReader(open(filename,"rb"))
Pdf_to_txt(pdf)

补充知识：使用PyPDF2库对pdf文件进行指定页面删除操作

平台：win10家庭版，python3.7，PyPDF2

思维过程：

方法一：将pdf文件通过拆分为单页，放入一个文件夹，再删除其中不要的文件，最后再把剩余的文件进行合并为一个pdf文件

第一步：使用原文件路径创建新文件夹，用于存放拆分后的单页文件

defnewdir(self,path):
self.new=os.path.splitext(path)[0]
ifnotos.path.isdir(self.new):#使用os.path.isdir判断文件夹是否存在，
os.mkdir(self.new)

第二步：生成单页文件，并存放到新建的文件夹

defpdfsplt(self,path):
ifos.path.isfile(path):
file_1=open(path,"rb")
file_reader=PyPDF2.PdfFileReader(file_1,strict=False)#使用strict关闭错误提示
#使用for循环读取每一页并将其写入新pdf文件，文件以页码命名
forpageinrange(0,file_reader.getNumPages()):
file_write=PyPDF2.PdfFileWriter()
pageobj=file_reader.getPage(page)
file_write.addPage(pageobj)
output=str(self.new)+"\\"+str(int(page+1))+".pdf"
withopen(output,"wb")asoutput_pdf:
file_write.write(output_pdf)
file_1.close()
else:
print("文件不存在！")
time.sleep(3)
exit()

第三步：删除文件夹中不要的文件

defpdfremove(self,number):
forpaginnumber:
filename=str(self.new)+"\\"+str(pag)+".pdf"
ifos.path.isfile(filename):
os.unlink(filename)
else:
print("请确认要删除的页码%s是否正确！！"%pag)

第四步：把剩余文件合并为一个pdf文件

defpdfmerge(self):
file_list=[int(os.path.splitext(x)[0])forxinos.listdir(self.new)]#读取新建文件夹下的所有文件并提取文件名转为数字
file_write=PyPDF2.PdfFileWriter()#先创建一个新的pdf对象
forpageinsorted(file_list):
pathstr=str(self.new)+"\\"+str(page)+".pdf"
file_1=open(pathstr,"rb")
file_reader=PyPDF2.PdfFileReader(file_1,strict=False)#使用strict关闭错误提示
pageobj=file_reader.getPage(0)
file_write.addPage(pageobj)
output=str(self.new)+"_new.pdf"
withopen(output,"wb")asoutput_pdf:
file_write.write(output_pdf)
print("第%s页完成"%page)
file_1.close()

第五步：删除其中的缓存文件夹

defrmdir(self):
ifos.path.isdir(self.new):
shutil.rmtree(self.new)

方法一的完整代码：

importPyPDF2
importos,time,shutil,sys
importthreading

classmypdf(object):
def__init__(self,path,number):
self.newdir(path)
self.pdfsplt(path)
self.pdfremove(number)
self.pdfmerge()
self.rmdir()
pass

#用于创建一个独立的文件夹，存放缓存数据
defnewdir(self,path):
self.new=os.path.splitext(path)[0]
ifnotos.path.isdir(self.new):#使用os.path.isdir判断文件夹是否存在，
os.mkdir(self.new)

#将每一页生成独立文件，存放到缓存文件夹
defpdfsplt(self,path):
ifos.path.isfile(path):
file_1=open(path,"rb")
file_reader=PyPDF2.PdfFileReader(file_1,strict=False)#使用strict关闭错误提示
#使用for循环读取每一页并将其写入新pdf文件，文件以页码命名
forpageinrange(0,file_reader.getNumPages()):
file_write=PyPDF2.PdfFileWriter()
pageobj=file_reader.getPage(page)
file_write.addPage(pageobj)
output=str(self.new)+"\\"+str(int(page+1))+".pdf"
withopen(output,"wb")asoutput_pdf:
file_write.write(output_pdf)
file_1.close()
else:
print("文件不存在！")
time.sleep(3)
exit()

#删除缓存文件夹中的不要的页
defpdfremove(self,number):
forpaginnumber:
filename=str(self.new)+"\\"+str(pag)+".pdf"
ifos.path.isfile(filename):
os.unlink(filename)
else:
print("请确认要删除的页码%s是否正确！！"%pag)

#将缓存文件夹中的剩余文件合进行合并
defpdfmerge(self):
file_list=[int(os.path.splitext(x)[0])forxinos.listdir(self.new)]#读取新建文件夹下的所有文件并提取文件名转为数字
file_write=PyPDF2.PdfFileWriter()#先创建一个新的pdf对象
forpageinsorted(file_list):
pathstr=str(self.new)+"\\"+str(page)+".pdf"
file_1=open(pathstr,"rb")
file_reader=PyPDF2.PdfFileReader(file_1,strict=False)#使用strict关闭错误提示
pageobj=file_reader.getPage(0)
file_write.addPage(pageobj)
output=str(self.new)+"_new.pdf"
withopen(output,"wb")asoutput_pdf:
file_write.write(output_pdf)
print("第%s页完成"%page)
file_1.close()

defrmdir(self):
ifos.path.isdir(self.new):
shutil.rmtree(self.new)

if__name__=="__main__":
#通过第一个参数获取待处理的文件，第二个参数到以后为删除的页码
path=sys.argv[1]
number=sys.argv[2:]
mypdf=mypdf(path,number)
deff(path,number):
mypdf(path,number)
threading.Thread(target=f,args=[path,number])

方法二：在写入新文件时使用if判断进行筛选出不要的页面

想法一、将读取与写入同时处理。使用if判断筛选不要的页面

defpdfsplt(self,path,number):
print(number,type(number))
ifos.path.isfile(path):
file_1=open(path,"rb")
file_reader=PyPDF2.PdfFileReader(file_1,strict=False)#使用strict关闭错误提示
file_write=PyPDF2.PdfFileWriter()
#使用for循环读取每一页并将其写入新pdf文件，文件以页码命名
forpageinrange(0,file_reader.getNumPages()):
ifpagenotinnumber:
pageobj=file_reader.getPage(page)
file_write.addPage(pageobj)
output=str(self.new)+"_new.pdf"
withopen(output,"wb")asoutput_pdf:
file_write.write(output_pdf)
file_1.close()
else:
print("文件不存在！")
time.sleep(3)
exit()

想法二、将数据先全部放入内存，最后在写入，来提高速度：

defpdfsplt(self,path,number):
print(number,type(number))
ifos.path.isfile(path):
file_1=open(path,"rb")
file_reader=PyPDF2.PdfFileReader(file_1,strict=False)#使用strict关闭错误提示
file_write=PyPDF2.PdfFileWriter()
#使用for循环读取每一页并将其写入新pdf文件，文件以页码命名
forpageinrange(0,file_reader.getNumPages()):
ifpagenotinnumber:
pageobj=file_reader.getPage(page)
file_write.addPage(pageobj)
output=str(self.new)+"_new.pdf"
withopen(output,"wb")asoutput_pdf:#将内容全部放入内存，最后写入，提高处理速度
file_write.write(output_pdf)
file_1.close()
else:
print("文件不存在！")
time.sleep(3)
exit()

方法二的完整代码：

importPyPDF2
importos,time,shutil,sys
importthreading

classmypdf(object):
def__init__(self,path,number):
self.new=os.path.splitext(path)[0]#获取文件的路径
self.pdfsplt(path,number)
pass

#循环每一页读入内存，最后写入文件
defpdfsplt(self,path,number):
print(number,type(number))
ifos.path.isfile(path):
file_1=open(path,"rb")
file_reader=PyPDF2.PdfFileReader(file_1,strict=False)#使用strict关闭错误提示
file_write=PyPDF2.PdfFileWriter()
#使用for循环读取每一页并将其写入新pdf文件，文件以页码命名
forpageinrange(0,file_reader.getNumPages()):
ifpagenotinnumber:
pageobj=file_reader.getPage(page)
file_write.addPage(pageobj)
output=str(self.new)+"_new.pdf"
withopen(output,"wb")asoutput_pdf:#将内容全部放入内存，最后写入，提高处理速度
file_write.write(output_pdf)
file_1.close()
else:
print("文件不存在！")
time.sleep(3)
exit()

if__name__=="__main__":
#通过第一个参数获取待处理的文件，第二个参数到以后为删除的页码
path=sys.argv[1]
number=sys.argv[2:]
number=list(map(int,number))
mypdf=mypdf(path,number)
deff(path,number):
mypdf(path,number)
threading.Thread(target=f,args=[path,number])

两种方法的比较：

方法一

方法二中的第一种想法

方法二中的第二种想法

运行速度

慢

较慢

快

代码量

65行

34行

缺点：

方法一在处理扫描的pdf文件时，运行速度太慢，不能实现范围性的删除。

方法二不能实现范围性的删除

以上这篇PyPDF2读取PDF文件内容保存到本地TXT实例就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持毛票票。

PyPDF2读取PDF文件内容保存到本地TXT实例

热门推荐

随机推荐