안녕하세요 오늘은 pdf파일을 text(html)형식으로 바꾸는 법을 알려드리도록 하겠습니다.

 

일단 cmd창에서 

pip isntall pdfminer를 설치해줍니다. 

또는 

pip3 install pdfminer.six 

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import HTMLConverter
# from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
 
path = "C:\\Users\\admin\\Desktop\\techmate_2\\11031996791214.pdf" #경로 
 
rsrcmgr = PDFResourceManager() 
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
 
f = open('./out.html', 'wb') # out으로 저장 python 파일 안에 가면 out이 저장됨 
device = HTMLConverter(rsrcmgr, f, codec=codec, laparams=laparams) # 변환
 
fp = open(path, 'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
password = ""
maxpages = 0 #is for all
caching = True
pagenos=set()
for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
   interpreter.process_page(page)
fp.close()
device.close()
str = retstr.getvalue()
retstr.close()
f.close()
 


음 저는 일단 긁어 왔는데요 정확한 사용설명서 및 해석내용은 추후에 업데이트 하도록 하겠습니다.

 

이상 pdf를 html으로 바꾸는 형식을 마치겠습니다. 

 

+ Recent posts