파이썬 pdf파일을 text, html로 바꾸는 법

2020. 4. 10. 13:49

안녕하세요 오늘은 pdf파일을 text(html)형식으로 바꾸는 법을 알려드리도록 하겠습니다.

일단 cmd창에서

pip isntall pdfminer를 설치해줍니다.

또는

pip3 install pdfminer.six

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import HTMLConverter
# from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
 
path = "C:\\Users\\admin\\Desktop\\techmate_2\\11031996791214.pdf" #경로 
 
rsrcmgr = PDFResourceManager() 
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
 
f = open('./out.html', 'wb') # out으로 저장 python 파일 안에 가면 out이 저장됨 
device = HTMLConverter(rsrcmgr, f, codec=codec, laparams=laparams) # 변환
 
fp = open(path, 'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
password = ""
maxpages = 0 #is for all
caching = True
pagenos=set()
for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
   interpreter.process_page(page)
fp.close()
device.close()
str = retstr.getvalue()
retstr.close()
f.close()

음 저는 일단 긁어 왔는데요 정확한 사용설명서 및 해석내용은 추후에 업데이트 하도록 하겠습니다.

이상 pdf를 html으로 바꾸는 형식을 마치겠습니다.

저작자표시 (새창열림)

'파이썬' 카테고리의 다른 글

파이썬 크롤링 네이버 API 애플리케이션 등록하기 - 1 (0)	2020.04.19
맥 파이썬 설치 및 2.7버전에서 3.x으로 변경하기 (2)	2020.04.19
파이썬 - 직렬화 역직렬화 ( 바이너리, 텍스트) (0)	2020.04.08
파이썬 - 자동으로 다음 로그인 하기 (0)	2020.04.08
파이썬 - selenium, webdriver로 구글, 다음창 자동으로 스크린샷 찍기 (0)	2020.04.08

3구 개발 및 보안

파이썬 pdf파일을 text, html로 바꾸는 법

'파이썬' 카테고리의 다른 글

+ Recent posts

티스토리툴바