안녕하세요 오늘은 pdf파일을 text(html)형식으로 바꾸는 법을 알려드리도록 하겠습니다.
일단 cmd창에서
pip isntall pdfminer를 설치해줍니다.
또는
pip3 install pdfminer.six
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import HTMLConverter
# from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
path = "C:\\Users\\admin\\Desktop\\techmate_2\\11031996791214.pdf" #경로
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
f = open('./out.html', 'wb') # out으로 저장 python 파일 안에 가면 out이 저장됨
device = HTMLConverter(rsrcmgr, f, codec=codec, laparams=laparams) # 변환
fp = open(path, 'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
password = ""
maxpages = 0 #is for all
caching = True
pagenos=set()
for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
interpreter.process_page(page)
fp.close()
device.close()
str = retstr.getvalue()
retstr.close()
f.close()
음 저는 일단 긁어 왔는데요 정확한 사용설명서 및 해석내용은 추후에 업데이트 하도록 하겠습니다.
이상 pdf를 html으로 바꾸는 형식을 마치겠습니다.
'파이썬' 카테고리의 다른 글
파이썬 크롤링 네이버 API 애플리케이션 등록하기 - 1 (0) | 2020.04.19 |
---|---|
맥 파이썬 설치 및 2.7버전에서 3.x으로 변경하기 (2) | 2020.04.19 |
파이썬 - 직렬화 역직렬화 ( 바이너리, 텍스트) (0) | 2020.04.08 |
파이썬 - 자동으로 다음 로그인 하기 (0) | 2020.04.08 |
파이썬 - selenium, webdriver로 구글, 다음창 자동으로 스크린샷 찍기 (0) | 2020.04.08 |