오늘은 네이버에서 특정 글자 추출 및 네이버을 파싱 해보겠습니다.
1. 네이버에서 특정 글자 추출을 먼저 해보겠습니다.
import bs4
html_str = """
<html>
<body>
<ul class = "ko">
<li>
<a href="https:://www.naver.com/">네이버</a>
</li>
<li>
</ul>
<ul class ="sns">
<li>
<a href="https://www.google.com/">구글</a>
</li>
<li>
<a href="https://www.facebook.com/">페이스북</a>
</li>
</ul>
</body>
</html>
"""
bs_obj = bs4.BeautifulSoup(html_str, "html.parser")
atag = bs_obj.find("a")
print(atag)
print("\n")
# https://www.naver.com/만 출력하고 싶으면
print(atag['href']) #href속성의 속성 값을 뽑는 코드
결과는 다음과 같습니다.
딱히 설명드릴 게 없습니다. <"html"> ~~~ """까지는 html문서이고
그 뒤로는 파이썬 문법입니다. 또한 BeautifulSoup을 사용했습니다.
BeautifulSoup(html, "html.paser")에 대해 설명드리겠습니다. .BeautifulSoup(<받은 테스트>,
<텍스트를 파싱할 파서>)에는 총 2가지 값이 들어갑니다.
1. 값이 웹에서 받은 텍스트입니다. 2."html.parser"는 웹 문서의 대부분은 HTML로 되어 있기
때문에 "html.parser"을 사용합니다. parser는 데이터를 뽑아내는(파싱) 프로그램입니다.
즉, 파이썬에서 HTML 안에 들어 있는 텍스트를 인식할 때 HTML 형식으로 인식하라는
뜻입니다.
이번에는 네이버를 전체적으로 파싱해보겠습니다.
import urllib.request # url을 요청
import bs4 # beautifuleSoup 4
url = "https://www.naver.com/"
html = urllib.request.urlopen(url)
bs_obj = bs4.BeautifulSoup(html, "html.parser")
print(bs_obj)
이상포스터를 마치겠습니다. 제 블로그에 크롤링하는 게 많으니 한 번 보시길 바랍니다.
'파이썬' 카테고리의 다른 글
쓰레드(Thread) , 쓰레딩(threading) 모듈 (0) | 2020.03.26 |
---|---|
Python Selenium(셀레늄) 설치 및 사용법 (0) | 2020.03.26 |
크롤링 하기4 - beautifulsoup 사용 방법 (0) | 2020.03.22 |
크롤링 하기3 - 뷰티풀솝 사용 및 설치 (0) | 2020.03.22 |
크롤링 하기2- 네이버 크롤링하기 (0) | 2020.03.22 |