오늘은 네이버에서 특정 글자 추출 및 네이버을 파싱 해보겠습니다.

 

1. 네이버에서 특정 글자 추출을 먼저 해보겠습니다.

 

import bs4

html_str = """
<html>
    <body>
        <ul class = "ko">
            <li>
                <a href="https:://www.naver.com/">네이버</a>
            </li>
            <li>
        </ul>
        <ul class ="sns">
            <li>
                <a href="https://www.google.com/">구글</a>
            </li>
            <li>
                <a href="https://www.facebook.com/">페이스북</a>
            </li>
        </ul>
    </body>
</html>
"""

bs_obj = bs4.BeautifulSoup(html_str, "html.parser")
atag = bs_obj.find("a")
print(atag)

print("\n")

# https://www.naver.com/만 출력하고 싶으면

print(atag['href']) #href속성의 속성 값을 뽑는 코드 

 결과는 다음과 같습니다.

 

딱히 설명드릴 게 없습니다. <"html"> ~~~ """까지는 html문서이고

그 뒤로는 파이썬 문법입니다. 또한 BeautifulSoup을 사용했습니다. 

 

BeautifulSoup(html, "html.paser")에 대해 설명드리겠습니다.  .BeautifulSoup(<받은 테스트>,

<텍스트를 파싱할 파서>)에는 총 2가지 값이 들어갑니다.

 

 

1. 값이 웹에서 받은 텍스트입니다. 2."html.parser"는 웹 문서의 대부분은 HTML로 되어 있기

때문에 "html.parser"을 사용합니다. parser는 데이터를 뽑아내는(파싱) 프로그램입니다. 

 

즉, 파이썬에서 HTML 안에 들어 있는 텍스트를 인식할 때 HTML 형식으로 인식하라는

뜻입니다. 

 

이번에는 네이버를 전체적으로 파싱해보겠습니다.

 

import urllib.request # url을 요청
import bs4 # beautifuleSoup 4 

url = "https://www.naver.com/"
html = urllib.request.urlopen(url) 

bs_obj = bs4.BeautifulSoup(html, "html.parser")

print(bs_obj)

 

 

 

이상포스터를 마치겠습니다. 제 블로그에 크롤링하는 게 많으니 한 번 보시길 바랍니다.

+ Recent posts