'파싱' 태그의 글 목록

안녕하세요 3구입니다. 오늘의 내용은 네이버의 네비게이션 바 파싱하기입니다. 일단 밑에 사진처럼 메일, 카페, 블로그 ~TV까지 파싱할 예정입니다.

일단 네이버에 들어가줍니다.

네이버에 들어가서 ctrl + shift + i 를 눌러줍니다. 그러면 저런 형태로 보이게 됩니다.

그런 다음 1번을 클릭해준다음에 마우스를 메일, 카페~ TV에 갖다 놓으면 an_l이라는

문구가 보일 것입니다.

지금부터 메일 ~TV만 읽어서 파싱해보겠습니다.

import urllib.request
import bs4

url = "https://www.naver.com/" # 네이버의 url 
html = urllib.request.urlopen(url)  

bs_obj = bs4.BeautifulSoup(html, "html.parser") # 네이버를 읽어 옵니다.
 
ul = bs_obj.find("ul", {"class":"an_l"}) 
lis = ul.findAll("li")

for li in lis:
    a_tag = li.find("a")
    span = a_tag.find("span", {"class" : "an_txt"})
    print(span.text)

ul = bs_obj.find("ul", {"class":"an_l"})의 내용을 설명 드리겠습니다.

bs_obj(네이버 읽어온 것)에서 find를 이용해 찾습니다. ul을 찾고 classs의 an_l을 찾아서 ul변수라는 값에 저장해줍니다.

그런 다음 lis변수라는 값 안에 li의 모든 것(findAll)을 찾습니다.

그런 다음 for문을 이용해 출력합니다.

a_tag = li.find("a") lis의 부분의 "a"라는 것을 찾고

span = a_tag.find("span", {"class" :"an_txt"})의 a를 찾았고

span의 class:an_txt를 찾습니다.

print(span.text)를 이용해 출력합니다.

결과는 다음가 같습니다.

이상포스터를 마치겠습니다.

저작자표시

'파이썬' 카테고리의 다른 글

파이썬 403 Forbidden 에러 (크롤링) (0)	2020.03.27
쇼핑몰 크롤링 하기 - 1탄 (0)	2020.03.27
쓰레드(Thread) , 쓰레딩(threading) 모듈 (0)	2020.03.26
Python Selenium(셀레늄) 설치 및 사용법 (0)	2020.03.26
크롤링 하기5 - 네이버에서 특정 글자 추출 및 네이버 파싱 (0)	2020.03.25

써 보면서 공부하는 걸 추천드립니다.

이 장에서는 네이버 첫 페이지의 데이터를 받아오는 크롤링을 한 번 보여드리겠습니다.

파이썬을 실행해 봅시다. 파이썬을 설치 안 하신 분들은 파이썬 3.x 버전을 설치하시고 오시길 바랍니다. 파이참도 가능합니다.

크롤링을 하는 프로그램을 '크롤러'라고 합니다.

결과는 다음과 같습니다.

이 텍스트를 웹 브라우저에서 해석해서 초록색으로 배치가 잘 된 네이버의 화면을 우리에게 보여주는데요 웹은 대부분 HTML형태로 되어 있씁니다. HTML 텍스트를 받아온 다음에 여기에서 우리가 필요한 정보들을 파싱할 수 있습니다.

다음 내용은 뷰티풀솝 사용 해서 파싱하는 것을 보여드리겠습니다.

'파이썬' 카테고리의 다른 글

크롤링 하기5 - 네이버에서 특정 글자 추출 및 네이버 파싱 (0)	2020.03.25
크롤링 하기4 - beautifulsoup 사용 방법 (0)	2020.03.22
크롤링 하기3 - 뷰티풀솝 사용 및 설치 (0)	2020.03.22
크롤러 만들기1 (파이썬 설치 하신 분들만) (0)	2020.03.22
웹 기초 (0)	2020.03.22

1. 크롬을 설치합니다.

-> 크롬을 설치하는 이유는 크롬에 있는 개발자 도구가 크롤러를 만들 때 필요한 도구이기 때문입니다. 만약 다른 브라우저를 사용하신다고 하셔도 무관합니다.

2. Urllib 설치합니다.

->> urllib는 기본적으로 설치 되어 있습니다. 그래서 파이썬이 설치 되어 있다면 바로 import를 할 수 있습니다.

3. 네이버 첫 페이지 받아오기

naver.com에 접속을 합니다. 오른쪽 마우스 -> 페이지 소스 보기를 합니다. 그러면 밑에 사진 처럼 나옵니다.

이런 게 HTML형식 입니다. 웹 브라우저는 텍스트 형태로 되어 있는 HTML문서를 읽어서 우리가 보기 좋게 그려 주는 렌더링 (rendering)기능을 하는 프로그램입니다.

크롤링을 한다는 것은 HTML형태의 데이터를 받아오는 것을 말합니다. 받아온 데이터에서 내가 필요한 것을 뽑아내는 것을 '파싱'이라고 합니다.

즉, 크롤링, 파싱, 스크래핑이 '인터넷에서 무언가 데이터를 받아서 필요한 정보만 뽑아 내는 것'이라고 생각하시면 됩니다.

그러면 무슨 말을 쓰라는거야? 라는 생각을 하실 수 있습니다.

-> 저는 데이터를 받아오는 것을 '크롤링'

-> 받아온 데이터에서 필요한 정보를 뽑아내는 것을 '파싱'

이라고 결론 짓겠습니다.

'파이썬' 카테고리의 다른 글

크롤링 하기5 - 네이버에서 특정 글자 추출 및 네이버 파싱 (0)	2020.03.25
크롤링 하기4 - beautifulsoup 사용 방법 (0)	2020.03.22
크롤링 하기3 - 뷰티풀솝 사용 및 설치 (0)	2020.03.22
크롤링 하기2- 네이버 크롤링하기 (0)	2020.03.22
웹 기초 (0)	2020.03.22

3구 개발 및 보안

파싱

네이버 네비게이션 바 파싱하기

'파이썬' 카테고리의 다른 글

크롤링 하기2- 네이버 크롤링하기

'파이썬' 카테고리의 다른 글

크롤러 만들기1 (파이썬 설치 하신 분들만)

'파이썬' 카테고리의 다른 글

+ Recent posts

티스토리툴바