'크롤러' 태그의 글 목록

크롤러

2020. 3. 22. 22:11

뷰티풀솝은 데이터를 추출하는 데 필요한 기능이 들어 잇는 라이브러리입니다.
그러면 라이브러리? 저건 뭔데 ?

이미 만들어져 있는 것을 가져다 사용한다라고 보시면 됩니다. 예를 들어서 마우스를 조립한다는 가정하에 마우스를 처음부터 조립하고 만들어서 사용하는 게 아니라 누가 만들어놓은 것을 판매한다고 생각하시면 좋을 것 같습니다.

처음에 윈도우(모양) + R 을 눌릅니다. 눌른후 cmd를 입력합니다.

pip install beautifulsoup4 를 합니다. 저는 이미 설치해놔서 설치할 것이 없습니다.

#오류 만약 오류가 뜨게 된다면 파이썬을 설치를 안 했다던가, 환경변수를 설정 안 하셨거나 둘 중에 하나입니다.

이상으로 beautifulsoup설치에 대해 마치겠습니다.

2020. 3. 22. 21:56

써 보면서 공부하는 걸 추천드립니다.

이 장에서는 네이버 첫 페이지의 데이터를 받아오는 크롤링을 한 번 보여드리겠습니다.

파이썬을 실행해 봅시다. 파이썬을 설치 안 하신 분들은 파이썬 3.x 버전을 설치하시고 오시길 바랍니다. 파이참도 가능합니다.

크롤링을 하는 프로그램을 '크롤러'라고 합니다.

결과는 다음과 같습니다.

이 텍스트를 웹 브라우저에서 해석해서 초록색으로 배치가 잘 된 네이버의 화면을 우리에게 보여주는데요 웹은 대부분 HTML형태로 되어 있씁니다. HTML 텍스트를 받아온 다음에 여기에서 우리가 필요한 정보들을 파싱할 수 있습니다.

다음 내용은 뷰티풀솝 사용 해서 파싱하는 것을 보여드리겠습니다.

PREV 1 NEXT