1. 크롬을 설치합니다. 

-> 크롬을 설치하는 이유는 크롬에 있는 개발자 도구가 크롤러를 만들 때 필요한 도구이기 때문입니다. 만약 다른 브라우저를 사용하신다고 하셔도 무관합니다. 

 

2. Urllib 설치합니다. 

->> urllib는 기본적으로 설치 되어 있습니다. 그래서 파이썬이 설치 되어 있다면 바로 import를 할 수 있습니다. 

 

3. 네이버 첫 페이지 받아오기 

naver.com에 접속을 합니다. 오른쪽 마우스 -> 페이지 소스 보기를 합니다. 그러면 밑에 사진 처럼 나옵니다.

네이버 페이지 소스 보기

이런 게 HTML형식 입니다. 웹 브라우저는 텍스트 형태로 되어 있는 HTML문서를 읽어서 우리가 보기 좋게 그려 주는 렌더링 (rendering)기능을 하는 프로그램입니다.

 

크롤링을 한다는 것은 HTML형태의 데이터를 받아오는 것을 말합니다. 받아온 데이터에서 내가 필요한 것을 뽑아내는 것을 '파싱'이라고 합니다. 

 

즉, 크롤링, 파싱, 스크래핑이 '인터넷에서 무언가 데이터를 받아서 필요한 정보만 뽑아 내는 것'이라고 생각하시면 됩니다. 

 

그러면 무슨 말을 쓰라는거야? 라는 생각을 하실 수 있습니다.

 

-> 저는 데이터를 받아오는 것을 '크롤링' 

-> 받아온 데이터에서 필요한 정보를 뽑아내는 것을 '파싱' 

 

이라고 결론 짓겠습니다. 

HTTP(Hyper Text Transfer Protocol)란? 

쉽게 말해서 '약속, 규칙, 규약' 이라는 뜻입니다. 
예를 들어서 A라는 친구와 B라는 친구와 전화를 할 때 이름, 전화번호 등을 이용해 전화를 걸 거나 받을 때입니다. 

URL(Uniform Resource Locator)란? 

인터넷 주소입니다. 저희가 https://www.naver.com라는 곳을 들어갈 때 https://www.naver.com라는 게 URL입니다. 

HTML(Hyper Text Markup Language)란?

네이버로 예를 들겠습니다. 네이버를 보시면 연관검색어, 검색어, 뉴스 등이 보이실겁니다. 그런 자체가 HTML입니다. 더 정확하게 말씀드려서 인터넷 속성에서-> 개발자 도구 -> 소스 보기 or 오른쪽 클릭해서 소스보기가 보이실겁니다. 그런 자체가 HTML입니다.

이상포스터를 마치겠습니다.

+ Recent posts