본문 바로가기

TIL

TIL) 웹스크래핑

1. 웹스크래핑(크롤링)이란?

웹 스크래핑은 웹 페이지에서 우리가 원하는 부분의 데이터를 수집해오는 것을 말한다.

한국에서는 웹크롤링과 혼용되고 있다.

 

2. 웹스크래핑과 크롤링의 차이

웹스크래핑은 웹 사이트 상에서 원하는 정보를 추출하는 기술로, 핀셋으로 자기가 원하는 정보만 쏙쏙 빼내는 느낌이다. 

반면 웹크롤링은 웹크롤러가 일정 규칙으로 웹페이지를 브라우징(인덱싱) 하는 것으로, 거미줄을 쳐놓고 기다리는 느낌이라 이해하면 되겠다.

 

참고: dzone.com/articles/web-scraping-vs-web-crawling-whats-the-difference

 

3. 웹 스크래핑 방법

1) 타깃 웹사이트에 대한 URL을 요청하여 HTML 형식의 정보를 수집한다.

2) HTML 내에 필요한 정보가 담긴 Code를 parsing한다. 

*파싱(parsing)은 어떤 페이지(문서, html 등)에서 내가 원하는 데이터를 특정 패턴이나 순서로 추출해 가공하는 것을 말한다. 

3) 데이터를 원하는 형태(CSV, JSON 등)로 다운로드 한다.

 

4. bs4 기본 사용법

pycharm에서 웹 스크래핑을 하는 데는 beatuifulsoup4 패키지가 필요하다. 

5. select 사용법

HTML 내에 필요한 정보를 수집하기 위해선 select 구문을 사용해야 한다.

**.select(내가 원하는 조건)으로 입력가능하다.

여기서의 조건은 아래 같다.

  • ① 태그명
  • ② 클래스명
  • ③ 아이디가 무엇인지
  • ④ 구조적 위치(어디에 속해있는지)
  • ⑤ 태그 내 특정 속성 값이 무엇인지

참조: m.blog.naver.com/kiddwannabe/221177292446

 

 

다음시간

- ajax 활용:GET 요청, response 설정, 

- jQuery: $(document).ready