1. 웹스크래핑(크롤링)이란?
웹 스크래핑은 웹 페이지에서 우리가 원하는 부분의 데이터를 수집해오는 것을 말한다.
한국에서는 웹크롤링과 혼용되고 있다.
2. 웹스크래핑과 크롤링의 차이
웹스크래핑은 웹 사이트 상에서 원하는 정보를 추출하는 기술로, 핀셋으로 자기가 원하는 정보만 쏙쏙 빼내는 느낌이다.
반면 웹크롤링은 웹크롤러가 일정 규칙으로 웹페이지를 브라우징(인덱싱) 하는 것으로, 거미줄을 쳐놓고 기다리는 느낌이라 이해하면 되겠다.
참고: dzone.com/articles/web-scraping-vs-web-crawling-whats-the-difference
3. 웹 스크래핑 방법
1) 타깃 웹사이트에 대한 URL을 요청하여 HTML 형식의 정보를 수집한다.
2) HTML 내에 필요한 정보가 담긴 Code를 parsing한다.
*파싱(parsing)은 어떤 페이지(문서, html 등)에서 내가 원하는 데이터를 특정 패턴이나 순서로 추출해 가공하는 것을 말한다.
3) 데이터를 원하는 형태(CSV, JSON 등)로 다운로드 한다.
4. bs4 기본 사용법
pycharm에서 웹 스크래핑을 하는 데는 beatuifulsoup4 패키지가 필요하다.
5. select 사용법
HTML 내에 필요한 정보를 수집하기 위해선 select 구문을 사용해야 한다.
**.select(내가 원하는 조건)으로 입력가능하다.
여기서의 조건은 아래 같다.
- ① 태그명
- ② 클래스명
- ③ 아이디가 무엇인지
- ④ 구조적 위치(어디에 속해있는지)
- ⑤ 태그 내 특정 속성 값이 무엇인지
참조: m.blog.naver.com/kiddwannabe/221177292446
다음시간
- ajax 활용:GET 요청, response 설정,
- jQuery: $(document).ready
'TIL' 카테고리의 다른 글
TIL) React, SPA, React Router (0) | 2022.05.09 |
---|---|
TIL) Ajax 활용, JSON 파일, jQuery 몇 몇 구문 (0) | 2020.09.14 |
TIL) pycharm 가상환경(venv) 구축, terminal 조작하기 (0) | 2020.09.09 |
TIL) Flask란, Flask 사용법 (0) | 2020.09.04 |
TIL) API 복습 (0) | 2020.09.03 |