파이썬을 공부하거나, 빅 데이터를 보면서 가장 많이 쓰이는 부분 중 하나인 '크롤링'에 대해 간단히 소개하고자 한다.
crawl 의 사전적 의미는 기어 다니다, 느리게 움직이다 정도로 해석될 수 있다. 따라서 웹 크롤링이란 말 그대로 웹을 돌아다니면서 정보를 수집하는 것이다. 보통 크롤링, 스크래핑이 혼용 되고 있는데 엄밀히 분류하자면 약간 구분이 필요하다.
웹 크롤링의 경우 보통 검색엔진에서 많이 쓰이는데, 명확한 목표 없이 자체 웹페이지를 탐색하고 사이트나 네트워크가 제공할 수 있는 것을 끝없이 탐색할 수 있는 프로그램을 말한다. 웹 크롤러는 google 등의 검색 엔진에서 URL 콘텐츠를 추출하거나, 이 페이지의 다른 링크를 확인하거나, 이러한 링크에 대한 URL을 획득하는 등의 작업에 적극적으로 사용된다.
그렇다면 웹 스크래핑이란? 웹 스크래퍼는 특정 데이터를 추출하는 과정이다. 웹 크롤링이 좀 더 넓은 의미라면, 웹 스크래핑은 특정 정보를 검색하기 위해 특정 웹사이트나 페이지에서 수행한다.
즉, 웹 크롤링은 단순히 있는 것의 복사본을 만들고 웹 스크래핑은 분석을 위해 특정 데이터를 추출하거나 새로운 것을 만든다. 그러나 웹 스크래핑을 수행하려면 먼저 필요한 정보를 찾기 위해 웹 크롤링을 수행해야 하며 데이터 크롤링은 웹 페이지의 모든 키워드, 이미지 및 URL을 저장하는 것과 같이 어느 정도의 스크래핑을 포함한다.
웹 크롤링은 일반적으로 google, bing 등의 검색 엔진들에서 어떤 정보를 검색하는 것이다. 웹 스크래핑은 주식 데이터, 부동산 시장 데이트 스크래핑 같은 특정 데이터에 대한 사이트를 대상으로 한다.
웹 크롤링 : 웹 크롤러는 대체로 방문한 사이트의 모든 페이지의 복사본을 생성하고, URL, 키워드를 수집하는데 사용된다. (일반적으로 검색 엔진)
웹 스크래핑 : 스크래핑 되는 출력물이 최종 사용자에게 표시할 것을 염두에 두고 특정 페이지나 사이트에서 특정 데이터를 추출하는 과정이다. (부동산 데이터, 주식 데이터 등)
'Review > Life' 카테고리의 다른 글
식약처 허가 받은 코로나-19 자가진단키트 찾는 방법 (0) | 2022.02.14 |
---|---|
[부동산] '신속통합기획'에 대해 알아보자. (0) | 2022.02.14 |
광주 남구 Cafe - Artio (0) | 2022.02.04 |
크로플 맛집 saddler haus 새들러하우스 (0) | 2021.10.25 |
카카오톡에서 코로나 상생 국민지원금 신청 대상자 조회하기 (0) | 2021.09.06 |