본문 바로가기

이벤트

웹 크롤링 기초 강의ㅣ뉴스, 기차 예매, 여행 사이트 실습 [리뷰5]

https://mcode.co.kr/video/list2?viewMode=view&idx=92

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

제가 공부하는 사이트는 메타코드M이라는 사이트입니다! 

 

페이지 네이션(Pagination)에 대한 설명

페이지 네이션은 웹 페이지에서 긴 목록이나 결과를 여러 페이지로 나누어 보여주는 기술입니다. 이를 통해 사용자는 한 번에 많은 양의 콘텐츠를 처리하지 않고도 효과적으로 탐색할 수 있습니다. 일반적으로 페이지 네이션은 페이지 번호, 이전/다음 버튼 등을 통해 사용자가 다음 페이지로 이동할 수 있도록 합니다.

 

f-string과 for문을 사용하기

f-string을 사용하면 변수 값을 직접 문자열에 삽입할 수 있어 코드가 더 간결하고 가독성이 높아집니다. 또한 for문과 함께 사용하면 반복적인 작업을 효율적으로 처리할 수 있습니다.

 

이처럼 f-string은 문자열 포매팅에 다양한 기능을 제공하여 코드의 가독성과 생산성을 높일 수 있습니다. 개발자들은 f-string을 적극적으로 활용하여 더 효율적이고 직관적인 코드를 작성할 수 있습니다.

 

 

지금까지 진행 했던 크롤링 과정에서 페이지네이션을 상단에 실행시킨 모습입니다. 

페이지를 돌면서(1~13페이지) 데이터를 수집하고 데이터 프레임화 시킨후 CSV에 저장하는 과정입니다. 

기존에 수업과 연계되어 있으므로 복습에 유의하시면서 수강하셔야겠습니다. 

실행해보니깐 상당히 유용하네요! 

 

크롤링 시 페이지네이션을 활용하면 원하는 데이터를 효과적으로 수집할 수 있습니다. 웹 페이지의 URL 패턴을 활용하여 여러 페이지의 정보를 자동으로 수집할 수 있습니다.

이를 통해 대량의 데이터를 체계적으로 수집하고 관리할 수 있습니다. 또한 페이지네이션 기능을 활용하면 웹 사이트 구조에 맞춰 크롤링을 수행할 수 있어 효율성이 높아집니다.

전체적으로 페이지네이션을 활용한 크롤링은 대량의 데이터를 체계적으로 수집하고 관리할 수 있게 해주는 유용한 기술입니다.

 

RSS의 주요 특징은 다음과 같습니다:

  • 웹 기반 리더와 설치형 리더 지원: RSS 피드를 웹 브라우저나 전용 리더 프로그램을 통해 구독할 수 있습니다. 
  • 자동 콘텐츠 수집 가능: RSS를 통해 사용자는 각 웹사이트를 직접 방문하지 않고도 원하는 정보를 자동으로 수집할 수 있습니다. 
  • 미디어 배포에 활용: RSS는 팟캐스팅과 같은 미디어 배포에도 사용됩니다. 
  • XML 기반 표준: RSS는 XML 1.0 버전을 기반으로 하는 웹 콘텐츠 표현 및 통신 표준입니다. 

종합적으로 RSS는 사용자가 웹사이트를 직접 방문하지 않고도 관심 있는 콘텐츠를 구독하고 공유할 수 있게 해주는 유용한 기술입니다.

RSS를 활용한 크롤링의 의의

RSS를 활용한 크롤링은 다음과 같은 의의가 있습니다:

  1. 자동화된 정보 수집: RSS 피드를 통해 웹사이트를 직접 방문하지 않고도 관심 있는 정보를 자동으로 수집할 수 있습니다. 이를 통해 업무 효율성을 높일 수 있습니다. 
  2. 실시간 정보 모니터링: RSS 피드를 통해 실시간으로 웹사이트의 최신 정보를 모니터링할 수 있습니다. 이는 신속한 의사결정에 도움이 될 수 있습니다. 
  3. 다양한 활용 가능성: RSS 피드는 단순히 웹 콘텐츠 구독뿐만 아니라 날씨 정보, 주식 정보 등 다양한 분야에서 활용될 수 있습니다