본문 바로가기

이벤트

웹 크롤링 기초 강의ㅣ뉴스, 기차 예매, 여행 사이트 실습 [리뷰3]

https://mcode.co.kr/video/list2?viewMode=view&idx=92

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

제가 공부하고 리뷰를 작성하는 강의는 메타코드이 강의입니다. 

아래 수강후기는 메타코드의 지원을 받고 작성하는 후기글입니다. 

앞으로 완강까지 지켜봐주세요! 

메타코드에서 함께 성장하세요!

공영방송은 다소 자유로우니 공영방송 사이트를 기준으로 실습하겠습니다. 

F12 계발자 모드에서 HTML구조를 확인 할 수 있습니다. 

참고) 텍스트 관련 태그들

  • <h1> ~ <h6>: 제목 태그로, <h1>이 가장 큰 제목을 나타내며 <h6>으로 갈수록 작아집니다.
  • <p>: 문단을 정의합니다.
  • <br>: 줄바꿈을 생성합니다.
  • <strong>, <b>: 텍스트를 굵게 표시합니다.
  • <i>, <em>: 텍스트를 기울임꼴로 표시합니다.

BeautifulSoup시현 모습입니다. 

여기서 pandas를 사용합니다. 

판다스의 기본 개념과 특징

  • 데이터 구조: 판다스는 주로 두 가지 데이터 구조를 사용합니다.
    • Series: 1차원 배열로, 단일 데이터 타입의 데이터를 담을 수 있습니다. 
    • DataFrame: 2차원 테이블로, 다양한 데이터 타입의 열을 가질 수 있으며, 데이터 분석과 조작에 가장 널리 사용됩니다. 
  • 주요 기능:
    • 데이터셋의 로딩, 저장, 변환 등의 기본적인 데이터 처리 기능을 제공합니다.
    • 다양한 통계 처리 기능을 지원하여 데이터 분석을 용이하게 합니다.
    • 웹 크롤링, 데이터 시각화 등의 고급 기능도 지원합니다. 2

판다스의 장점

  • 다양한 데이터 처리 기능: 판다스는 데이터 필터링, 변환, 집계 등 다양한 데이터 처리 기능을 제공합니다.
  • 효율적인 데이터 분석: 대규모 데이터셋에 대한 빠르고 효율적인 분석이 가능합니다.
  • 유연성: 다양한 형태의 데이터(텍스트, CSV, SQL 데이터베이스 등)를 쉽게 처리할 수 있습니다.

뉴스 기사 웹 크롤링 예시입니다. 

코드를 블로그에 일일이 다 공개하기는 분량도 많고 리뷰의 의미에서 벗어나는것 같아서 결과 위주로 업로드하겠습니다. 

처음에는 복잡해 보여도 따라하면 쉽게 완성할 수 있습니다. 

다음은 코드를 좀 더 세련되게 만들는 작업을 하겠습니다. 

 

for문을 활용하여 좀 더 간단하게 코드를 작성할 수 있습니다. 

이때 for문을 정말 많이 사용하기 때문에 for문에 대해서 정리하겠습니다.

여러개의 url의 경우는 무조건 for문이 유리합니다.

for문의 기본 예시를 함께 작성하겠습니다. 

for 요소 in 순회할_리스트:
    원하는_작업_수행