본문 바로가기

이벤트

웹 크롤링 기초 강의ㅣ뉴스, 기차 예매, 여행 사이트 실습 [3강 : 예매 가능한 기차표 찾기 프로젝트, 사이트 규정 및 페이지 구조 파악, 표 형태의 데이터 크롤링, 원하는 text가 추출되지 않을 때, 태그를 찾지 못할 때 대응법 ]

https://mcode.co.kr/video/list2?viewMode=view&idx=92

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

제가 공부하는 사이트는 메타코드M이라는 사이트입니다! 

메타코드로 부터 제공 받은 강의를 바탕으로 후기를 작성합니다! 

 

Selenium을 통해서 다음버튼을 눌러서 바뀐 url의 데이터를 크롤링하는 것을 해보도록 하겠습니다. 

[다음]을 클릭하고 url을 가져오는 것을 하는것입니다. 

 

XPath 개요

XPath(XML Path Language)는 XML 문서 내의 특정 요소나 속성을 선택하기 위한 언어입니다. XML 문서의 트리 구조를 탐색하여 원하는 노드를 찾는 데 사용됩니다. 이는 웹 크롤링 작업에서 자주 사용되는 기술입니다.

 

XPath의 활용

XPath는 다음과 같은 용도로 사용됩니다:

  • 웹 크롤링: 웹 페이지의 HTML 구조를 탐색하여 원하는 데이터를 추출하는 데 사용됩니다.
  • XML 데이터 처리: XML 문서에서 특정 노드나 속성을 선택하여 데이터를 추출하거나 조작하는 데 사용됩니다.
  • 데이터베이스 쿼리: XML 데이터를 저장하는 데이터베이스에서 XPath를 사용하여 데이터를 검색할 수 있습니다.

코드의 큰 맥락은 

 

url규칙을 찾아서 [다음] 버튼을 눌러서 갱신을 합니다. 

이떄 사용하는 코드는 driver.find_element(By.Xpath, )입니다. 

 

그리고 데이터 프래임화 한후 저장합니다. 

 

실제 테스트를 하보면 [이전] 버튼이 없어서 [다음]버튼의 순서가 바꿈으로 인한 오류 발생할 수 있습니다. 

이때 try문을 사용하여 해결해야겠습니다. 

크롤링을 배우기전에 파이썬 기초 문법은 간단하게라도 알고 있어야합니다. 

 

try:
    # 예외가 발생할 수 있는 코드 블록
    # 예를 들어, 파일을 열거나 네트워크 요청을 보내는 코드 등
    # 예외가 발생할 수 있는 코드가 위치합니다.
    
    # 만약 예외가 발생하지 않으면, 이후 코드가 실행됩니다.
    
except SomeException:
    # 예외가 발생했을 때 처리할 코드
    # 예외가 발생하면 해당 예외에 대한 처리를 수행합니다.

 

 

위 작업은 메모리를 상당히 많이 사용하기 떄문에 개인 환경에 따라서 시간이 많이 걸리곤 합니다. 

그런 부분 유념해주시고 크롤링을 하셔야겠습니다. 

이번 강의를 통해서 유의미한 데이터 크롤링 방법을 알게되었습니다. 

데이터분석의 기초는 크롤링이고 매우 중요함을 알기에 계속 복습하도록 하겠습니다.