본문 바로가기

분류 전체보기

(71)
웹 크롤링 기초 강의ㅣ뉴스, 기차 예매, 여행 사이트 실습(4강 : 관광상품 리뷰 데이터 크롤링 및 분석 프로젝트 - 딕셔너리를 활용한 데이터 크롤링과 저장) 사이트 규정 및 페이지 구조 파악, 표 형태의 데이터 크롤링, 원하는 text가 추출되지 않을 때, 태그를 찾지 못할 때 대응법 https://mcode.co.kr/video/list2?viewMode=view&idx=92 메타코드M빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.mcode.co.kr메타코드로부터 제공받은 강의를 바탕으로 후기를 작성하고 있습니다.  웹 크롤링을 시작하기 전에, 가장 먼저 해야 할 일은 해당 사이트의 크롤링 규정을 확인하는 것입니다. 이 스크린샷에서는 robots.txt 파일을 통해 사이트 규정을 어떻게 확인하는지 보여드립니다. 우리가 존중해야 할 웹의 에티켓이자, 웹 크롤링의 첫 걸음입니다. 코드는 우선 우리가 사용할것들 위주로 먼저 import합니다! 웹 페이지에는 종종 데이터가 표 형태로 제공됩니다. Python의 Beautiful Soup ..
웹 크롤링 기초 강의ㅣ뉴스, 기차 예매, 여행 사이트 실습 [3강 : 예매 가능한 기차표 찾기 프로젝트, 크롤링이 너무 오래 걸릴 때: 자주 할만한 실수 체크하기] https://mcode.co.kr/video/list2?viewMode=view&idx=92 메타코드M빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.mcode.co.kr제가 공부하는 사이트는 메타코드M이라는 사이트입니다! 메타코드에서 제공받은 강의를 바탕으로 후기를 작성합니다.   크롤링 시간이 오래 걸리는 경우 자주 발생할 수 있는 실수들을 체크하고 개선하는 방법에 대해 자세히 설명하겠습니다. 위 코드는 상당히 오랜 시간이 걸려도 크롤링이 되지 않고 코드가 실행되지 않고 있습니다. 오류가 발생되는 원인에 대해서 찾아보겠습니다. 크롤링을 할때 과도한 요청 보내기 웹사이트에 너무 많은 요청을 보내면 서버에 부담을 줄 수 있습니다. 이를 방지하기 위해 ..
웹 크롤링 기초 강의ㅣ뉴스, 기차 예매, 여행 사이트 실습 [3강 : 예매 가능한 기차표 찾기 프로젝트, 사이트 규정 및 페이지 구조 파악, 표 형태의 데이터 크롤링, 원하는 text가 추출되지 않을 때, 태그를 찾지 못할 때 대응법 ] https://mcode.co.kr/video/list2?viewMode=view&idx=92 메타코드M빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.mcode.co.kr제가 공부하는 사이트는 메타코드M이라는 사이트입니다! 메타코드로 부터 제공 받은 강의를 바탕으로 후기를 작성합니다!  Selenium을 통해서 다음버튼을 눌러서 바뀐 url의 데이터를 크롤링하는 것을 해보도록 하겠습니다. 즉 [다음]을 클릭하고 url을 가져오는 것을 하는것입니다.  XPath 개요XPath(XML Path Language)는 XML 문서 내의 특정 요소나 속성을 선택하기 위한 언어입니다. XML 문서의 트리 구조를 탐색하여 원하는 노드를 찾는 데 사용됩니다. 이는 웹..
웹 크롤링 기초 강의ㅣ뉴스, 기차 예매, 여행 사이트 실습 [리뷰6] https://mcode.co.kr/video/list2?viewMode=view&idx=92 메타코드M빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.mcode.co.kr제가 공부하는 사이트는 메타코드M이라는 사이트입니다!   코레일 기차표 크롤링 및 예매 자동화코레일 웹사이트에서 기차표 정보를 크롤링하고, 예매 가능한 기차표를 자동으로 찾아 예매하는 기술에 대한 블로그 포스트입니다. 이를 위해 Python과 Selenium 웹 자동화 라이브러리를 활용합니다. 사용자는 출발역, 도착역, 날짜 등의 정보를 입력하면 시스템이 자동으로 예매 가능한 기차표를 찾아 예매까지 완료해줍니다. 이를 통해 사용자는 편리하게 기차표를 예매할 수 있습니다.  robots..
웹 크롤링 기초 강의ㅣ뉴스, 기차 예매, 여행 사이트 실습 [리뷰5] https://mcode.co.kr/video/list2?viewMode=view&idx=92 메타코드M빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.mcode.co.kr제가 공부하는 사이트는 메타코드M이라는 사이트입니다!  페이지 네이션(Pagination)에 대한 설명페이지 네이션은 웹 페이지에서 긴 목록이나 결과를 여러 페이지로 나누어 보여주는 기술입니다. 이를 통해 사용자는 한 번에 많은 양의 콘텐츠를 처리하지 않고도 효과적으로 탐색할 수 있습니다. 일반적으로 페이지 네이션은 페이지 번호, 이전/다음 버튼 등을 통해 사용자가 다음 페이지로 이동할 수 있도록 합니다. f-string과 for문을 사용하기f-string을 사용하면 변수 값을 직접 ..
웹 크롤링 기초 강의ㅣ뉴스, 기차 예매, 여행 사이트 실습 [리뷰4] https://mcode.co.kr/video/list2?viewMode=view&idx=92 메타코드M 빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다. mcode.co.kr Selenium을 사용한 크롤링의 기본 원리 동적 콘텐츠 접근: Selenium은 웹 브라우저를 자동화하여 실제 사용자가 웹사이트를 탐색하는 것처럼 동작시킬 수 있습니다. 이를 통해 자바스크립트가 동적으로 생성하는 콘텐츠에도 접근할 수 있습니다. 자바스크립트 함수 호출: Python과 Selenium을 사용하여 웹사이트에서 자바스크립트 함수를 직접 호출할 수 있습니다. 이 방법은 동적 테이블이나 함수 결과와 같은 동적 콘텐츠를 스크래핑하는 데 유용합니다. Selenium을 사용한..
웹 크롤링 기초 강의ㅣ뉴스, 기차 예매, 여행 사이트 실습 [리뷰3] https://mcode.co.kr/video/list2?viewMode=view&idx=92 메타코드M 빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다. mcode.co.kr 제가 공부하고 리뷰를 작성하는 강의는 메타코드이 강의입니다. 아래 수강후기는 메타코드의 지원을 받고 작성하는 후기글입니다. 앞으로 완강까지 지켜봐주세요! 메타코드에서 함께 성장하세요! 공영방송은 다소 자유로우니 공영방송 사이트를 기준으로 실습하겠습니다. F12 계발자 모드에서 HTML구조를 확인 할 수 있습니다. 참고) 텍스트 관련 태그들 ~ : 제목 태그로, 이 가장 큰 제목을 나타내며 으로 갈수록 작아집니다. : 문단을 정의합니다. : 줄바꿈을 생성합니다. , : 텍스트를 굵..
웹 크롤링 기초 강의ㅣ뉴스, 기차 예매, 여행 사이트 실습 [리뷰2] https://mcode.co.kr/video/list2?viewMode=view&idx=92 메타코드M 빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다. mcode.co.kr BeautifulSoup에 대한 소개 BeautifulSoup은 Python으로 웹 데이터를 크롤링하고 파싱하는 데 사용되는 라이브러리입니다. HTML과 XML 파일에서 데이터를 추출하기 위해 사용되며, 웹 스크래핑에 매우 유용한 도구입니다. BeautifulSoup을 사용하면 복잡한 HTML 문서에서 데이터를 쉽게 찾고, 추출하고, 조작할 수 있습니다. BeautifulSoup의 기본 사용법 라이브러리 설치: BeautifulSoup과 함께 requests 모듈을 사용하여 HT..