반응형
250x250
Notice
Recent Posts
Recent Comments
Link
«   2024/10   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
Archives
Today
Total
관리 메뉴

블로그

[웹크롤링] 웹 크롤링 정리 본문

공부

[웹크롤링] 웹 크롤링 정리

beenu 2024. 8. 4. 13:27
반응형

Day1

  • requests 라이브러리 : 동적 / 정적 페이지에 get / post 요청 후, json(동적) / html(정적) 형식으로 받아옴

Day2

  • xml은 옛날 방식이라 잘 사용하지 않음
  • 수집 방법
    1. 동적페이지 - json
    2. 정적페이지 - html
      1. html → BS4 → DF
    3. selenium - 브라우저 컨트롤 (위 두 방식으로 가져올 수 없을 경우)
  • 동적페이지보다 정적페이지의 파싱이 조금 더 어려움 동적은 그냥 json() 메소드만 불러오면 df로 파싱 가능한데 정적은 html -> beautiful soup -> df 이렇게 파싱 해야하니까
728x90
반응형