블로그
[웹크롤링] 웹 크롤링 정리 본문
반응형
Day1
- requests 라이브러리 : 동적 / 정적 페이지에 get / post 요청 후, json(동적) / html(정적) 형식으로 받아옴
Day2
- xml은 옛날 방식이라 잘 사용하지 않음
- 수집 방법
- 동적페이지 - json
- 정적페이지 - html
- html → BS4 → DF
- selenium - 브라우저 컨트롤 (위 두 방식으로 가져올 수 없을 경우)
- 동적페이지보다 정적페이지의 파싱이 조금 더 어려움 동적은 그냥 json() 메소드만 불러오면 df로 파싱 가능한데 정적은 html -> beautiful soup -> df 이렇게 파싱 해야하니까
728x90
반응형
'공부' 카테고리의 다른 글
[Tableau] 6일차 테이블 계산식, 세부 수준 계산식(LOD) 이해 (0) | 2024.08.28 |
---|---|
[Tableau] 5일차 맵, 지리 정보를 활용한 시각화 (0) | 2024.08.28 |
[Tableau] 4일차 테이블 계산식 , 도시대기 미세먼지 데이터와 빅맥 지수 데이터를 이용한 시간 분석 (0) | 2024.06.03 |
[Tableau] 3일차 매개변수, 대시보드 동작, 인터랙티브 시각화 (0) | 2024.05.31 |
[Tableau] 2일차 계산식 , 스타벅스 메뉴 데이터와 매장 정보 데이터를 이용한 다양한 시각화와 분석 (0) | 2024.05.31 |