일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- gpu 병렬처리
- pymongo
- 알고리즘
- 리스트
- 코딩
- 파이썬
- 아이폰
- selenium
- 링크
- docker-compose
- 바로학교
- DB
- G-Suite
- 구글 드라이브
- Google Drive
- nocookie
- 탐욕 알고리즘
- 충북
- flask
- Django
- 그리디 알고리즘
- 유튜브
- 단축어
- 깃허브
- MongoDB
- 추천 영상
- List
- python
- 장고
- venv
Archives
- Today
- Total
목록bs4 (1)
SSAMKO의 개발 이야기
beautifulSoup 불가 페이지 selenium으로 크롤링하기
python으로 크롤링(웹 스크래핑)을 할 때 beautiful soup은 굉장히 강력한 도구입니다. 하지만, 동적페이지 중 데이터를 따로 받아서 완성시키는 페이지들은 beautiful soup으로 가져오려고 하면 엉뚱한 데이터들이 가져와지거나 실패하는 경우가 종종 생깁니다. 물론 그런 페이지들도 beautiful soup을 집요하게 파고들면 스크랩이 가능한 것 같지만, selenium을 이용하면 훨씬 간단하게 그런 페이지들을 스크래핑 할 수 있습니다. selenium은 chrome을 이용해 실제 페이지를 띄우고 우리가 키보드 마우스로 하는 동작들을 자동화해주는 라이브러리입니다. 그럼 bs로 (쉽게) 가져올 수 없는 페이지 중에서 '네이버 증권 > 국내 증시 > 시가 총액' 페이지를 스크래핑해보도록 하겠..
Python
2020. 6. 4. 18:03