일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 시뮬레이션
- spring
- 다이나믹프로그래밍
- 백준코딩테스트
- 우선순위큐
- 01BFS
- 자바PS
- QUICKSTARTGUIDE
- 완전탐색
- 네트워크플로우
- 이젠 골드구현도 어렵네..
- 구현
- 알고리즘
- COSPRO
- GatherTown
- DFS
- COSPROJAVA1급
- 세그먼트트리
- BFS
- 다익스트라
- 엘라스틱서치
- 취득후기
- java
- 게더타운시작
- dp
- PS
- 백준
- deque
- 재귀함수
- YBMCOS
- Today
- Total
목록Natural Language Processing/Crawling (3)
공부공간
코로나가 기승을 부리고있다.. 사실 무엇보다도 예방하는게 가장 중요하다.. 마스크를 확보하는것이 중요하지만, 사실상 어느약국에 얼만큼 마스크가 남아있는지 알수가 없다. 공공데이터 api를 이용해서 주소를 기반으로 내주변 약국에 마스크가 있는지? 없는지? 얼마나있는지? 알려주는 기능을 한번 개발해보았다. ( 마크스 5부제를 통해서 출발하기전에 확인하면 좋을것같다 ) 예전에 음성합성프로젝트를 같이한 https://somjang.tistory.com/ 솜씨좋은장씨 somjang.tistory.com 이 folium이라는 좋은 파이썬 라이브러리를 소개시켜줬고, 한번 써볼겸 + 요즘 알고리즘만 하다보니 이런 문제정의와 구현하는데 어색해지기때문에.. 구현시간은 30분정도 걸렸다. Code 개발환경 : google ..
파이썬 버전 3.6 / beautifulsoup4 4.6.3 / requests 2.21.0 BeautifulSoup 은 http request로 얻어온 태그들을 유의미하게 파싱할수있는 라이브러리이다. 먼저 Requests 라이브러리는 특정 페이지에 html 정보를 string 형식으로 python으로 가져오는 기능을한다. 하지만 단순한 string에서 우리가 원하는 정보를 찾기 어렵기 때문에 BeautifulSoup을 이용한다. 예시를 통하여 알아보자. requests 라이브러리는 !pip install requests를 통하여 간단하게 설치할 수있다. 예시로 네이버 증권 페이지에 html을 requests안에 get 사용하여 가져와 본다면 이러한 형식으로 출력이 된다. ( requests.get(ur..
언어 처리나 머신러닝관련 토이프로젝트를 진행할 때에 웹에서 데이터를 가져와서 적절한 전처리를 통해 데이터 셋을 구현하곤한다. 이럴때에 사용하는 것이 웹크롤링 기술이다. 사실 웹크롤링관련 툴을 잘 다룬다고 해서 절대 아무 사이트나 막 크롤링을 하면안된다.. 어찌됐든 사이트의 데이터도 그 회사의 자산이니 내가필요하다고해서 무단으로 사용하면 곤란해질수 있다. 관련사항은 구글에 Robot.txt 라고 검색해보면 알수있다. 물론 아직 개인이 법적인 책임까지 간경우는 드물지만, 이점을 알고 사용하자. 이 포스트에서는 1) BeautifulSoup4를 이용한 정적인 사이트 크롤링 2 ) Selenium을 이용한 동적인 사이트 크롤링 을 다룰 것이다. 사실 매우 간단한 수준이라서 따라하면 금방 할 수있다. 둘의 차이는..