공지
주제
- 웹 크롤링을 이용한 취업 공고 스케줄러
스케줄
- 주제 정하기
- 코딩하기
- 핵심 코드 설명 + 피피티 구조 구상 // 12/4 토
- 피피티 + 스크립트(대본) 제작 + 녹화 // ~ 12/10 ~ 12/11 금~토
- 영상 편집 // ~12/11 토
웹크롤러
주제 선정 배경
- 마지막 학기를 보내며 취업 전선에 뛰어들려 하니 여러 가지 생각해야 할 게 많았다. 학교라는 좁은 사회를 벗어나 더 큰 물에 뛰어들려 보니 겁부터 났다. 수영 전 준비운동을 하듯 내가 취업하기 위해 먼저 채용 정보를 수집해야 겠다고 생각했다.
- IT 내에서도 트렌드와 어떤 분야에서 사람을 많이 구하는지 알고 싶었다. 그를 위해 스택 오버플로우에서 User-Agent 를 확인 후 채용 공고 크롤링을 수행했다.
- 우리나라 내에서 각자의 분야에 종사하는 사람들이 평균 연봉으로 얼마를 받는지 알고 싶어서 여러 취업 사이트 중 하나인 '사람인'에서 User-Agent 를 확인 후 평균 연봉 정보를 크롤링했다. 최근 1000개만 수행해보았다. (10000개 해도 될 듯하다.)
데이터 수집 방법
- 사람인, 스택오버플로우에서의 채용 공고를 긁어오기로 했다.
- 따로 만든 크롤러 파일(연봉정보, 채용공고)에서 CSV 로 데이터를 추출한다.
크롤링 작업 중 핵심 코드 설명
- 연봉 정보 파일은 주석 달기 완료
분석 방법
- 주제어(키워드) 빈도 분석
- 주제어(키워드) 중요도 분석
- 텍스트 마이닝
- 참고한 링크
결론
- 어떠한 분야에서의 국내 평균 연봉은 이렇다!
- 요새는 세계적으로 IT 내 이쪽 분야가 트렌드다! 사람을 많이 뽑는다!
참고자료
- 사람인 사이트
- 스택 오버플로우 사이트
과제 수행에서 어려웠던 점
- User-Agent 에서 크롤링을 허락해주는 사이트 중 URL 에 페이지의 숫자가 나타나는 사이트를 찾기 어려웠다.
- 직무 별
PPT 구성
[1] - 주제
[2] - 주제 선정 배경
[3] - 데이터 수집 방법
[4] - 크롤링 작업 중 핵심 소스 코드 설명
[5] - 분석방법/모델
[6] - 결론
[7] - 참고자료
[8] - 과제 수행에서 어려웠던 점
PPT 상세 구성
-
스택 오버 플로우
- 직종별 구인수 (Front/Back) (NCS IT 직무 8개)
- 나라별 구인 직종
-
- 1000개의 임의의 기업에 따른 최고 연봉 (5) 과 최저 연봉 (5)
- 최고 같은 경우 은행이나 다른 업종
- 최저 같은 경우 서비스 업종
- 기업형태에 따른 연봉 구간 (중소/중견/대)
- 산업(업종)에 따른 연봉 구간
- 코스닥/코스피에 따른 연봉 구간 차이?
- 1000개의 임의의 기업에 따른 최고 연봉 (5) 과 최저 연봉 (5)
-
현재 취업하려고 하는 사람들에게 어떤 직무가 자신에게 나을지 판단 -> 결론
- 직무별 수요에 따라서 결과 표시 (스택)
- 연봉을 중요시 여긴다면 결과 표시 (사람인)
분석 결과
- 스택 오버 플로우
-
직종별 구인수 (Front/Back) (NCS IT 직무 8개)
- 분석 결과 여따 써줘요
- 대략 밑에 작성하라는 의미
- Front / Back
- 직무 8개 별로
-
나라별 구인 직종
-
사람인
- 1000개의 임의의 기업에 따른 최고 연봉 (5) 과 최저 연봉 (5)
- 최고 같은 경우 은행이나 다른 업종
- 최저 같은 경우 서비스 업종
- 기업형태에 따른 연봉 구간 (중소/중견/대)
- 산업(업종)에 따른 연봉 구간
- 코스닥/코스피에 따른 연봉 구간 차이?
- 1000개의 임의의 기업에 따른 최고 연봉 (5) 과 최저 연봉 (5)
-