빅분기 실기
지난주 6월 22일 (토)에 시행된 빅분기 실기시험의 공부방법과 시험 후기를 공유해보고자 합니다.
- 시험 장소: 대전 대전광역시 중구 중앙로 137번 길 36 세잔 IT직업전문학교
- 시험 시간: 10:00~13:00 (9:30까지 입실)
- 시험 정보
- 제1 유형 데이터 처리/ 30점 (3문제)
- 제2 유형 데이터 모델링/ 40점 (1문제)
- 제3 유형 통계/ 30점 (2문제, 각 문제당 3문제, 5점씩)
8회 공부
[백그라운드]
- 컴공 X, 대학원에서 코딩 O
- 통계는 기초 정도, 머신러닝을 다루기도 하지만 이론 잘 모릅니다.
- 주 언어는 R이며, dplyr 사용에 능숙합니다.
- 이전에 ADsP를 취득한 경험이 있습니다.
[공부 시간 및 공부방법]
- 공부 소요시간은 약 21시간입니다.
- 수요일 3시간, 목요일 6시간, 금요일~토요일 12시간, 총 21시간 정도입니다.
1일 차. 시험 개정 후 시험(6, 7회 합격 후기와 공부법) 정보와 기본 R 강의를 수강
- 합격후기를 종합하여 시험 시 주의하상, 시험 환경, 강의 및 교재, 공부 사이트 파악하기
> 교재) 가장 최신으로~
> 강의) [유튜브] 메타코드 M, 빅데이터 분석기사 실기 편
> 캐글) 빅데이터분석기사실기(https://www.kaggle.com/datasets/agileteam/bigdatacertificationkr)
> 기타) 데이터마님(https://www.datamanim.com/intro.html)
- 영상강의 1~5강 수강 [Youtube, 꿈꾸는 날개, 빅데이터분석기사 실기 R 강의] (1.5배속)
- 데이터 마님의 데이터 전처리 100문제 중 1~20문제
2일 차. 데이터 마님
- 데이터 마님의 데이터 전처리 100문제 (R) 중 20~60문제 (시간 부족으로 그 이후는 보지 못함) 💛🧡
- 데이터 마님의 작업 1 유형(R)-유튜브 인기동영상 데이터 (재밌음)
3~4일 차. 캐글 빅데이터분석기사 & 실기 시험문제
- 영상강의 6,7,10,11,12,13 강 수강 [Youtube, 꿈꾸는 날개, 빅데이터분석기사 실기 R 강의] 💛🧡
- 케글-작업 3 유형 예제문제: T검정(대응표본/독립표돈/단일표본), 일원분산, 비모수 검정, 정규성검정, 카이제곱(독립성, 적합도), 상관관계분석, 선형회귀, 로지스틱회귀, 포아송분포 풀이 💛🧡
- 데이터 마님, 6-7회 기출 변형시험 (Python이긴 하지만, R코드로 진행) 💛🧡
- 문제환경(구름) 사용해 보기 (1시간)
[시험 주의사항 모음]
1. 공부 방법
- 1 유형은 하루 n제씩 꾸준히, 2 유형은 나만의 풀이과정, 3 유형은 분석기법 별 함수를 알아두고 가설 검정 절차를 밟는 연습
- 2 유형은 random forest만 익혀 가라
2. 시험 유의사항
- 10시 30분 이후 화장실 이용 가능
- 11시 30분 이전에는 퇴실이 불가능하고, 퇴실 시 0점 처리
- ID는 수험번호, PASSWORD는 주민번호 앞 6자리와 당일 알려주는 4자리 수 조합
- 시험 중에 코드를 Ctrl+C/V로 메모장에 복사/붙여 넣기 가능, 코드 실행 결과는 Ctrl+C/V가 안되고, 우클릭 후 복사메뉴 클릭해야 복사가 가능 💥
- 문제 풀다가 저장하고, 다른 문제로 이동해서 풀고 돌아오는 것도 가능하고요. 여러 번 제출도 가능
3. 유형별 유의사항
- 2 유형은 기본만 하면 만점(40점). 여기서 기본은 최소한의 인코딩(원핫 또는 라벨), 그리고 최소한의 알고리즘(랜포 분류/회귀)
출처
- https://woogong80.tistory.com/274
- https://imzm.tistory.com/109
- https://m.blog.naver.com/think_you__/223150091482 (가장 도움이 되었음)
8회 후기
[시험 장소]
- 각 분단마다 두 자리가 붙어있지만, 시험자의 옆자리는 비워져 있음,
- 그러나 앞에 사람 모니터가 너무 잘 보임.. 그 대신 앞 뒤로 감독관이 계셔서 누가 훔쳐보지는 않을 것 같았다.
[시험시간]
- 주의사항을 모두 알 수 있게 반복해서 말씀해 주셨다.
- 시험 전에 구름 환경을 30분간 테스트를 할 수 있다.
- 시험에서 가장 복병은 구름 환경이다. R은 에러메시지 확인도 어려워서, 중간중간 print("Step OK")라는 문구를 추가하여 어디에 에러가 떴는지 파악했다.
- 생각보다 1 유형에서 거의 1시간 잡아먹고 2 유형이 한 20분, 3 유형에서 40분 정도 걸렸다. 1 유형에서 구름 환경에 익숙하지 않아서 애를 많이 먹었다.
[시험 문제]
- 완벽한 정답이 아닙니다! 커뮤니티 글과 기억으로만 작성된 글입니다 💥💥
- 정답이 확실하면 (O) 표시 추가
1-1) 각 국가에서 맥주 소비량이 많은 대륙을 고르고 (EU), 그 대륙에서 소비량 순으로 5번째에 위치하는 나라( Ireland)의 소비량? 답 313 (O)
1-2) 먼저 관광객/전체 방문객으로 관광객 비율 구하기 -> 관광객비율로 내림차순 정렬하고 두 번째 국가의 공무 목적에 따른 방문 인원 + 관광으로 내림차순 하여 두 번째 나라의 사업 목적에 따른 인원 (일본과 홍콩이었음), 답 239 (O)
1-3) 데이터에서 co와 nmhc 칼럼 데이터를 Min-Max scaling , 이후 표준편차 빼기, 답은 -0.026
- 표준편차의 차이이니 절대값의 차를 빼야 한다는 의견과, 시험의 예시처럼 빼는 순서가 정해져 있다는 의견이 있음. 이건 결과가 나와야 알 것 같다.
2) 회귀였으며, 인원수 예측인데 mae로 평가
- ModelMatrix패키지에 mae 사용
- Random forest tree200개도 못 돌아가서 그냥 150개로 설정하고 제출 (이건 R의 단점인 듯)
- Linear regression은 MAE 400점, random forest는 140~150점 정도
- 시험 끝나고 단톡방 보니 다들 100~ 150 점 사이, 혹은 완전 400 점대 -> 아마 90~110이 만점일 듯
- 답안을 반올림해야 하나 안 해야 하나 논란이 있긴 한데, 시험 예시 답안은 정수긴 했음
3-1-1) 로지스틱 회귀 모델을 만들고, 중 유의한 변수의 수 구하기, 답은 12 (O)
3-1-2) 유의한 변수의 상관계수 평균, 여기에 상수항을 포함하는지 아닌지 관해서 공지가 올라왔는데, 대부분 헷갈려했고 틀렸을 듯. 만약 상수항 포함이면 답은 -0.456
3-1-3) 예시 데이터로 위 회귀모델에 따른 y값 구하기 -> 기억 안 남
3-2-1) 여러 변수가 IQ에 미치는 영향 LinearRegression로 계산, brain 크기 변수에 따른 회귀계수 값 -> 2.129 (O)
3-2-2) 결정계수값 -> 0.313 (O)
3-2-3) 특정 변수가 5배일 때, 오즈비 값? exp(coef(model)*5)이며, 104.873로 적었는데, 대부분 답이 동일
[시험 후기]
- 1 유형 만점, 2 유형은 망한 것 같고, 3 유형은 반타작 예상 => 결과적으로 잘 모르겠다 ㅎㅎㅋㅋㅋㅋ
- R시험 치는 사람이라면 유튜브 강의/ 데이터마님/ 빅분기 케글 만 보고 가도 충분하다.
- 공부 진짜 많이 안 하고 갔는데, 6-7회 기출 변형이 큰 도움이 되었다.
- 1 유형에서 생각보다 많이 틀리는 느낌. 하지만 제일 복병은 3 유형이다.
- R에 대한 공부 자료가 없어서 틈틈이 데이터 마님이나 케글에 댓글을 달아볼까 생각 중 (솔직히 1 유형은 R로 푸는 게 제일 쉽다ㅋㅋㅋ)
- 단톡방은 들어가면 좋긴 한데, 알람이 너무 쓸데없이 울린다. 시험 끝나고 답 맞춰보기에만 좋다.
대전에서 치는 시험은 IT시험은 대부분 중앙로에서 본다고 해도 과언은 아닙니다.
이왕 가는 김에 맛집도 찾아보고 맛있는 점심 먹고 오시길 바랍니다.
시험장 근처에는 성심당, 광천식당 등등 맛집이 많지만, 저는 시험장 근처에 있는손이가어죽칼국수를 먹고 왔습니다.
어죽집이긴 한대, 여기 족발이 생각 외로 맛있었습니다.
지난 글