본문 바로가기
Hobby/Hobby_4 - Coding

[자격증] 빅분기 실기 - 8. 빅분기 합격 후기

by 와우멍 2021. 9. 1.

안녕하세요 와우멍입니다.

시험보고 다른거 준비하다가 결과업데이트가 너무 늦었네요! 죄송합니다 ㅠㅠ

오늘은 빅데이터분석기사 실기 1회 같은 2회 시험 결과와 간단 후기를 포스팅하겠습니다.

(빅데이터분석기사 1회는 코로나로 인해 취소)



결과적으로 제2회 빅데이터분석기사를 원샷에 합격했습니다!!

 - 2021년 4월 17일에 응시한 필기 = 75/100

 - 2021년 6월 19일에 응시한 실기 = 97/100

 호호호.... 2월부터 6월까지 정처기-빅분기-ADsP 세개를 연달아/동시에 준비하면서 좀 지쳤는데, 전부 합격하니 일단 기분이 좋네요!!  오늘은 시험 직후에 예상했던 것과 실제 점수를 비교해보고, 다음에 응시하시는 분들은 어떻게 준비를 하면 좋을지에 대해 의견을 정리하는 순으로 진행하겠습니다!! (풀이는 지난 글을 참고해주세요)

2021.06.21 - [Hobby/Hobby_4 - Coding] - [자격증] 빅분기 실기 - 7. 첫 실기시험 후기

 

[자격증] 빅분기 실기 - 7. 첫 실기시험 후기

안녕하세요 와우멍입니다. 오늘은 빅데이터분석기사 실기 1회같은 2회 시험 후기를 작성하겠습니다. (빅데이터분석기사 1회는 코로나로 인해 취소) 으허허허 시험이 끝났습니다. 오랜만에 잠시

hobby-weighted.tistory.com


단답형 27점 (27점/30점 예상)

1 이상값 O
2 평균대치법 O
3 비지도학습 O
4 부스팅 O
5 하이퍼파라미터 O
6 Gradient boost O
7 과적합 O
8  -  (propagation 계산문제) X
9 후진제거법 O
10 roc O

작업형 제1유형 : 30점 (20~30/30점 예상)

1.  컬럼1에서 상위 10개 값들을 상위 10번째 값으로 대체한 후, 컬럼2가 80이상인 데이터에 대한 컬럼1의 평균값 계산: 5.75

  -  정답  

1
2
3
4
5
import pandas as pd
 
= pd.read_csv('data/데이터.csv')
a['컬럼1'].sort()[-10:] = a['컬럼1'].sort()[-10]
answer = a['컬럼1'][a['컬럼2']>=80].mean()
cs

2. 데이터 전체에서 80% 추출 후 결측치들을 median으로 채우고 표준편차의 변화값: 1.975

 -  정답  

1
2
3
4
5
6
7
import pandas as pd
 
= pd.read_csv('data/데이터.csv')
= a[:len(a)*0.8
prev_std = a['컬럼'].std()
aft_std = a['컬럼'].fillna(a['컬럼'].median()).std()
answer = abs(aft_std - prev_std)
cs

3. Outlier 추출 후 합계: 31707

 -  정답  

1
2
3
4
5
6
7
import pandas as pd
 
= pd.read_csv('data/데이터.csv')
dum = a.descibe()
cut_high = dum['50%'+ 1.5*(dum['75%']-dum['25%'])
cut_low = dum['50%'- 1.5*(dum['75%']-dum['25%'])
answer = a['컬럼'][(a['컬럼'< cut_low)|(a['컬럼'> cut_high)].sum()
cs

작업형 제2유형 : 40점 (최소 10점 이상 예상)

 -  만점  


간단 후기

 1) 필기

 - 저는 수제비에서 나온 빅데이터분석기사 2021버전으로 공부를 했습니다. 하지만... 이 책으로 준비하신 분들은 모두 낭패를 봤습니다. 수제비에서는 빅데이터 플랫폼과 언어 등 응용쪽으로 방점을 두고 집필을 했지만, 실제 첫시험에서의 방향은 통계기법의 이론에 대한 내용이 체감상 많았습니다. 거의 10년 전의 고등학교 지식까지도 어떻게 겨우 떠올려서 풀긴 했는데, 고등학교 과정의 통계라도 접하지 않았다면 통계량에 대한 기본지식과 계산방법 정도는 꼭 공부를 따로 하셔야 할 것 같습니다. 아마 첫 시험이 수행되었으니, 시중 문제집들에서 이에 맞춰 방향을 맞춰 수정할테니 그걸 기다려보셔도 좋을 것 같구요!

 2) 실기

 - 단답형은 이전 글에서 추천드렸던 어플이랑 어느 책이든 기본서 하나 정독해보면서 커버하는 수 밖에 없을 것 같습니다. 광고 아니고 ㄹㅇ 저 어플로 시험보기 3일전부터 자기 전에 3바퀴 정도씩 돌렸는데 많이 얻어걸렸습니다. 강력 추천!!

 - 작업형 제1유형은 3개의 문제 모두 지문에 뭘 해야하는지 써줬기 때문에 필기에서 공부한 통계량들의 기본 수식 정도는 익히는 것이 핵심일 것 같습니다. 그 단어들만 알고 있다면, 나머지는 시키는 순서대로 전처리를 하면 되니, 아는 통계량만 나오면 일사천리일 것 같네요!

 - 작업형 제2유형은 예상했던 대로!! 문제를 풀어내는 능력이 키워드고 성능은 어느 정도만 나와주면 되는 것 같았습니다. 저는 Column별로 Outlier 제거 후 Normalization하는 정도의 전처리만 하고, XGBoost와 SVM 두개로 Train set/ Test set 나눠서 scoring했을 때 65~70점 정도 나오는 거 확인하고 그대로 제출했습니다. 실제 채점할 때는 얼마나 나왔을지 알수는 없지만, 참고바랍니다! 적어도 첫시험에서의 채점은 굉장히 후했습니다.


그럼 다음에는 ADsP와 정처기 후기도 한 번 준비해보겠습니다.

혹시 궁금하신거 있으시면 확인하는 대로 답변 드릴테니 편하게 남겨주시구요!

이후에 준비하시는 모든 분들도 화이팅입니다!!

댓글