[빅분기] 빅분기 합격 후기
2025 시나공 빅데이터분석기사 실기 도서로 공부하고 한 번에 빅데이터분석기사 제9회 자격증을 취득하였습니다.
시나공 빅분기 책을 선택한 이유
빅분기 필기를 공부할 때 실기 합격 후기들을 검색해 본 결과 대부분 합격자 분들이 '퇴근후 딴짓'님의 자료로 공부를 하여 합격하였다는 것을 확인하였습니다. 그러나 도서가 존재하지 않아 모두 컴퓨터로 코드를 따라 작성하며 공부했다는 사실을 확인하였습니다. 저는 자격증 공부를 포함하여 공부를 할 때 도서에 정리하며 학습하는 것을 선호하기 때문에, '우선 필기부터 붙고 난 다음 생각해 보자.'는 마음가짐으로 필기시험을 공부하였습니다.
필기 시험에 합격하고 다시 한번 yes24에서 인기가 많은 도서를 찾아보던 중 시나공 빅데이터 분석기사 실기 책을 찾을 수 있었습니다. 상세 정보를 확인하니 퇴근후 딴짓님이 집필하셨다는 사실을 확인하고 다른 합격자 분들처럼 한 번에 합격하기 위하여 바로 교재를 구입 후 공부하였습니다.
공부 방법
우선 저는 자격증 공부를 위한 2주의 시간이 있었기 때문에, 이론부터 꼼꼼히 학습하기에는 무리가 있다고 생각하였습니다. 그래서 기출문제에 중점을 두고 모든 문제를 푸는 것을 목표로 정한 후 공부하였습니다. 다양한 문제들을 시간 내로, 오류 없이, 완벽하게 외우겠다는 마음가짐으로 목표 달성을 위해 공부하였습니다. 책에는 기출문제가 제2회부터 가장 최신인 8회 문제까지 수록되어 있었습니다. 최신 문제일수록 더 중요하다고 생각하여 제8회부터 역순으로 문제를 풀었습니다.
공부 시간
저는 매일 최소 3시간은 공부했습니다. 똑같은 코드를 계속해서 반복하여 작성하는 연습을 했기 때문에 이에 익숙해져서 시험날짜가 다가올수록 더 빠르게 많은 양을 공부할 수 있었습니다. 하루에 8시간씩 띄엄띄엄 일주일 공부하는 것보다는 매일매일 조금씩 자주 공부 하는 것을 추천드립니다. 하루 이틀 코드 작성하는 것을 쉬다보면 까먹기 때문에 다시 공부해야 해서 더 비효율적일 것입니다.
도서 장점
시나공 빅분기 실기 도서는 이론 설명과 함께 코드로는 어떻게 작성하는지에 대해 꼼꼼하게 나와 있어서 모르는 용어가 있을 때 많은 도움이 되었습니다. 그리고 기출문제 부분에서 한 가지의 코드 예제만 알려주는 것이 아니라, 다양한 방법의 풀이를 알려주어 유용했습니다.
이 중 가장 유용했던 것은 오류에 대한 설명이었습니다. 평소처럼 Xgboost를 사용하여 제 2유형 문제를 풀고 있는데, 오류가 발생하여 당황했던 기억이 있습니다. 이때 책을 확인해 보니, Xgboost의 분류 모델의 경우 target의 값이 0부터 시작하지 않으면 오류가 발생한다는 설명이 세세하게 작성되어 있었습니다.
책의 설명처럼 실제로 target 값을 1부터 1, 2, 3.. 순서대로 작성되어 있었고 이를 0부터 시작하도록 변경하는 방법과 실제 예측값을 작성하기 위해 복구하는 코드도 작성되어있었습니다. 이렇게 초보자에게 친절하고, 세세하게 작성되었다는 점이 시나공 빅분기 책의 가장 큰 장점이라고 생각합니다.
꿀팁
제 1유형, 제2 유형
또 인코딩할 때, 예시로 df 데이터프레임의 test열을 인코딩한다고 하면, 아래 코드와 같이 대괄호를 두 번씩 작성해 주어야 합니다. 대괄호를 한 번만 작성하면 데이터 프레임이 아닌 시리즈 형태가 되고, 시리즈 형태가 되면 인코딩을 할 수 없기 때문에 오류가 발생합니다.
from sklearn.preprocessing import LabelEncoding
le = LabelEncoding()
df['test'] = le.fit_transform(df[['test']]) # 대괄호 주의
제2 유형
제2 유형에서 모델을 작성할 때, RandomForest, lightgbm, xgboost 등 다양한 모델을 사용합니다.
이때 예측하려는 데이터가 분류형 데이터인지, 연속형(회귀) 데이터 인지 잘 확인해야 합니다.
예측하려는 값이 0, 1, 2.. 와 같은 형식이라면 같은 RandomForest 모델을 사용하더라고 RandomForestClassifier를 사용해야 하고, 예측하려는 값이 124.234, 5423와 같은 값이라면 RandomForestRegressor 모델을 사용해야 합니다. 만약 시험에서 잘못 사용할 경우 모델 값을 제대로 예측하지 못하기 때문에 낮은 점수로 불합격할 수도 있을 것입니다.
그리고 Logistic Regression 모델은 이름과 달리 분류형 데이터 예측에 사용된다는 사실을 기억해 두세요!
모든 유형을 학습할 때, 기출문제만 기준으로 답을 작성하지 마시고, 스스로 생각하고 코드를 작성하는 능력을 기르면 시험에 많은 도움이 될 것 같습니다. 예를 들어 기출문제에는 df 데이터프레임의 학교 기준 학생 수를 계산하여 가장 학생 수가 많은 학교를 출력하시오.라는 문제가 있다면, 스스로 학교와 학년을 기준으로 학생 수를 계산해 보는 등 다양한 코드를 작성해 보는 것을 추천드립니다. 실제로 제9회 문제에서 이와 유사하게 두 가지의 기준으로 그룹화하여 계산하는 문제가 출제되었습니다.
저의 경우에는 2주 동안 기출문제를 매일 코드예제를 따라 작성하며 공부하였고, 모르는 부분이 있을 때는 책 앞부분의 이론 페이지를 참조하며 학습하였습니다. 시간적 여유가 있으신 분들은 기출문제만 학습하는 것이 아닌, 앞부분에 꼼꼼하게 작성된 이론 부분과 다양한 예제 부분을 직접 코드로 작성하며 공부하시길 바랍니다. 저도 기출문제에서 학습한 부분은 다 맞아서 합격할 수 있었지만, 제9회 시험의 경우 기출문제 외에도 처음 보는 문제들이 몇 개 있었습니다. 그래서 꼭! 꼭! 책을 꼼꼼히 읽어보시고 연습하시는 것을 추천드립니다.
저도 처음에 연습할 때에는 완벽히 다 외웠다고 생각했는데 계속 오류가 나서 확인해 본 결과 괄호를 작성하지 않아서 오류가 발생한 적이 굉장히 많았습니다. 이와 같이 실기 코드를 작성할 때, 분명 다 외웠다고 생각했지만 실제로 코드를 작성하려고 하면 기억이 나지 않거나, 잘못 작성하여 오류가 발생하는 경우가 빈번히 나타날 수 있습니다. 이를 대비하여 시나공 페이지에 실습 코드가 준비되어 있으니, 책을 눈으로만 읽지 마시고, 스스로 답안 없이 코드를 작성하고 실행시킬 수 있을 때까지 직접 작성해 보시길 바랍니다.
빅데이터분석기사의 경우, 초반과 달리 제1유형의 단답형 문제가 사라지고, 제1유형부터 제3유형까지 모든 문제를 코드로 작성하여 풀어야 하기 때문에 최신 개정판인 2025년 시나공 빅데이터분석기사 실기 책을 추천드립니다!
합격 인증
시험 점수가 12월 13일에 발표되었는데, 80점으로 합격 결과가 나왔습니다~!
최종 결과와 인증번호는 12월 20일에 발표된다고 하니 더 기다려야겠습니다.
열심히 공부하시는 여러분 모두 빅데이터분석기사 시험에 합격하시기를 바랍니다!