빅데이터 분석기사 7회 실기 후기
난이도는 중으로 총평하자면 그리 어렵지는 않았습니다.
코드 공부를 잘해 갔다면, 어렵지 않게 합격 하셨을 것입니다.
장소
빅데이터 분석기사 실기를 치룬 이젠아카데미컴퓨터학원 신촌캠퍼스입니다.
장소는 구별로 선택 가능하고, 저는 거주지와 가까운 이곳을 골랐습니다.
https://naver.me/5uxi4HBH
이젠아카데미컴퓨터학원 신촌캠퍼스 : 네이버
방문자리뷰 34
m.place.naver.com
장소는 신촌역 4번 출구 도보 5분 거리 신촌 이젠아카데미컴퓨터학원이며, 컴퓨터 코딩을 가르쳐주는 학원입니다.
부끄럽게도 빅데이터 분석기사 실기 2번째 보는데, 이전 시험장은 학원 안에서 대기할 수 있었는데,
이젠아카데미는 9시 정각에 들여보내줘서 9시 정각에 입장했습니다!
시험문항
시험은 1~6번까지 큰 문제 6문제로 출제되었고, 큰 문제 안에 작은 문제가 들어있어 총 11문제로 구성되었습니다.
1~3번이 큰문항 10점짜리 문제였고, 4번이 40점짜리 한 문제, 5~6번이 각 5점짜리 소문항 3개가 있던 문제였습니다.
1번은 시험 데이터를 주고 응시자 수가 시험장의 응시자 수의 평균?을 구하는 문제였습니다.
데이터를 그룹화하고 합을 내여 답을 구하는 문제여서, R 기준 group by로 그룹화하고, Summarise로 그룹합을 내여 가장 응시장이 많은 응시장을 구하고, 그 이후에 응시자 수의 평균을 구했던 걸로 기억합니다.
R dplyr 패키지나 파이썬 Pandas 패키지를 다뤄보셨다면 무난하게 풀 수 있었던 문제였고,
1번 ~을 실행하시오, 2번 ~를 추출하시오와 같이 수행 순서가 문제에 적혀 있었어서 순서대로 풀이하는데는 큰 어려움은 없었습니다.
다만 문제 풀이 중 수행 순서 상으로 하면 쓰임이 없는 변수가 있었는데, 그 변수를 문제 풀이시 쓰는것은 본인 선택이라 헷갈렸습니다.
2번은 상관관계를 구하는 문제였습니다.
2번은 변수 간 상관관계를 구하여 Y변수와 가장 상관관계가 높은 변수의 상관계수를 프린트 하는 문제였습니다.
상관관계를 구하고 이를 데이터 프레임화하여 가장 높은 상관계수를 프린트하는 문제로 그리 어려운 문제는 아니였습니다.
3번은 데이터 이상치 추출 문제가 나왔습니다.
데이터 이상치의 기준(Q1-1.5*IQR or Q3+1.5*IQR) 을 주고, 이상치에 해당하는 데이터의 갯수를 구하는 문제였던 거 같습니다.
저는 R을 사용해서 아래와 비슷하게 풀었던거 같고, 크게 어렵지는 않았습니다.
a %>% filter(!(a$Age>quantile(a$Age,0.75)+1.5*IQR(a$Age)|a$Age<quantile(a$Age,0.25)-1.5*IQR(a$Age)))
빅데이터 실기 준비 시에 연습문제로 많은 도움을 받았던 '퇴근후 딴짓'님의 캐글 링크로 들어가면 IQR 관련 예시 문제 풀어보실 수 있습니다.
R : https://www.kaggle.com/code/limmyoungjin/r-t1-1-iqr-expected-questions-2/notebook
[R] T1-1. 이상치를 찾아라(IQR활용) Expected Questions_2회독
Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources
www.kaggle.com
파이썬 : https://www.kaggle.com/agileteam/py-t1-1-iqr-expected-questions
[py] T1-1. 이상치를 찾아라(IQR활용) Expected Questions
Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources
www.kaggle.com
4번은 모의고사 작업형 2번과 같은 일반적인 예측 문제였습니다.
데이터가 어떤 데이터였는지 기억은 나지 않지만, 데이터의 결측이 없었고, 이상치가 많지 않아서 비교적 깔끔한 데이터셋이였습니다.
예측 성능 평가 기준은 RMSE로 평가한다고 하였고, '퇴근후 딴짓'님 캐글에 올라온 하단 예시문제 몇개 풀어보고 가면 좋은 점수 받으실거 같습니다.
T2-3. Adult Census Income (Classification) / 성인 인구소득 예측
P: https://www.kaggle.com/agileteam/t2-3-adult-census-income-tutorial
R: https://www.kaggle.com/limmyoungjin/r-t2-3-adult-census-income
T2-4. House Prices (Regression) / 집값 예측 / RMSE
P: https://www.kaggle.com/code/agileteam/t2-4-house-prices-regression
P: https://www.kaggle.com/code/agileteam/house-prices-starter-xgb (XGB 시작하기)
R: https://www.kaggle.com/limmyoungjin/r-t2-4-house-prices
T2-5. Insurance Forecast (Regression) /
P: https://www.kaggle.com/agileteam/insurance-starter-tutorial
R: https://www.kaggle.com/limmyoungjin/r-t2-5-insurance-prediction
T2-6. Bike-sharing-demand (Regression) / 자전거 수요 예측 / RMSLE
P: https://www.kaggle.com/code/agileteam/t2-6-bike-regressor
R: https://www.kaggle.com/limmyoungjin/r-t2-6-bike-sharing-demand
5번은 소문항 3개로 구성된 문제였고, 로지스틱 회귀분석 관련 문제였습니다.5-1번은 로지스틱 회귀분석 모델링을 하여 오즈비를 구하는 문제였고, 모의고사 작업형 3-3번과 비슷한 문제였습니다.
모의고사 작업형 3-3 링크 : https://url.kr/paimlw
구름EDU - 모두를 위한 맞춤형 IT교육
구름EDU는 모두를 위한 맞춤형 IT교육 플랫폼입니다. 개인/학교/기업 및 기관 별 최적화된 IT교육 솔루션을 경험해보세요. 기초부터 실무 프로그래밍 교육, 전국 초중고/대학교 온라인 강의, 기업/
edu.goorm.io
다만 일반적인 오즈비보다 변수가 남자일때 ~ 뭐 이런 조건이 있었던 걸로 기억합니다.
5-2번은 잔차이탈도(Residual Deviance) 구하는 문제였던걸로 기억합니다.
로지스틱 회귀 모델링을 진행하고, summary(model)로 나온 잔차 이탈도를 프린트하는 문제였습니다.
5-3번은 회귀계수 구하는 문제였던걸로 기억하는데, 정확히 기억이 안나네요..
6번은 소문항 3개로 구성된 문제였고, 회귀분석 관련 문제였습니다.
6-1번은 회귀분석 모델링을 통해 결정계수 구하는 문제였고,
6-2번은 회귀계수의 pvalue를 구하는 문제였습니다.
위와 같은 회귀계수 중 가장 큰 pvalue를 프린트하는 문제였던거 같습니다.
6-3번은 잔차를 구하는 문제였던 거 같은데, 이 또한 기억이 안나네요..
요약하자면, 개인차가 있겠지만, 1~4, 6번은 무난히 풀 수 있던 문제였고, 5번이 조금 어려웠던 거 같습니다. 성적 확인은 13일 후인 15일부터 19일까지 가능하고, 최종결과발표는 22일에 진행한다고 하네요.
응시하셨던 분들 모두 좋은 결과 있으셨으면 좋겠습니다! 이상으로 빅데이터 분석기사 7회 실기 후기였습니다.
'자격증' 카테고리의 다른 글
[자격증] 빅데이터 분석기사 소개 (1) | 2024.03.09 |
---|