ADsP 44회 시험 총평! 합격 전략과 핵심 포인트 완벽 정리
ADSP 44회 시험 총평 및 주요 논란 문제 해설 (민규 44회)
안녕하세요, 아댑터 채널 민규입니다. ADSP 44회 시험 보느라 정말 고생 많으셨어요! 제가 작년 40회부터 ADSP 시험 총평 영상을 계속 올리고 있는데, 이번 44회는 정말 할 말이 너무 많아서 평소보다 더 빨리 영상을 준비하게 됐어요. 보통 시험 보고 하루 이틀 뒤에 분석해서 올리는데, 이번엔 빨리 여러분들께 알려드리고 싶은 마음이 컸거든요. 왜 그랬는지, 시험 보신 여러분들은 잘 아실 거라고 생각합니다.
난이도 분석
이번 시험 난이도는 어려웠습니다. 제가 유튜브에 ADSP 강의를 올리기 시작한 지 약 1년이 되었고, 총평은 이번이 다섯 번째인데, 매번 시험 문제가 조금씩 지역적으로 나오는 경향이 있어요. 그래서 공부할 필요가 더 생겼다고 볼 수 있죠.
하지만 여러분들이 기출에 집중하고 자주 나오는 것들 위주로 개념을 잘 잡고 공부하셨다면 60점 넘기는 어렵지 않은 시험이었어요. 실제로 합격률도 매 시험마다 거의 50% 정도 나왔거든요. 즉, 두 명 중 한 명은 붙는 시험이었죠.
그런데 이번에는 좀 다릅니다. 이번 시험은 어려웠고, 합격률이 40%대 안으로 나올 수도 있다고 생각해요. 물론 전공자나 공부를 열심히 하신 분들은 당연히 붙으셨겠지만, 비전공자분들이나 벼락치기로 공부하신 분들은 좀 어려움을 겪으셨을 수 있어요.
앞으로 데이터 자격 검정 기관에서 시험 문제를 계속 어렵게 낼 방침이라면, 벼락치기보다는 지역적인 부분까지 꼼꼼하게 공부해서 한 번에 붙는 리스크를 줄이는 것이 필요할 것 같습니다.
논란의 문제들
시험이 어려웠던 만큼 복원이 완벽하게 되지는 않았지만, 논란이 되는 문제들을 몇 가지 가져와서 제 생각을 말씀드릴게요. 저는 시험장에 직접 들어가서 문제를 풀지 않았기 때문에 정확한 내용은 아니지만, 여러분들이 복원해주신 내용을 바탕으로 참고하시라고 설명드리는 점 이해해주세요.
1. 시계열 데이터 정상화 방법으로 옳지 않은 것은?
- 정상화란? 시계열 데이터의 평균과 분산을 일정하게 만들어 분석하기 쉬운 상태로 만드는 거예요. 특성이 계속 똑같아야 하죠.
-
정상화 방법:
- 차분: 이건 무조건 필수예요. 이걸 고르셨다면 공부를 하나도 안 하신 분이라고 봐야 해요.
- 정규화: 데이터를 0~1 사이로 바꾸는 거죠. 하지만 점점 커지는 데이터의 경우, 정규화를 해도 분산이 커지는 느낌은 그대로 남아있어서 정상화에 큰 도움이 될지는 의문이에요.
- 이상치 제거: 튀는 데이터를 제거하면 분산이 안정화되어 정상화에 도움이 됩니다. 무빙 에버레이지 기법도 마찬가지고요.
- 구간 분할: 데이터를 구간별로 나누면 각 구간의 평균과 분산이 일정해져 정상화로 볼 수 있습니다.
-
제 생각: 정규화가 정상화에 가장 큰 도움이 되지 않을 가능성이 높다고 봅니다.
2. KNN 관련 문제 (과적합 관련)
- KNN 모델: 주변의 가까운 데이터들을 보고 결정하는 '게으름 모델'이에요. 학습이 필요 없고, 새로운 데이터가 들어오면 거리만 계산하면 됩니다.
- 과적합: 모델이 특정 데이터에만 너무 특화되어 일반화가 안 되는 현상이에요.
-
K값: K값이 작을수록 특정 부분만 보기 때문에 과적합될 가능성이 높아집니다. K값이 너무 작으면 모델을 제대로 대변하지 못해 과소적합될 수도 있고요.
-
제 생각: K값이 클수록 과적합 가능성이 높아진다는 설명은 틀렸고, K값이 작을수록 과적합 가능성이 높다고 보는 것이 맞습니다.
3. 연관분석 향상도 계산 문제
이 문제는 복원된 내용만으로는 정확한 의도를 파악하기 어렵지만, 두 가지 해석이 가능해 보입니다.
- 해석 1: 일반적인 벤다이어그램 방식으로 계산했을 때 답이 나오지 않았습니다.
-
해석 2: 전체 방문자 중 A, B를 방문한 사람 수를 고려하여 계산했을 때 답이 나오는 경우가 있습니다.
-
제 생각: 만약 두 번째 해석이 문제의 의도였다면, 복수 정답 처리가 필요하다고 봅니다. 문제 검수 과정에서 이런 오류가 나올 수 있다는 점은 안타깝습니다.
4. 교호작용 관련 문제
- 교호작용: 어떤 요인이 다른 요인의 결과에 미치는 영향이 달라지는 현상이에요. 예를 들어, 유전과 비만이 고혈압에 미치는 영향이 각각 다르고, 둘이 같이 있을 때 더 큰 영향을 미치는 경우죠.
- 통계적으로 유의하지 않다: 교호작용이 없다는 뜻이고, 이는 두 집단 간의 영향이 동일하다는 말과 같습니다.
-
모델 해석: 교호작용이 유의하지 않다면 해당 항은 제거하고, 남은 변수들로 모델을 해석해야 합니다.
-
제 생각: 교호작용이 통계적으로 유의하지 않다는 말과 두 집단이 다를 때의 임금이 미치는 영향이 동일하다는 말은 같은 의미입니다. 따라서 이 두 가지는 답이 될 수 없습니다. 남은 변수들을 가지고 모델을 해석했을 때, y 절편이 다른 경우가 답이 될 가능성이 높습니다.
앞으로의 준비 방향
이번 시험을 통해 ADSP 시험이 점점 어려워지고 있다는 것을 알 수 있습니다. 45회 시험이나 그 이후를 준비하시는 분들은 기출문제뿐만 아니라 지역적인 부분까지 꼼꼼하게 공부하고, 개념을 전체적으로 이해하려고 노력해야 합니다.
제 채널의 영상들도 계속 개선해나가고, 앞으로 시험 경향에 맞춰 요약 강의 내용을 전면 개편하는 것도 고려하고 있습니다. 다만, 내용이 추가되면 책이 되는 것이고, 강의를 무료로 제공할 수 없을 수도 있다는 점은 미리 말씀드립니다.
어쨌든 여러분들의 합격을 위해 최선을 다하겠습니다. 다시 한번 시험 보느라 고생 많으셨습니다!