28회 기출문제

실기 시험일자

2023.03.12

머신러닝 1

데이터셋
데이터 미리보기
rowsexagepstatusmedufeduguardiantraveltimestudytimefailuresfreetimefamrelabsences
0F18A44mother220342
1F17T11father120351
2F15T11mother123343
3F15T42mother130230
4F16T33father120341
1-1

데이터 출처 : 후처리 데이터 링크 : 데이터 설명 : 학생의 다양한 주변 환경에 따른 결석 등급 (absences) sex : 성별 (F : 여성 / M :남성) age : 나이 pstatus : 부모와 동거 유무 (T : 동거중 , A : 별거) medu : 어머니 교육(0 - 없음, 1 - 초등 교육(4학년… EDA를 진행하고 (+시각화) , 차원축소의 필요성이 있는지 확인 (5점)

1-2

데이터 출처 : 후처리 데이터 링크 : 데이터 설명 : 학생의 다양한 주변 환경에 따른 결석 등급 (absences) sex : 성별 (F : 여성 / M :남성) age : 나이 pstatus : 부모와 동거 유무 (T : 동거중 , A : 별거) medu : 어머니 교육(0 - 없음, 1 - 초등 교육(4학년… 데이터 품질 개선을 위한 방법이 있는지 찾고 데이터셋을 재생성하라 (5점)

1-3

데이터 출처 : 후처리 데이터 링크 : 데이터 설명 : 학생의 다양한 주변 환경에 따른 결석 등급 (absences) sex : 성별 (F : 여성 / M :남성) age : 나이 pstatus : 부모와 동거 유무 (T : 동거중 , A : 별거) medu : 어머니 교육(0 - 없음, 1 - 초등 교육(4학년… 1.2에서 제시한 방법이 데이터 과적합이 된다는 가정하에 어떻게 해결할 수 있을지 2가지 개선안 제시, 각방법들의 장단점 기술 (10점)

1-4

1-2 데이터셋을 기준으로 random forest, neural network , lightgbm 3가지 방식으로 학교 결석 횟수등급을 예측하는 모델을 만들어라, f1 score로 모델을 평가하라 (5점)

1-5

hard voting, soft voting에 대한 장단점을 설명하고 1-4의 3가지 모델로 구현하라. 두 방식의 f1-score를 비교하라 (10점)

1-6

총 5개 모델(RF, NN, LGBM, 하드보팅, 소프트보팅) 중 실시간 온라인 시스템에 가장 적합한 모델과 선정이유를 객관적으로 제시하라 (5점)

1-7

적정 모델과 선정 및 모델링 과정에서 추가적으로 고려해볼 만한 사항은? (5점)

1-8

모델을 학교 시스템에 적용하여 활용하려한다. 모델 적용 및 운영과정에서 고려해볼 만한 사항? (5점)

통계 1

데이터셋
데이터 미리보기
rowtime(month)statuscompany
01event lostX
12event lostX
23event lostX
34event lostX
45event lostX
1-1

데이터 url : status : 생존 여부 (death: 죽음 / event lost: 생존) company : 회사구분 Kaplan Meier 방법 사용 생존분석 수행. 회사부품별 25, 35, 45 개월에서의 생존 확률 (소숫점 3자리 ,5점)

1-2

데이터 url : status : 생존 여부 (death: 죽음 / event lost: 생존) company : 회사구분 두 회사간 생존시간 차이를 log-rank 방식으로 검정하시오. 가설설정, 통계량, 귀무가설 기각여부 판단(10점)

통계 2

데이터셋
데이터 미리보기
rowdatauserId
0시식전_유__시식후_유user_1
1시식전_유__시식후_유user_2
2시식전_유__시식후_유user_3
3시식전_유__시식후_유user_4
4시식전_유__시식후_유user_5
2-1

데이터 url: data형식 한 유저가 시식 전 물건 구매의사 유,무와 시식 후 구매의사 유,무에 대한 응답을 나타낸 데이터 {시식전} _ {구매의사 유 or 무} __ {시식후} _ {구매의사 유 or 무} 시식여부가 구매의사에 영향을 주는지 가설을 설정하시오(5점)

2-2

데이터 url: data형식 한 유저가 시식 전 물건 구매의사 유,무와 시식 후 구매의사 유,무에 대한 응답을 나타낸 데이터 {시식전} _ {구매의사 유 or 무} __ {시식후} _ {구매의사 유 or 무} 검정하고 결과를 분석하시오(5점)

통계 3

데이터셋
데이터 미리보기
rowscoreschool_nameID
091.0A1
1nanA2
2nanA3
3nanA4
4nanA5
3-1

A,B 지역 학생의 점수에 차이가 있는지 가설을 설정하고 정하시오 (10점) dataurl :

통계 4

데이터셋
데이터 미리보기
rowageCholesterolweight
065.069.0111.0
154.0117.081.0
261.086.272.0
357.076.078.0
462.0160.061.0
4-1

몸무게를 제어한다고 생각하고, 나이와 콜레스테롤 상관계수 및 유의확률 구하라(10점) 데이터 출처 : 데이터 url : 연령, 몸무게,콜레스테롤 수치 데이터

4-2

상관계수를 유의수준 0.05하에서 검정하라 (5점)

Next Step

문제를 확인했다면 바로 실기 워크스페이스로 넘어가세요

기출 문서를 읽은 뒤에는 동일한 ADP 실기 환경에서 바로 회차를 선택하고 코딩을 이어서 진행할 수 있습니다.