31회 기출문제

실기 시험일자

2023.11.04

머신러닝 1

데이터셋
데이터 미리보기
rowUnnamed: 0idGenderAgeHeightWeightfamily_history_with_overweightFAVCFCVCNCPCAECSMOKECH2OSCCFAFTUECALCMTRANSNObeyesdadBMI
004male271.887nonoalways3sometimesnobetween 1 and 2 lno2 to 40 to 2frequentlywalkingoverweight_level_i26.85185185
1111male261.85105yesyesalways3frequentlynomore than 2 lno2 to 4>5sometimespublic_transportationobesity_type_i30.67932798
2214male411.899noyessometimes3sometimesnobetween 1 and 2 lno2 to 43 to 5frequentlyautomobileobesity_type_i30.55555556
3318female291.5378noyessometimes1sometimesnobetween 1 and 2 lno00 to 2noautomobileobesity_type_i33.32051775
4420female231.6570yesnosometimes1sometimesnobetween 1 and 2 lno00 to 2sometimespublic_transportationoverweight_level_i25.71166208
1-1

EDA & 결측치 및 이상치를 판단하고 처리하라

1-2

데이터 전처리 기법 2가지를 설명하고 주어진 데이터에 적용시 어떤 효과가 있는지 설명하라

1-3

피쳐 엔지니어링을 통해 파생변수 1개를 생성하고 그 이유를 말하라

1-4

앙상블을 제외한 분류 모델 3가지 구축 및 결과 비교 및 설명하라

1-5

1-4에서 사용한 모델 중 하나를 골라 그리드 서치를 통해서 파라미터 튜닝 및 분류 모델 성능 평가 (precision ,recall)

1-6

1-4의 3가지 모델을 soft voting을 이용하여 모델링 한 결과와 1-5와 비교하라

1-7

하나의 모델을 선정하여 Drop Column Importance 방식으로 각 변수 별로 전체 컬럼을 포함한 모델과의 recall 값의 차이를 계산하고 시각화 하라

머신러닝 2

데이터셋
데이터 미리보기
rowIDweight생년월일건강검진일공학여부채소섭취정도아침식사여부일주일운동시간수면시간성별
0ID_4135169.0165.47200410032020_11_151214.48.3남성
1ID_3289181.6269.36199707252014_11_200304.46.9남성
2ID_1847160.8965.12200209212020_01_281111.79.6여성
3ID_4785162.2162.28200201062018_09_271405.16.8남성
4ID_5693159.1354.11199807082015_03_030410.38.5여성
2-1

아래의 기준으로 전처리를 하여 적정 체중 여부 컬럼을 생성하고 BMI를 5단위로 구분하여 와 적정 체중여부에 대한 빈도 표를 만들어라

2-2

2-1에서 구한 적정 체중 여부와 나머지 컬럼(공학여부, 아침식사여부, 일주일운동시간, 채소섭취정도, 수면시간, 성별) 이 독립적인지 통계적으로 확인하라

2-3

2-2에서 유의한 변수들만 가지고 적정 체중 여부를 예측하는 모델을 구현하고 성능 평가 및 해석을 하라 (로지스틱회귀 ,xgb)

2-4

2-3 두 모델의 roc-auc 그래프를 하나의 그래프에 겹쳐 그려라

통계 1

1-1

평균이 𝜃이고 분산이 100인 정규분포의 사전분포가 100, 256일때 120의 값을 가지는 데이터가 있을 경우 사후평균은?

통계 2

데이터셋
데이터 미리보기
rowTVRadioNewspaperSales
0230.137.869.222.1
144.539.345.110.4
217.245.969.312.0
3151.541.358.516.5
4180.810.858.417.9
2-1

회귀 모델링 후 유의하지 않는변수 파악

2-2

변수 선택시 먼저 제거 될 변수 및 근거 제시

2-3

VIF를 통한 다중공선성 진단

통계 3

데이터셋
데이터 미리보기
rowUnnamed: 0ABCDE
0contract_110111
1contract_201010
2contract_310000
3contract_401111
4contract_501010
3-1

데이터 링크 : 데이터 설명 : A,B,C,D,E 영업사원의 각 계약 성사 유무 (1:계약 , 0:미계약) 를 나타낸 데이터이다. 영업사원의 평균 계약 성사 건수는 같은지 통계 검정하라

통계 4

4-1

유기견이 하루에 2.2마리 발생한다. 한마리도 한 버려질 확률

4-2

유기견이 하루에 2.2마리 발생한다. 적어도 2마리가 버려질 확률

Next Step

문제를 확인했다면 바로 실기 워크스페이스로 넘어가세요

기출 문서를 읽은 뒤에는 동일한 ADP 실기 환경에서 바로 회차를 선택하고 코딩을 이어서 진행할 수 있습니다.