31회 기출문제
2023.11.04
머신러닝 1
| row | Unnamed: 0 | id | Gender | Age | Height | Weight | family_history_with_overweight | FAVC | FCVC | NCP | CAEC | SMOKE | CH2O | SCC | FAF | TUE | CALC | MTRANS | NObeyesdad | BMI |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 0 | 4 | male | 27 | 1.8 | 87 | no | no | always | 3 | sometimes | no | between 1 and 2 l | no | 2 to 4 | 0 to 2 | frequently | walking | overweight_level_i | 26.85185185 |
| 1 | 1 | 11 | male | 26 | 1.85 | 105 | yes | yes | always | 3 | frequently | no | more than 2 l | no | 2 to 4 | >5 | sometimes | public_transportation | obesity_type_i | 30.67932798 |
| 2 | 2 | 14 | male | 41 | 1.8 | 99 | no | yes | sometimes | 3 | sometimes | no | between 1 and 2 l | no | 2 to 4 | 3 to 5 | frequently | automobile | obesity_type_i | 30.55555556 |
| 3 | 3 | 18 | female | 29 | 1.53 | 78 | no | yes | sometimes | 1 | sometimes | no | between 1 and 2 l | no | 0 | 0 to 2 | no | automobile | obesity_type_i | 33.32051775 |
| 4 | 4 | 20 | female | 23 | 1.65 | 70 | yes | no | sometimes | 1 | sometimes | no | between 1 and 2 l | no | 0 | 0 to 2 | sometimes | public_transportation | overweight_level_i | 25.71166208 |
EDA & 결측치 및 이상치를 판단하고 처리하라
데이터 전처리 기법 2가지를 설명하고 주어진 데이터에 적용시 어떤 효과가 있는지 설명하라
피쳐 엔지니어링을 통해 파생변수 1개를 생성하고 그 이유를 말하라
앙상블을 제외한 분류 모델 3가지 구축 및 결과 비교 및 설명하라
1-4에서 사용한 모델 중 하나를 골라 그리드 서치를 통해서 파라미터 튜닝 및 분류 모델 성능 평가 (precision ,recall)
1-4의 3가지 모델을 soft voting을 이용하여 모델링 한 결과와 1-5와 비교하라
하나의 모델을 선정하여 Drop Column Importance 방식으로 각 변수 별로 전체 컬럼을 포함한 모델과의 recall 값의 차이를 계산하고 시각화 하라
머신러닝 2
| row | ID | 키 | weight | 생년월일 | 건강검진일 | 공학여부 | 채소섭취정도 | 아침식사여부 | 일주일운동시간 | 수면시간 | 성별 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | ID_4135 | 169.01 | 65.47 | 20041003 | 2020_11_15 | 1 | 2 | 1 | 4.4 | 8.3 | 남성 |
| 1 | ID_3289 | 181.62 | 69.36 | 19970725 | 2014_11_20 | 0 | 3 | 0 | 4.4 | 6.9 | 남성 |
| 2 | ID_1847 | 160.89 | 65.12 | 20020921 | 2020_01_28 | 1 | 1 | 1 | 1.7 | 9.6 | 여성 |
| 3 | ID_4785 | 162.21 | 62.28 | 20020106 | 2018_09_27 | 1 | 4 | 0 | 5.1 | 6.8 | 남성 |
| 4 | ID_5693 | 159.13 | 54.11 | 19980708 | 2015_03_03 | 0 | 4 | 1 | 0.3 | 8.5 | 여성 |
아래의 기준으로 전처리를 하여 적정 체중 여부 컬럼을 생성하고 BMI를 5단위로 구분하여 와 적정 체중여부에 대한 빈도 표를 만들어라
2-1에서 구한 적정 체중 여부와 나머지 컬럼(공학여부, 아침식사여부, 일주일운동시간, 채소섭취정도, 수면시간, 성별) 이 독립적인지 통계적으로 확인하라
2-2에서 유의한 변수들만 가지고 적정 체중 여부를 예측하는 모델을 구현하고 성능 평가 및 해석을 하라 (로지스틱회귀 ,xgb)
2-3 두 모델의 roc-auc 그래프를 하나의 그래프에 겹쳐 그려라
통계 1
평균이 𝜃이고 분산이 100인 정규분포의 사전분포가 100, 256일때 120의 값을 가지는 데이터가 있을 경우 사후평균은?
통계 2
| row | TV | Radio | Newspaper | Sales |
|---|---|---|---|---|
| 0 | 230.1 | 37.8 | 69.2 | 22.1 |
| 1 | 44.5 | 39.3 | 45.1 | 10.4 |
| 2 | 17.2 | 45.9 | 69.3 | 12.0 |
| 3 | 151.5 | 41.3 | 58.5 | 16.5 |
| 4 | 180.8 | 10.8 | 58.4 | 17.9 |
회귀 모델링 후 유의하지 않는변수 파악
변수 선택시 먼저 제거 될 변수 및 근거 제시
VIF를 통한 다중공선성 진단
통계 3
| row | Unnamed: 0 | A | B | C | D | E |
|---|---|---|---|---|---|---|
| 0 | contract_1 | 1 | 0 | 1 | 1 | 1 |
| 1 | contract_2 | 0 | 1 | 0 | 1 | 0 |
| 2 | contract_3 | 1 | 0 | 0 | 0 | 0 |
| 3 | contract_4 | 0 | 1 | 1 | 1 | 1 |
| 4 | contract_5 | 0 | 1 | 0 | 1 | 0 |
데이터 링크 : 데이터 설명 : A,B,C,D,E 영업사원의 각 계약 성사 유무 (1:계약 , 0:미계약) 를 나타낸 데이터이다. 영업사원의 평균 계약 성사 건수는 같은지 통계 검정하라
통계 4
유기견이 하루에 2.2마리 발생한다. 한마리도 한 버려질 확률
유기견이 하루에 2.2마리 발생한다. 적어도 2마리가 버려질 확률
문제를 확인했다면 바로 실기 워크스페이스로 넘어가세요
기출 문서를 읽은 뒤에는 동일한 ADP 실기 환경에서 바로 회차를 선택하고 코딩을 이어서 진행할 수 있습니다.