29회 기출문제
2023.06.03
머신러닝 1
| row | 순번 | 계약구분 | 재계약횟수 | 거주개월 | 아파트 이름 | 아파트 ID | 아파트 평점 | 호실고유번호 | 층 | 평형대 | 계약자고유번호 | 계약서고유번호 | 입주연도 | 퇴거연도 | 거주연도 | 월세(원) | 보증금(원) | 대표나이 | 나이 | 성별 | 결혼여부 | 거주자 수 | 퇴거여부 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 1 | 유효 | 10 | 222 | 강남아파트 | 5 | 7.0 | 14520 | 1 | 12 | 15468 | 15865 | 2003 | nan | 2008 | 47100 | 3646000 | 46 | 33 | 남 | 미혼 | 3 | 미퇴거 |
| 1 | 1 | 유효 | 10 | 222 | 강남아파트 | 5 | 7.0 | 14520 | 1 | 12 | 15468 | 15865 | 2003 | nan | 2009 | 56500 | 4375000 | 46 | 34 | 남 | 미혼 | 3 | 미퇴거 |
| 2 | 1 | 유효 | 10 | 222 | 강남아파트 | 5 | 7.0 | 14520 | 1 | 12 | 15468 | 15865 | 2003 | nan | 2010 | 56500 | 4375000 | 46 | 35 | 남 | 미혼 | 3 | 미퇴거 |
| 3 | 1 | 유효 | 10 | 222 | 강남아파트 | 5 | 7.0 | 14520 | 1 | 12 | 15468 | 15865 | 2003 | nan | 2011 | 69900 | 5408000 | 46 | 36 | 남 | 미혼 | 3 | 미퇴거 |
| 4 | 1 | 유효 | 10 | 222 | 강남아파트 | 5 | 7.0 | 14520 | 1 | 12 | 15468 | 15865 | 2003 | nan | 2012 | 69900 | 5408000 | 46 | 37 | 남 | 미혼 | 3 | 미퇴거 |
계약자고유번호를 기준으로 거주연도 별 여러개의 데이터가 쌓여 있다. 각 계약자고유번호에 대해 가장 최신의 거주연도 행만 남겨라. 데이터 출처 : 후처리 데이터 링크 : 데이터 설명 : 대구도시공사_빅데이터_영구임대아파트 입주자 퇴거여부 데이터, 고유번호를 가진 계약자와 특정 아파트에 대해 매년 퇴거여부를 기록한 데이터
EDA 및 결측치 처리 (시각화 포함)
이상치 처리
재계약 횟수의 중앙값을 기준으로 중앙값보다 크거나 같으면 ‘높음’, 작으면 ‘낮음’ 으로 재계약 횟수 이분 변수를 구성하시오.
차원축소의 필요성을 논하고, 필요에 따라 차원을 축소하고 불필요하다면 그 근거를 논하시오.
재계약 횟수 이분변수를 기준으로 세그먼트를 구분하고 각 세그먼트의 특징을 분석하시오.
재계약횟수 변수를 종속변수로 하는 회귀 분석을 두 가지 이상의 방법론을 통해 수행하고 최종 모델을 결정하시오. 재계약횟수 이분변수를 종속변수로 하는 분류 분석을 두가지 이상의 방법론을 통해 수행하고 최종 모델을 결정하시오.
최종 채택한 모델에서 각각 유의하게 작용하는 변수를 확인 하고 설명하시오
해당 데이터 분석결과로 얻을 수 있는 점 제시
머신러닝 2
| row | game_id | a1_1 | a1_2 | a2_1 | a2_2 | a3_1 | a3_2 | a4_1 | a4_2 | a5_1 | a5_2 | a6_1 | a6_2 | a7_1 | a7_2 | a8_1 | a8_2 | a9_1 | a9_2 | b1 | b2 | b3 | b4 | b5 | b6 | b7 | b8 | b9 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 201900016 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 7 | 1 | 5 | 5 | 1 | 1 | 1 | 5 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 4 | 2 |
| 1 | 201900023 | 6 | 4 | 5 | 5 | 2 | 5 | 1 | 1 | 6 | 5 | 4 | 1 | 1 | 5 | 5 | 6 | 2 | 7 | 3 | 0 | 0 | 1 | 0 | 1 | 3 | 1 | 0 |
| 2 | 201900103 | 5 | 6 | 5 | 5 | 1 | 9 | 5 | 4 | 6 | 1 | 4 | 2 | 6 | 1 | 5 | 5 | 5 | 6 | 0 | 0 | 1 | 1 | 4 | 1 | 2 | 0 | 1 |
| 3 | 201900112 | 5 | 7 | 6 | 1 | 5 | 5 | 1 | 5 | 1 | 5 | 5 | 5 | 6 | 7 | 6 | 9 | 5 | 5 | 0 | 3 | 0 | 0 | 0 | 0 | 1 | 0 | 0 |
| 4 | 201900131 | 5 | 1 | 2 | 5 | 2 | 5 | 7 | 2 | 6 | 6 | 5 | 1 | 5 | 5 | 6 | 5 | 6 | 6 | 0 | 2 | 4 | 1 | 2 | 2 | 0 | 1 | 0 |
각 회차별로 1번 타자의 출루 (1,2,3루타와 사사구(볼넷, 몸에맞는공))가 있는 경우에 대해 득점이 발생 했는지 확인하고자 한다. 이를 위한 전처리를 수행하라. (단, 첫 번째 혹은 두 번째 타자가 홈런을 친 경우 해당 회차 데이터는 제외한다.) 데이터 출처 : 데이터를 후처리 데이터 링크 : 데이터 설명 : A 야구구단의 시합 결과중 일부를 나타낸다. 각 행은 하나의 경기를 의미(game_id)하며 9회차(= 9이닝) 동안 1번타자, 2번타자의 출루 정보를 의미한다. 각 컬럼에 대한 설명은 아래 이미지와 같으며, value값의 index는 이미지의 ‘수치 의미’ 열을 통해 확인 할 수 있다.
4-1 데이터에 대해 Logistic Regression을 적용하고 2번타자의 희생번트 여부에 대한 회귀 계수 검정을 하라
SMOTE (random_state =0 지정)를 적용하여 data imbalance를 해결하라
4-3 구성 데이터에 Logistic Regression을 적용하고 결과를 분석하라
통계 1
제품 A의 불량률은 0.03이다. 25개의 제품을 뽑았을 때 3개가 불량일 확률을 구하시오. (소수점 다섯 째 자리에서 반올림)
통계 2
C사 생산 제품 1000개 중 양품이 600개, D사 생산 제품 500개 중 양품이 200개 이다. 두 회사의 양품률에 차이가 있는지 검정하여라.
통계 3
| row | name | ratio |
|---|---|---|
| 0 | A | 10.993428306022466 |
| 1 | A | 9.723471397657631 |
| 2 | A | 11.295377076201383 |
| 3 | A | 13.046059712816051 |
| 4 | A | 9.531693250553328 |
각 차종 별 범퍼 파손의 정도에 차이가 유의한지 검정하라. 데이터 설명 : 아래 데이터는 a,b,c,d 네 차종 각각 5회 실험 시 범퍼 파손 정도 이다. (단, 각 모집단은 정규분포를 따르며 모집단 간 등분산성을 가정한다.) 데이터 url :
귀무가설을 채택한다면 그 의미를 해석하고, 귀무가설을 기각하였다면 사후분석을 시행하라.
통계 4
L1,L2,L3 세 개의 생산라인에서 각각 13%, 37%, 50%를 생산하며 각각 1.1% , 2.1%, 3.3% 불량률을 갖는다. 불량 제품이 나왔을 때 L1 라인에서 생산되었을 확률을 구하시오. (소수점 둘째자리에서 반올림)
문제를 확인했다면 바로 실기 워크스페이스로 넘어가세요
기출 문서를 읽은 뒤에는 동일한 ADP 실기 환경에서 바로 회차를 선택하고 코딩을 이어서 진행할 수 있습니다.