29회 기출문제

실기 시험일자

2023.06.03

머신러닝 1

데이터셋
데이터 미리보기
row순번계약구분재계약횟수거주개월아파트 이름아파트 ID아파트 평점호실고유번호평형대계약자고유번호계약서고유번호입주연도퇴거연도거주연도월세(원)보증금(원)대표나이나이성별결혼여부거주자 수퇴거여부
01유효10222강남아파트57.01452011215468158652003nan20084710036460004633미혼3미퇴거
11유효10222강남아파트57.01452011215468158652003nan20095650043750004634미혼3미퇴거
21유효10222강남아파트57.01452011215468158652003nan20105650043750004635미혼3미퇴거
31유효10222강남아파트57.01452011215468158652003nan20116990054080004636미혼3미퇴거
41유효10222강남아파트57.01452011215468158652003nan20126990054080004637미혼3미퇴거
1-1

계약자고유번호를 기준으로 거주연도 별 여러개의 데이터가 쌓여 있다. 각 계약자고유번호에 대해 가장 최신의 거주연도 행만 남겨라. 데이터 출처 : 후처리 데이터 링크 : 데이터 설명 : 대구도시공사_빅데이터_영구임대아파트 입주자 퇴거여부 데이터, 고유번호를 가진 계약자와 특정 아파트에 대해 매년 퇴거여부를 기록한 데이터

1-2

EDA 및 결측치 처리 (시각화 포함)

1-3

이상치 처리

1-4

재계약 횟수의 중앙값을 기준으로 중앙값보다 크거나 같으면 ‘높음’, 작으면 ‘낮음’ 으로 재계약 횟수 이분 변수를 구성하시오.

1-5

차원축소의 필요성을 논하고, 필요에 따라 차원을 축소하고 불필요하다면 그 근거를 논하시오.

1-6

재계약 횟수 이분변수를 기준으로 세그먼트를 구분하고 각 세그먼트의 특징을 분석하시오.

1-7

재계약횟수 변수를 종속변수로 하는 회귀 분석을 두 가지 이상의 방법론을 통해 수행하고 최종 모델을 결정하시오. 재계약횟수 이분변수를 종속변수로 하는 분류 분석을 두가지 이상의 방법론을 통해 수행하고 최종 모델을 결정하시오.

1-8

최종 채택한 모델에서 각각 유의하게 작용하는 변수를 확인 하고 설명하시오

1-9

해당 데이터 분석결과로 얻을 수 있는 점 제시

머신러닝 2

데이터셋
데이터 미리보기
rowgame_ida1_1a1_2a2_1a2_2a3_1a3_2a4_1a4_2a5_1a5_2a6_1a6_2a7_1a7_2a8_1a8_2a9_1a9_2b1b2b3b4b5b6b7b8b9
0201900016555555555571551115000000042
1201900023645525116541155627300101310
2201900103565519546142615556001141201
3201900112576155151555676955030000100
4201900131512525726651556566024122010
2-1

각 회차별로 1번 타자의 출루 (1,2,3루타와 사사구(볼넷, 몸에맞는공))가 있는 경우에 대해 득점이 발생 했는지 확인하고자 한다. 이를 위한 전처리를 수행하라. (단, 첫 번째 혹은 두 번째 타자가 홈런을 친 경우 해당 회차 데이터는 제외한다.) 데이터 출처 : 데이터를 후처리 데이터 링크 : 데이터 설명 : A 야구구단의 시합 결과중 일부를 나타낸다. 각 행은 하나의 경기를 의미(game_id)하며 9회차(= 9이닝) 동안 1번타자, 2번타자의 출루 정보를 의미한다. 각 컬럼에 대한 설명은 아래 이미지와 같으며, value값의 index는 이미지의 ‘수치 의미’ 열을 통해 확인 할 수 있다.

2-2

4-1 데이터에 대해 Logistic Regression을 적용하고 2번타자의 희생번트 여부에 대한 회귀 계수 검정을 하라

2-3

SMOTE (random_state =0 지정)를 적용하여 data imbalance를 해결하라

2-4

4-3 구성 데이터에 Logistic Regression을 적용하고 결과를 분석하라

통계 1

1-1

제품 A의 불량률은 0.03이다. 25개의 제품을 뽑았을 때 3개가 불량일 확률을 구하시오. (소수점 다섯 째 자리에서 반올림)

통계 2

2-1

C사 생산 제품 1000개 중 양품이 600개, D사 생산 제품 500개 중 양품이 200개 이다. 두 회사의 양품률에 차이가 있는지 검정하여라.

통계 3

데이터셋
데이터 미리보기
rownameratio
0A10.993428306022466
1A9.723471397657631
2A11.295377076201383
3A13.046059712816051
4A9.531693250553328
3-1

각 차종 별 범퍼 파손의 정도에 차이가 유의한지 검정하라. 데이터 설명 : 아래 데이터는 a,b,c,d 네 차종 각각 5회 실험 시 범퍼 파손 정도 이다. (단, 각 모집단은 정규분포를 따르며 모집단 간 등분산성을 가정한다.) 데이터 url :

3-2

귀무가설을 채택한다면 그 의미를 해석하고, 귀무가설을 기각하였다면 사후분석을 시행하라.

통계 4

4-1

L1,L2,L3 세 개의 생산라인에서 각각 13%, 37%, 50%를 생산하며 각각 1.1% , 2.1%, 3.3% 불량률을 갖는다. 불량 제품이 나왔을 때 L1 라인에서 생산되었을 확률을 구하시오. (소수점 둘째자리에서 반올림)

Next Step

문제를 확인했다면 바로 실기 워크스페이스로 넘어가세요

기출 문서를 읽은 뒤에는 동일한 ADP 실기 환경에서 바로 회차를 선택하고 코딩을 이어서 진행할 수 있습니다.