29회 기출문제

실기 시험일자

2023.06.03

머신러닝 1

데이터셋

데이터 경로: /api/problem-datasets/Datamanim/datarepo/main/adp/29/p1.csv

데이터 미리보기

row	순번	계약구분	재계약횟수	거주개월	아파트 이름	아파트 ID	아파트 평점	호실고유번호	층	평형대	계약자고유번호	계약서고유번호	입주연도	퇴거연도	거주연도	월세(원)	보증금(원)	대표나이	나이	성별	결혼여부	거주자 수	퇴거여부
0	1	유효	10	222	강남아파트	5	7.0	14520	1	12	15468	15865	2003	nan	2008	47100	3646000	46	33	남	미혼	3	미퇴거
1	1	유효	10	222	강남아파트	5	7.0	14520	1	12	15468	15865	2003	nan	2009	56500	4375000	46	34	남	미혼	3	미퇴거
2	1	유효	10	222	강남아파트	5	7.0	14520	1	12	15468	15865	2003	nan	2010	56500	4375000	46	35	남	미혼	3	미퇴거
3	1	유효	10	222	강남아파트	5	7.0	14520	1	12	15468	15865	2003	nan	2011	69900	5408000	46	36	남	미혼	3	미퇴거
4	1	유효	10	222	강남아파트	5	7.0	14520	1	12	15468	15865	2003	nan	2012	69900	5408000	46	37	남	미혼	3	미퇴거

1-1

계약자고유번호를 기준으로 거주연도 별 여러개의 데이터가 쌓여 있다. 각 계약자고유번호에 대해 가장 최신의 거주연도 행만 남겨라. 데이터 출처 : 후처리 데이터 링크 : 데이터 설명 : 대구도시공사_빅데이터_영구임대아파트 입주자 퇴거여부 데이터, 고유번호를 가진 계약자와 특정 아파트에 대해 매년 퇴거여부를 기록한 데이터

1-2

EDA 및 결측치 처리 (시각화 포함)

1-3

이상치 처리

1-4

재계약 횟수의 중앙값을 기준으로 중앙값보다 크거나 같으면 ‘높음’, 작으면 ‘낮음’ 으로 재계약 횟수 이분 변수를 구성하시오.

1-5

차원축소의 필요성을 논하고, 필요에 따라 차원을 축소하고 불필요하다면 그 근거를 논하시오.

1-6

재계약 횟수 이분변수를 기준으로 세그먼트를 구분하고 각 세그먼트의 특징을 분석하시오.

1-7

재계약횟수 변수를 종속변수로 하는 회귀 분석을 두 가지 이상의 방법론을 통해 수행하고 최종 모델을 결정하시오. 재계약횟수 이분변수를 종속변수로 하는 분류 분석을 두가지 이상의 방법론을 통해 수행하고 최종 모델을 결정하시오.

1-8

최종 채택한 모델에서 각각 유의하게 작용하는 변수를 확인 하고 설명하시오

1-9

해당 데이터 분석결과로 얻을 수 있는 점 제시

머신러닝 2

데이터셋

데이터 경로: /api/problem-datasets/Datamanim/datarepo/main/adp/29/p2_.csv

데이터 미리보기

row	game_id	a1_1	a1_2	a2_1	a2_2	a3_1	a3_2	a4_1	a4_2	a5_1	a5_2	a6_1	a6_2	a7_1	a7_2	a8_1	a8_2	a9_1	a9_2	b1	b2	b3	b4	b5	b6	b7	b8	b9
0	201900016	5	5	5	5	5	5	5	5	5	5	7	1	5	5	1	1	1	5	0	0	0	0	0	0	0	4	2
1	201900023	6	4	5	5	2	5	1	1	6	5	4	1	1	5	5	6	2	7	3	0	0	1	0	1	3	1	0
2	201900103	5	6	5	5	1	9	5	4	6	1	4	2	6	1	5	5	5	6	0	0	1	1	4	1	2	0	1
3	201900112	5	7	6	1	5	5	1	5	1	5	5	5	6	7	6	9	5	5	0	3	0	0	0	0	1	0	0
4	201900131	5	1	2	5	2	5	7	2	6	6	5	1	5	5	6	5	6	6	0	2	4	1	2	2	0	1	0

2-1

각 회차별로 1번 타자의 출루 (1,2,3루타와 사사구(볼넷, 몸에맞는공))가 있는 경우에 대해 득점이 발생 했는지 확인하고자 한다. 이를 위한 전처리를 수행하라. (단, 첫 번째 혹은 두 번째 타자가 홈런을 친 경우 해당 회차 데이터는 제외한다.) 데이터 출처 : 데이터를 후처리 데이터 링크 : 데이터 설명 : A 야구구단의 시합 결과중 일부를 나타낸다. 각 행은 하나의 경기를 의미(game_id)하며 9회차(= 9이닝) 동안 1번타자, 2번타자의 출루 정보를 의미한다. 각 컬럼에 대한 설명은 아래 이미지와 같으며, value값의 index는 이미지의 ‘수치 의미’ 열을 통해 확인 할 수 있다.

2-2

4-1 데이터에 대해 Logistic Regression을 적용하고 2번타자의 희생번트 여부에 대한 회귀 계수 검정을 하라

2-3

SMOTE (random_state =0 지정)를 적용하여 data imbalance를 해결하라

2-4

4-3 구성 데이터에 Logistic Regression을 적용하고 결과를 분석하라

통계 1

1-1

제품 A의 불량률은 0.03이다. 25개의 제품을 뽑았을 때 3개가 불량일 확률을 구하시오. (소수점 다섯 째 자리에서 반올림)

통계 2

2-1

C사 생산 제품 1000개 중 양품이 600개, D사 생산 제품 500개 중 양품이 200개 이다. 두 회사의 양품률에 차이가 있는지 검정하여라.

통계 3

데이터셋

데이터 경로: /api/problem-datasets/Datamanim/datarepo/main/adp/29/p7.csv

데이터 미리보기

row	name	ratio
0	A	10.993428306022466
1	A	9.723471397657631
2	A	11.295377076201383
3	A	13.046059712816051
4	A	9.531693250553328

3-1

각 차종 별 범퍼 파손의 정도에 차이가 유의한지 검정하라. 데이터 설명 : 아래 데이터는 a,b,c,d 네 차종 각각 5회 실험 시 범퍼 파손 정도 이다. (단, 각 모집단은 정규분포를 따르며 모집단 간 등분산성을 가정한다.) 데이터 url :

3-2

귀무가설을 채택한다면 그 의미를 해석하고, 귀무가설을 기각하였다면 사후분석을 시행하라.

통계 4

4-1

L1,L2,L3 세 개의 생산라인에서 각각 13%, 37%, 50%를 생산하며 각각 1.1% , 2.1%, 3.3% 불량률을 갖는다. 불량 제품이 나왔을 때 L1 라인에서 생산되었을 확률을 구하시오. (소수점 둘째자리에서 반올림)

Next Step

문제를 확인했다면 바로 실기 워크스페이스로 넘어가세요

기출 문서를 읽은 뒤에는 동일한 ADP 실기 환경에서 바로 회차를 선택하고 코딩을 이어서 진행할 수 있습니다.

이전30회 기출문제

다음28회 기출문제