15회 기출문제

실기 시험일자

2019.12.14

머신러닝 1

데이터셋
데이터 미리보기
rowX_MinimumX_MaximumY_MinimumY_MaximumPixels_AreasX_PerimeterY_PerimeterSum_of_LuminosityMinimum_of_LuminosityMaximum_of_LuminosityLength_of_ConveyerTypeOfSteel_A300TypeOfSteel_A400Steel_Plate_ThicknessEdges_IndexEmpty_IndexSquare_IndexOutside_X_IndexEdges_X_IndexEdges_Y_IndexOutside_Global_IndexLogOfAreasLog_X_IndexLog_Y_IndexOrientation_IndexLuminosity_IndexSigmoidOfAreastarget
042.050.0270900.0270944.0267.017.044.024220.076.0108.01687.01.00.080.00.04980.24150.18180.00470.47061.01.02.42650.90311.64350.8182-0.29130.58221.0
1645.0651.02538079.02538108.0108.010.030.011397.084.0123.01687.01.00.080.00.76470.37930.20690.00360.60.96671.02.03340.77821.46240.7931-0.17560.29841.0
2829.0835.01553913.01553931.071.08.019.07972.099.0125.01623.01.00.0100.00.9710.34260.33330.00370.750.94741.01.85130.77821.25530.6667-0.12280.2151.0
3853.0860.0369370.0369415.0176.013.045.018996.099.0126.01353.00.01.0290.00.72870.44130.15560.00520.53851.01.02.24550.84511.65320.8444-0.15680.52121.0
41289.01306.0498078.0498335.02409.060.0260.0246930.037.0126.01353.00.01.0185.00.06950.44860.06620.01260.28330.98851.03.38181.23052.40990.9338-0.19921.01.0
데이터 설명
  • 문제 주제: 철강 결함 데이터 분석
  • 종속변수: target
  • 원본 데이터 출처: Faulty Steel Plates
1-1

EDA와 시각화 및 통계량을 제시하라.

1-2

변수 선택(VIF), 파생변수 생성, 데이터 분할(train/test 20%), 시각화와 통계량을 제시하라.

1-3

종속변수들 중 1인지 아닌지 판단하려 한다. 종속변수를 11이 아닌 값으로 치환하고 로지스틱 회귀 분석을 실시하라. confusion matrix를 확인하고 cut-off value를 정하라.

1-4

종속변수 y를 다항 7-class 상태로 두고 SVM을 포함하여 3가지 알고리즘으로 평가하라.

1-5

종속변수를 제외한 나머지 데이터를 바탕으로 군집분석을 실시하고 최적의 군집 수와 군집 레이블을 구하라. 군집 레이블을 추가한 데이터를 1-4에서 만든 모델 중 가장 성능이 좋았던 하나의 모델에 다시 학습하여 F1-score를 비교하라.

통계 1

데이터셋
데이터 미리보기
rowtimestampusage
02551780740.0583.7395
12534068740.01018.0731
22545732740.01034.5041
32545559940.0350.5153
42550247140.0652.4857
데이터 미리보기
rowhh:mm6hour_indexABCDE
000:00DA_5884930.00.00.00.00.0
100:01DA_5884930.70250.80290.65232.67620.1505
200:02DA_5884931.75631.20431.9573.21150.6022
300:03DA_5884932.10751.60572.17446.42291.0538
400:04DA_5884932.812.40862.60936.95821.2043
데이터 미리보기
rowdatetemperature
02050-01-016.164407846387516
12050-01-021.015510361601382
22050-01-033.6912517237692186
32050-01-044.071515460067369
42050-01-050.6092487021998767
데이터 설명
  • 2050년 1년 동안의 5유형(A, B, C, D, E) 전력사용량 데이터다.
  • 각 유형의 전력사용량은 1분마다 갱신되며 누적된다.
  • 00:00, 06:00, 12:00, 18:00에는 전력사용량이 0으로 초기화된다.
  • problem2_usage.csv: 6시간 간격 총 전력사용량 데이터
  • problem2_usage_history.csv: 1분 간격 누적 전력사용량 데이터
  • problem2_avg_tem.csv: 일자별 평균 온도 데이터
  • 합계 비교 시 부동소수점 오차가 있을 수 있으므로 문제에서는 round(4) 처리를 권장한다.
1-1
  • usage의 총사용량을 지정된 형태로 연월별 총합으로 계산하여 CSV 파일로 작성하라.
  • 일자별 총사용량은 누적사용량이 갱신되기 직전 최대값들의 합으로 계산한다.
  • 05:59, 11:59, 17:59, 23:59 시각의 A~E 총합이 각 유형의 일일 사용량이다.
1-2

가로축을 요일, 세로축을 평균 전력사용량으로 하는 그래프를 그려라. 각 유형별로 색을 다르게 표현하여 5개의 line plot을 그리고 범례를 표시하라.

1-3

요일별 각 유형의 평균 전력 사용량 간에 연관성이 있는지 검정하라.

1-4

일자마다 각 유형의 전력사용량 합을 데이터프레임으로 구하고, 일자 데이터에서 유형별 온도와의 상관계수를 각각 구하라.

Next Step

문제를 확인했다면 바로 실기 워크스페이스로 넘어가세요

기출 문서를 읽은 뒤에는 동일한 ADP 실기 환경에서 바로 회차를 선택하고 코딩을 이어서 진행할 수 있습니다.