ADP 15회 실기 문제#

Hits

아주 구석진 페이지까지 오셨군요. 떠나시기전에 광고클릭 한번 가능하십니까?

1번

데이터 확인 및 전처리

  • 1.1 EDA와 시각화 및 통계량 제시

  • 1.2 변수 선택(VIF), 파생변수 생성, 데이터 분할(train/test(20%)) ,시각화와 통계량을 제시하시오

  • 1.3 종속변수들중 “1”인지 아닌지 판단하려한다. 종속변수를 1과 1이 아닌 값으로 치환하고 로지스틱 회귀 분석을 실시하라. confusionMatrix를 확인 및 cut off value 정하여라

  • 1.4 종속변수(y)를 다항(7 class)인 상태에서 SVM을 포함하여 3가지 알고리즘으로 평가하라

  • 1.5 종속변수를 제외한 나머지 데이터를 바탕으로 군집분석을 실시하고 최적의 군집수와 군집 레이블을 구하여라. 군집레이블을 추가한 데이터를 1-4에서 만든 모델중 가장 성능이 좋았던 하나의 모델에 다시 학습하여 F1-score를 비교하라

  • 데이터 설명

Hide code cell source
###

2번

데이터 확인 및 전처리

  • 데이터 설명

    • 데이터 출처 : 직접제작

    • 데이터 설명 : 2050년 1년동안의 5유형(A,B,C,D,E)의 전력사용량을 나타낸다. 각유형의 전력사용량은 1분마다 갱신되며 그 값은 누적된다.

      • 6시간이 지나면(00:00, 06:00, 12:00, 18:00시에) 전력사용량은 0으로 초기화 된다.

      • problem2_usage.csv
        6시간 간격의 총 전력사용량의 데이터이다. timestamp순서는 섞여있다.
        6시간 간격의 특정 시간대(마지막시각 ‘05:59’,’11:59’,’17:59’,’23:59’)의 전력 총합을 나타낸다.
        데이터의 총합을 구해서 비교할때 부동소수점 오류가 날수 있다. 파이썬의 경우 round(4)를 취하여 해결한다.

      • problem2_usage_history.csv
        1분간격의 A,B,C,D,E 유형의 소비 누적 전력을 나타낸다. 같은 6시간간격의 시간대의 데이터는 같은 “6hour_index”값을 가진다.
        00:00, 06:00, 12:00, 18:00시에는 5유형의 전력은 초기화 된다.
        데이터의 총합을 구해서 비교할때 부동소수점 오류가 날수 있다. 파이썬의 경우 round(4)를 취하여 해결한다.

      • problem2_avg_tem.csv
        2050년 1년동안 일자별 평균 온도를 나타낸다

2-1번

usage의 총사용량을 아래와 같은 모양으로 연월별 총합으로 계산하여 CSV 파일로 작성하시오

  • 일자별 총사용량은 누적사용량이 갱신되기 직전의 최대값들의 합으로 계산한다

  • [‘05:59’,’11:59’,’17:59’,’23:59’] 시간대의 A,B,C,D,E의 컬럼별 총합이 각 유형의 일일 사용량이다

image

2-2번

가로축을 요일(일~월) 세로축을 평균 전력사용량으로 하는 그래프를 그려라. 각 유형별로 색을 다르게 표현하여 5개의 line plot을 그리며 범례를 표시하라

Hide code cell source
###

2-3번

요일별 각 유형의 평균 전력 사용량 간에 연관성이 있는지 검정하라

Hide code cell source
###

2-4번

일자(매일)마다 각 유형의 전력사용량의 합을 데이터프레임으로 구하고 일자 데이터에서의 유형별 온도와의 상관계수를 각각 구하여라

Hide code cell source
###