ADP 30회 실기 문제#

Hits

데이터설명

import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/30/p1.csv')
df.head()
Age Gender BMI DBP FPG Chol Tri HDL LDL ALT CCR FFPG
0 26 1 20.1 81 5.80 4.36 0.86 0.90 2.43 12.0 63.8 5.40
1 40 1 17.7 54 4.60 3.70 1.02 1.50 2.04 9.2 70.3 4.10
2 40 2 19.7 53 5.30 5.87 1.29 1.75 3.37 10.1 61.1 4.85
3 43 1 23.1 71 4.50 4.05 0.74 1.27 2.60 36.5 73.4 5.30
4 36 1 26.5 82 5.54 6.69 3.49 0.91 3.64 69.3 67.5 5.53

1-1

EDA를 시행하라

#

1-2

데이터 전처리가 필요하다면 수행하고 이유를 작성하라

#

1-3

train test set을 DBP컬럼 기준으로 7:3 비율로 나누고 잘 나뉘었는지 통계적으로 나타내라

#

2-1

독립변수의 차원축소의 필요성을 논하고, 필요에 따라 차원을 축소하고 불필요하다면 그 근거를 논하시오

#

2-1

작업 후 데이터가 회귀분석의 기본가정 따르는지 설명

#

3-1

회귀분석 알고리즘 3개를 선택하고 선정이유와 장단점 비교

#

3-2

1-3에서 구분한 데이터를 기준으로 3개의 회귀 분석 모델링을 진행하고 평가지표 rmse로 가장 최적화된 알고리즘 선정

#

3-3

3-2에서 가장 성능 좋은 알고리즘을 이용하여 K-Fold 교차검증을 수행하시오

#

데이터 분석

  1. 대상사고 : 해당 1년간 발생한 가해 또는 피해차종이 자전거인 교통사고

  2. 다발지역 선정조건 : 반경 300m 내 대상사고 4건이상 발생지역

  3. 종속 변수 : 피해자신체상해정도

df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/30/p2_v2.csv')
df.head()
사고년도 가해자성별 가해자연령 가해차종 가해자신체상해정도 피해자성별 피해자연령 피해차종 피해자신체상해정도 사고유형 가해자법규위반 기상상태 시각 사건번호
0 2015 46세 승합차 상해없음 64세 자전거 경상 차대차 - 기타 안전운전불이행 맑음 2015-07-03_10시 ID_796
1 2019 53세 승용차 상해없음 57세 자전거 경상 차대차 - 후진중충돌 안전운전불이행 맑음 2019-10-12_10시 ID_6697
2 2015 39세 승용차 상해없음 63세 자전거 중상 차대차 - 기타 기타 맑음 2015-03-23_20시 ID_919
3 2016 12세 자전거 상해없음 52세 보행자 경상 차대사람 - 길가장자리구역통행중 안전운전불이행 맑음 2016-04-10_15시 ID_2512
4 2015 54세 승용차 상해없음 63세 자전거 중상 차대차 - 기타 안전운전불이행 맑음 2015-08-04_6시 ID_75

4-1

발생시각을 통해 평일인지 주말인지를 구분하는 ‘주말여부’ 범주형 변수 추가하고 데이터 분포를 확인하라. (월 ~ 금은 평일, 토요일과 일요일을 주말)

#

4-2

‘피해자신체상해정도’에 따라 각 독립변수들이 유의한지 통계적 검정하라

#

4-3

4-2 에서 유의한 변수들만을 가지고 ‘피해자신체상해정도’를 기준으로 SMOTE 오버샘플링을 수행하고 샘플링 데이터와 기존데이터를 합친 전체 데이터에 대해 범주형변수는 변수별 빈도를 나타내고 연속형이면 평균을 나타내시오

#

4-4

4-3 데이터를 가지고 ‘피해자신체상해정도’ 을 종속변수로 하여 로지스틱회귀분석, XGB 분류 분류 모델을 만들고 성능 비교를 하고 영향력 있는 변수를 확인하라

#

5

3개의 공장에서 생산한 제품을 3지역으로 가능한 조건에 맞게 최대로 배송한다.
각 공장과 각 지역 사이의 1개 제품 배송 비용이 아래와 같을 때, 최소 배송 비용은 얼마인가?

img

#

6

6-1

연령대별로 헤드셋 선호도에 차이가 있는지를 검정하기 위한 귀무가설과 연구가설을 설정해라

#

6-2

유의수준 하에서 통계 검정해라

#

7-1

아이를 6명 가진 가정이 5 가족이고, 아들/딸을 출생할 확률은 0.5이다. 딸이 4명 이상인 가구가 3 가족 이상일 확률을 구하라

#

7-2

5가족 중 몇 가족이 4명 이상 딸을 가질 것으로 기대할 수 있는가?

#

created by datamanim web-link