ADP 22회 실기 문제#

Hits

 이거 만드느라 밤샜다.. 광고 눌러주라

1번

데이터 확인 및 전처리

  • 1.1 탐색적 데이터 분석 수행(시각화 포함)

  • 1.2 이상치 처리(이상값 대체방안 제시)

  • 1.3 앞선 두 단계에서 얻은 향후 분석시 고려사항 작성

  • 데이터 설명(피마 인디안 당뇨병 발병유무)

    • 신체스펙

      • Pregnancies

      • Glucose

      • BloodPressure

      • SkinThickness

      • Insulin

      • BMI

      • DiabetesPedigreeFunction

      • Age

    • 발병유무(종속변수) : Outcome

Hide code cell source
import pandas as pd

df= pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/22/data1.csv')
df.head()
Pregnancies Glucose BloodPressure SkinThickness Insulin BMI DiabetesPedigreeFunction Age Outcome
0 6 148 72 35 0 33.6 0.627 50 1
1 1 85 66 29 0 26.6 0.351 31 0
2 8 183 64 0 0 23.3 0.672 32 1
3 1 89 66 23 94 28.1 0.167 21 0
4 0 137 40 35 168 43.1 2.288 33 1

2번

1번 문제 데이터 참고하여

  • 2.1 오버샘플링 과정 설명하고 결과 작성

  • 2.2 언더샘플링 과정 설명하고 결과 작성

  • 2.3 둘 중 하나를 선택하고 이유 설명

Hide code cell source
### 

3번

2번 문제 데이터 참고하여

  • 3.1 최소 3개 이상 알고리즘 제시하고 정확도 측면의 모델 1개와 속도 측면의 모델 1개를 꼭 구현(총 2개 이상)

  • 3.2 모델 비교하고 결과 설명

  • 3.3 속도 개선을 위한 차원 축소 설명하고 수행, 예측 성능과 속도 비교하고 결과 작성

Hide code cell source
### 

4번

금속 성분 함유량 데이터(변수 1개) - 제품에 금속 재질 함유량의 분산이 1.3을 넘으면 불량이라고 보고 있는데 제조사별로 차이가 난다고 제보를 받았으며, 분산에 대해 검정을 수행하시오. (유의확률 0.05)

  • 4.1 연구가설과 귀무가설 작성

  • 4.2 양측 검정 시행

  • 4.3 검정통계량, 가설채택

Hide code cell source
import pandas as pd

df= pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/22/content.csv')
df.head()
content
0 97.995295
1 101.478315
2 102.284913
3 98.993634
4 104.635232

5번

Lot별 200개에 대한 불량 제품 수량 데이터(변수 2개 - lot번호, 불량제품수)

  • 5.1 불량률 관리도에 따라 관리중심선(CL : Center Line), 관리 상한선(UCL : Upper Control Limit), 하한선(LCL : Lower Control Limit) 구하기

  • 5.2 관리도 시각화

Hide code cell source
import pandas as pd

df= pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/22/error.csv')
df.head()
iot_number error_case_number
0 1 4.5
1 2 2.5
2 3 2.0
3 4 3.0
4 5 0.5