ADP 27회 실기 문제#
1번
데이터 확인 및 전처리
1.1 EDA 데이터 탐색
1.2 변수간 상관관계를 시각화하고 전처리가 필요함을 설명하라
출처
Show code cell source
import pandas as pd
df= pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/27/problem1.csv')
df.head()
Time | V1 | V2 | V3 | V4 | V5 | V6 | V7 | V8 | V9 | V10 | V11 | V12 | V13 | V14 | V15 | V16 | V17 | Amount | Class | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 60.0 | 1.069141 | 0.043786 | 0.309867 | 1.316694 | -0.462394 | -0.857888 | 0.207904 | -0.191270 | 0.056398 | 0.041567 | -0.507358 | -0.108666 | -0.473257 | 0.452046 | 1.005675 | 0.185441 | -0.439976 | 89.40 | 0 |
1 | 406.0 | -2.312227 | 1.951992 | -1.609851 | 3.997906 | -0.522188 | -1.426545 | -2.537387 | 1.391657 | -2.770089 | -2.772272 | 3.202033 | -2.899907 | -0.595222 | -4.289254 | 0.389724 | -1.140747 | -2.830056 | 0.00 | 1 |
2 | 426.0 | -1.932055 | 1.724618 | 1.288229 | -0.396998 | -0.140202 | 2.470521 | -1.865298 | -5.186855 | 0.794764 | 0.155379 | 0.034517 | 0.906738 | -0.027172 | -0.404303 | -0.473949 | 0.274034 | -0.222340 | 16.19 | 0 |
3 | 472.0 | -3.043541 | -3.157307 | 1.088463 | 2.288644 | 1.359805 | -1.064823 | 0.325574 | -0.067794 | -0.270953 | -0.838587 | -0.414575 | -0.503141 | 0.676502 | -1.692029 | 2.000635 | 0.666780 | 0.599717 | 529.00 | 1 |
4 | 674.0 | -0.719065 | 0.638954 | 0.686335 | -0.023240 | 2.317890 | 3.871978 | -0.312797 | 1.089780 | -0.596925 | -0.006142 | -0.242883 | -0.384491 | 0.109079 | 0.187565 | 1.823472 | 0.274346 | -0.697730 | 22.00 | 0 |
2번
차원축소 (1번이어서)
2.1 차원축소 방법 2가지 이상 비교하고 한가지 선택
2.2 추천한 한 가지를 실제로 수행하고 선택한 이유 설명
Show code cell source
###
3번
오버샘플링/언더샘플링 (1번이어서)
3.1 오버샘플링과 언더샘플링 장단점 비교 및 선택 구현
3.2 구현 및 알고리즘 2가지 이상 비교, 성능 측정
3.3 현재까지 전처리한 데이터를 통해 모델 수행 후 결과 분석
Show code cell source
###
4번
이상탐지 (1번이어서)
4.1 이상탐지 모델 2가지 이상 기술, 장/단점 설명
4.2 2번에서 만든 데이터로 한 가지 이상탐지 모델을 구현하고, 3번에서 만든 모델과 비교
4.3 데이터분석과 관점에서 3번에서 만든 모델과 4번에서 만든 모델 설명
Show code cell source
###
5번
2년 전 제품 생산량이 100,000개, 1년 전 제품 생산량이 150,000개, 그 후 팩토리 기술의 상승으로 제품 생산량이 250,000개 되었을 때, 연평균 상승률의 대푯값을 구하시오. (반올림하여 소수점 아래 둘째자리까지 표기하시오.)
Show code cell source
###
6번
12건의 광고 시간 측정. 평균 15.5초, 분산 3.2초 일때 90% 신뢰구간은?
Show code cell source
###
7번
강의 상류와 하류의 생물 다양성 점수에 차이가 있는지 검정하시오. (단, 같은 강에서 상류와 하류는 서로 독립적이지 않으며, 종속적인 관계에 있다.)
7.1 귀무가설과 대립가설을 세우시오
7.2 검정 통계량과 유의 확률을 구하고, 연구가설 채택여부를 검정하시오.
Show code cell source
import pandas as pd
df= pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/27/river.csv')
df.head()
River | up | down | |
---|---|---|---|
0 | A | 57.1 | 45.7 |
1 | B | 51.6 | 37.2 |
2 | C | 53.9 | 53.3 |
3 | D | 59.0 | 54.3 |
4 | E | 57.5 | 46.3 |
8번
user_counts를 종속변수로 하는 데이터이다
8.1 분위수 회귀분석 (Quantile Regression) 을 사용하여 회귀 계수를 구하시오. (반올림하여 소수점 아래 둘째자리까지 표기하시오.)
8.2 8.1의 모델의 회귀계수를 활용하여 temperature : 10.5 , wind : 8.2 , precipitation : 3.5 일때 user_counts를 예측하시오
Show code cell source
import pandas as pd
df= pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/27/problem8.csv')
df.head()
temperature | wind | precipitation | user_counts | |
---|---|---|---|---|
0 | 10.400000 | 4.600 | 0.844944 | 6368 |
1 | 5.666667 | 4.625 | 0.040860 | 5902 |
2 | 4.933333 | 4.725 | 0.008696 | 6226 |
3 | 3.400000 | 2.675 | 0.156989 | 5829 |
4 | 8.900000 | 3.950 | 7.988462 | 7589 |
9번
지하철 호선과 월별, 승객 수 간 상관관계가 있는지 확인(Type III Anova 사용)
9.1 귀무가설과 대립가설 설정하라
9.2 통계량을 구하고, 대립가설 채택여부를 기술하라
Show code cell source
###
참고사이트
이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다