ADP 27회 실기 문제#

Hits

1번

데이터 확인 및 전처리

Hide code cell source
import pandas as pd

df= pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/27/problem1.csv')
df.head()
Time V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16 V17 Amount Class
0 60.0 1.069141 0.043786 0.309867 1.316694 -0.462394 -0.857888 0.207904 -0.191270 0.056398 0.041567 -0.507358 -0.108666 -0.473257 0.452046 1.005675 0.185441 -0.439976 89.40 0
1 406.0 -2.312227 1.951992 -1.609851 3.997906 -0.522188 -1.426545 -2.537387 1.391657 -2.770089 -2.772272 3.202033 -2.899907 -0.595222 -4.289254 0.389724 -1.140747 -2.830056 0.00 1
2 426.0 -1.932055 1.724618 1.288229 -0.396998 -0.140202 2.470521 -1.865298 -5.186855 0.794764 0.155379 0.034517 0.906738 -0.027172 -0.404303 -0.473949 0.274034 -0.222340 16.19 0
3 472.0 -3.043541 -3.157307 1.088463 2.288644 1.359805 -1.064823 0.325574 -0.067794 -0.270953 -0.838587 -0.414575 -0.503141 0.676502 -1.692029 2.000635 0.666780 0.599717 529.00 1
4 674.0 -0.719065 0.638954 0.686335 -0.023240 2.317890 3.871978 -0.312797 1.089780 -0.596925 -0.006142 -0.242883 -0.384491 0.109079 0.187565 1.823472 0.274346 -0.697730 22.00 0

2번

차원축소 (1번이어서)

  • 2.1 차원축소 방법 2가지 이상 비교하고 한가지 선택

  • 2.2 추천한 한 가지를 실제로 수행하고 선택한 이유 설명

Hide code cell source
###

3번

오버샘플링/언더샘플링 (1번이어서)

  • 3.1 오버샘플링과 언더샘플링 장단점 비교 및 선택 구현

  • 3.2 구현 및 알고리즘 2가지 이상 비교, 성능 측정

  • 3.3 현재까지 전처리한 데이터를 통해 모델 수행 후 결과 분석

Hide code cell source
###

4번

이상탐지 (1번이어서)

  • 4.1 이상탐지 모델 2가지 이상 기술, 장/단점 설명

  • 4.2 2번에서 만든 데이터로 한 가지 이상탐지 모델을 구현하고, 3번에서 만든 모델과 비교

  • 4.3 데이터분석과 관점에서 3번에서 만든 모델과 4번에서 만든 모델 설명

Hide code cell source
###

5번

2년 전 제품 생산량이 100,000개, 1년 전 제품 생산량이 150,000개, 그 후 팩토리 기술의 상승으로 제품 생산량이 250,000개 되었을 때, 연평균 상승률의 대푯값을 구하시오. (반올림하여 소수점 아래 둘째자리까지 표기하시오.)

Hide code cell source
###

6번

12건의 광고 시간 측정. 평균 15.5초, 분산 3.2초 일때 90% 신뢰구간은?

Hide code cell source
###

7번

강의 상류와 하류의 생물 다양성 점수에 차이가 있는지 검정하시오. (단, 같은 강에서 상류와 하류는 서로 독립적이지 않으며, 종속적인 관계에 있다.)

  • 7.1 귀무가설과 대립가설을 세우시오

  • 7.2 검정 통계량과 유의 확률을 구하고, 연구가설 채택여부를 검정하시오.

Hide code cell source
import pandas as pd

df= pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/27/river.csv')
df.head()
River up down
0 A 57.1 45.7
1 B 51.6 37.2
2 C 53.9 53.3
3 D 59.0 54.3
4 E 57.5 46.3

8번

user_counts를 종속변수로 하는 데이터이다

  • 8.1 분위수 회귀분석 (Quantile Regression) 을 사용하여 회귀 계수를 구하시오. (반올림하여 소수점 아래 둘째자리까지 표기하시오.)

  • 8.2 8.1의 모델의 회귀계수를 활용하여 temperature : 10.5 , wind : 8.2 , precipitation : 3.5 일때 user_counts를 예측하시오

Hide code cell source
import pandas as pd

df= pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/27/problem8.csv')
df.head()
temperature wind precipitation user_counts
0 10.400000 4.600 0.844944 6368
1 5.666667 4.625 0.040860 5902
2 4.933333 4.725 0.008696 6226
3 3.400000 2.675 0.156989 5829
4 8.900000 3.950 7.988462 7589

9번

지하철 호선과 월별, 승객 수 간 상관관계가 있는지 확인(Type III Anova 사용)

  • 9.1 귀무가설과 대립가설 설정하라

  • 9.2 통계량을 구하고, 대립가설 채택여부를 기술하라

Hide code cell source
###

참고사이트

이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다