8회 기출 변형#
모두 좋은 결과 있으시길!
풀이 강의 기초부터 탄탄히!
작업 1유형#
Attention
DataUrl = https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p1_1.csv 데이터 출처 : kaggle 데이터 설명 : 대륙,국가별 맥주 소비량
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p1_1.csv')
df.head(5)
대륙 | 국가명 | 소비량 | |
---|---|---|---|
0 | Africa | Algeria | 25 |
1 | Africa | Angola | 217 |
2 | Africa | Benin | 34 |
3 | Africa | Botswana | 173 |
4 | Africa | Burundi | 88 |
1-1
대륙별 맥주 평균 소비량을 구하라. 5번째로 소비가 많은 대륙의 2번째로 맥주 소비량이 많은 국가의 맥주 소비량을 구하여라
Attention
DataUrl = https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p1_2.csv 데이터 출처 : https://know.tour.go.kr/stat/exitTourStatDis19Re.do 후처리 데이터 설명 : 목적별 행선지별 출국
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p1_2.csv')
df.head(5)
국가 | 관광 | 방문 | 유학연수 | 취업 | 기타 | |
---|---|---|---|---|---|---|
0 | 뉴질랜드 | 24724.0 | 6320.0 | 4911.0 | 56.0 | 637.0 |
1 | 피 지 | 3889.0 | 564.0 | 98.0 | 15.0 | 40.0 |
2 | 벨기에 | 243.0 | 58.0 | 30.0 | 7.0 | 25.0 |
3 | 멕시코 | 1069.0 | 335.0 | 103.0 | 32.0 | 48.0 |
4 | 우즈베키스탄 | 3994.0 | 1456.0 | 97.0 | 4.0 | 137.0 |
1-2
총 방문객 수는 관광,방문,유햑연수,취업,기타 방문자 숫자의 합으로 정의한다. 각 국가별 관광 / 총 방문객 수의 비율을 구하고 이를 관광 비율이라 한다. 관광비율이 2번째로 높은 국가의 취업으로 출국한 인원과 관광 숫자가 3번째로 높은 국가의 방문으로 출국한 인원의 합을 구하여라
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p1_3.csv')
df.head(5)
Date | Time | CO(GT) | PT08.S1(CO) | NMHC(GT) | C6H6(GT) | |
---|---|---|---|---|---|---|
0 | 10/03/2004 | 18.00.00 | 2.6 | 1360.0 | 150.0 | 11.9 |
1 | 10/03/2004 | 19.00.00 | 2.0 | 1292.0 | 112.0 | 9.4 |
2 | 10/03/2004 | 20.00.00 | 2.2 | 1402.0 | 88.0 | 9.0 |
3 | 10/03/2004 | 21.00.00 | 2.2 | 1376.0 | 80.0 | 9.2 |
4 | 10/03/2004 | 22.00.00 | 1.6 | 1272.0 | 51.0 | 6.5 |
1-3
CO(GT),NMHC(GT) 두 컬럼을 min-max normalize를 진행하고 각 컬럼의 모표준편차의 차이의 절댓값을 소숫점 이하 3째 자리까지 구하여라
작업 2유형#
Attention
날씨에 따른 지하철 이용자수 train = https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p2_train.csv test = https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p2_test.csv
종속변수 :Y , 평가지표 : mae
import pandas as pd
train = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p2_train2.csv')
test = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p2_test2.csv')
display(train.head(2))
test.head(2)
ID | C1 | C2 | C3 | C4 | Date | Weekday | Temperature | Humidity | Wind_Speed | Precipitation | Pressure | Visibility | Y | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | ID_1300 | X_2 | Y_0 | Z_3 | W_2 | 2023-03-27 | 0 | 10.533315 | 88.101605 | 13.632211 | 7.814899 | 1046.992484 | 6.100292 | 27 |
1 | ID_1301 | X_0 | Y_3 | Z_2 | W_9 | 2023-10-12 | 3 | -1.698046 | 42.811039 | 6.165366 | 1.139649 | 985.766276 | 5.720027 | -5 |
ID | C1 | C2 | C3 | C4 | Date | Weekday | Temperature | Humidity | Wind_Speed | Precipitation | Pressure | Visibility | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | ID_4780 | X_1 | Y_2 | Z_2 | W_11 | 2023-07-27 | 3 | 28.460744 | 32.869427 | 13.978067 | 1.453519 | 980.152660 | 3.091170 |
1 | ID_217 | X_2 | Y_2 | Z_0 | W_9 | 2023-09-05 | 1 | 33.699748 | 20.366573 | 9.032971 | 1.430375 | 1014.322511 | 7.788306 |
작업 3유형#
Attention
데이터 출처 : 자체 제작 데이터url = https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p3_1.csv 종속변수 : y
import pandas as pd
df=pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p3_1.csv')
df.head()
X1 | X2 | X3 | X4 | X5 | X6 | X7 | X8 | X9 | X10 | X11 | X12 | X13 | X14 | X15 | Y | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 0.506278 | -0.231322 | 0.759771 | -0.172927 | -0.687524 | -0.556815 | -1.381369 | 1.633690 | -0.869129 | 0.370614 | 0.615057 | -0.416594 | -1.175980 | 0.113494 | -0.539230 | 1 |
1 | 0.017220 | 1.530047 | 0.676838 | 1.533623 | -0.516027 | 0.949166 | -1.180669 | 1.895021 | -1.211768 | -1.081109 | -1.067039 | -0.611829 | 0.846854 | -0.812381 | 0.823546 | 0 |
2 | 1.436089 | 0.038078 | -0.120501 | 0.914955 | -1.504149 | 0.443893 | -0.696385 | 0.245013 | 1.221166 | -1.387287 | -1.762048 | -0.556466 | 0.130129 | 0.517210 | 1.056730 | 0 |
3 | -0.926337 | -0.665242 | -0.106853 | -1.111627 | -0.127867 | 0.746742 | -0.345943 | 0.848144 | 0.374944 | -0.951299 | 1.097359 | 0.754369 | -0.221183 | -0.430509 | 0.756875 | 1 |
4 | -0.350953 | -0.044709 | -0.421777 | 1.359772 | -1.619690 | -0.645908 | -1.717975 | -0.598477 | 1.026014 | -0.134644 | -0.988988 | 0.513048 | -0.886113 | 0.247288 | -0.016664 | 0 |
3-1
y컬럼을 종속변수로하는 로지스틱회귀 모형을 만들 떄 유의미하지 않은 변수의 개수는? % 상수항은 추가하여 모델링하라
3-2
**유의한 변수들 만으로 다시 모델링을 해서 X를 포함하는 독립변수들의 회귀계수 합계를 소숫점 이하 3째 자리까지 구하여라 **
3-3
3-2번의 모델 결과에 대해 X뒤의 숫자가 가장 낮은 컬럼이 5단위 늘어나면 오즈비 몇 배로 변화?
Attention
데이터 설명 : 키,체중,뇌사이즈에 따른 지능(PIQ) 데이터 출처 : online.stat.psu.edu 데이터 url : https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p3_1.csv
import pandas as pd
df= pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p3_2.csv')
df.head()
PIQ | Brain | Height | Weight | |
---|---|---|---|---|
0 | 124 | 81.69 | 64.5 | 118 |
1 | 150 | 103.84 | 73.3 | 143 |
2 | 128 | 96.54 | 68.8 | 172 |
3 | 134 | 95.15 | 65.0 | 147 |
4 | 110 | 92.88 | 69.0 | 146 |
3-4
PIQ를 예측하는 다중선형회귀 모형을 만들고 Brain의 회귀 계수를 구하여라
3-5
모델의 r2를 구하여라
3-6
위에서 계산한 모델을 이용하여 뇌크기 90 키 70 몸무게 150일 때 지능을 예측하라