8회 기출 변형#

모두 좋은 결과 있으시길!

Click here

풀이 강의 기초부터 탄탄히!

작업 1유형#

Attention

DataUrl = https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p1_1.csv 데이터 출처 : kaggle 데이터 설명 : 대륙,국가별 맥주 소비량

import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p1_1.csv')
df.head(5)
대륙 국가명 소비량
0 Africa Algeria 25
1 Africa Angola 217
2 Africa Benin 34
3 Africa Botswana 173
4 Africa Burundi 88

1-1

대륙별 맥주 평균 소비량을 구하라. 5번째로 소비가 많은 대륙의 2번째로 맥주 소비량이 많은 국가의 맥주 소비량을 구하여라

Attention

DataUrl = https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p1_2.csv 데이터 출처 : https://know.tour.go.kr/stat/exitTourStatDis19Re.do 후처리 데이터 설명 : 목적별 행선지별 출국

import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p1_2.csv')
df.head(5)
국가 관광 방문 유학연수 취업 기타
0 뉴질랜드 24724.0 6320.0 4911.0 56.0 637.0
1 피 지 3889.0 564.0 98.0 15.0 40.0
2 벨기에 243.0 58.0 30.0 7.0 25.0
3 멕시코 1069.0 335.0 103.0 32.0 48.0
4 우즈베키스탄 3994.0 1456.0 97.0 4.0 137.0

1-2

총 방문객 수는 관광,방문,유햑연수,취업,기타 방문자 숫자의 합으로 정의한다. 각 국가별 관광 / 총 방문객 수의 비율을 구하고 이를 관광 비율이라 한다. 관광비율이 2번째로 높은 국가의 취업으로 출국한 인원과 관광 숫자가 3번째로 높은 국가의 방문으로 출국한 인원의 합을 구하여라

import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p1_3.csv')
df.head(5)
Date Time CO(GT) PT08.S1(CO) NMHC(GT) C6H6(GT)
0 10/03/2004 18.00.00 2.6 1360.0 150.0 11.9
1 10/03/2004 19.00.00 2.0 1292.0 112.0 9.4
2 10/03/2004 20.00.00 2.2 1402.0 88.0 9.0
3 10/03/2004 21.00.00 2.2 1376.0 80.0 9.2
4 10/03/2004 22.00.00 1.6 1272.0 51.0 6.5

1-3

CO(GT),NMHC(GT) 두 컬럼을 min-max normalize를 진행하고 각 컬럼의 모표준편차의 차이의 절댓값을 소숫점 이하 3째 자리까지 구하여라

작업 2유형#

import pandas as pd
train = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p2_train2.csv')
test = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p2_test2.csv')

display(train.head(2))
test.head(2)
ID C1 C2 C3 C4 Date Weekday Temperature Humidity Wind_Speed Precipitation Pressure Visibility Y
0 ID_1300 X_2 Y_0 Z_3 W_2 2023-03-27 0 10.533315 88.101605 13.632211 7.814899 1046.992484 6.100292 27
1 ID_1301 X_0 Y_3 Z_2 W_9 2023-10-12 3 -1.698046 42.811039 6.165366 1.139649 985.766276 5.720027 -5
ID C1 C2 C3 C4 Date Weekday Temperature Humidity Wind_Speed Precipitation Pressure Visibility
0 ID_4780 X_1 Y_2 Z_2 W_11 2023-07-27 3 28.460744 32.869427 13.978067 1.453519 980.152660 3.091170
1 ID_217 X_2 Y_2 Z_0 W_9 2023-09-05 1 33.699748 20.366573 9.032971 1.430375 1014.322511 7.788306

작업 3유형#

Attention

데이터 출처 : 자체 제작 데이터url = https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p3_1.csv 종속변수 : y

import pandas as pd
df=pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p3_1.csv')
df.head()
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 Y
0 0.506278 -0.231322 0.759771 -0.172927 -0.687524 -0.556815 -1.381369 1.633690 -0.869129 0.370614 0.615057 -0.416594 -1.175980 0.113494 -0.539230 1
1 0.017220 1.530047 0.676838 1.533623 -0.516027 0.949166 -1.180669 1.895021 -1.211768 -1.081109 -1.067039 -0.611829 0.846854 -0.812381 0.823546 0
2 1.436089 0.038078 -0.120501 0.914955 -1.504149 0.443893 -0.696385 0.245013 1.221166 -1.387287 -1.762048 -0.556466 0.130129 0.517210 1.056730 0
3 -0.926337 -0.665242 -0.106853 -1.111627 -0.127867 0.746742 -0.345943 0.848144 0.374944 -0.951299 1.097359 0.754369 -0.221183 -0.430509 0.756875 1
4 -0.350953 -0.044709 -0.421777 1.359772 -1.619690 -0.645908 -1.717975 -0.598477 1.026014 -0.134644 -0.988988 0.513048 -0.886113 0.247288 -0.016664 0

3-1

y컬럼을 종속변수로하는 로지스틱회귀 모형을 만들 떄 유의미하지 않은 변수의 개수는? % 상수항은 추가하여 모델링하라

3-2

**유의한 변수들 만으로 다시 모델링을 해서 X를 포함하는 독립변수들의 회귀계수 합계를 소숫점 이하 3째 자리까지 구하여라 **

3-3

3-2번의 모델 결과에 대해 X뒤의 숫자가 가장 낮은 컬럼이 5단위 늘어나면 오즈비 몇 배로 변화?

Attention

데이터 설명 : 키,체중,뇌사이즈에 따른 지능(PIQ) 데이터 출처 : online.stat.psu.edu 데이터 url : https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p3_1.csv

import pandas as pd 
df= pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p3_2.csv')
df.head()
PIQ Brain Height Weight
0 124 81.69 64.5 118
1 150 103.84 73.3 143
2 128 96.54 68.8 172
3 134 95.15 65.0 147
4 110 92.88 69.0 146

3-4

PIQ를 예측하는 다중선형회귀 모형을 만들고 Brain의 회귀 계수를 구하여라

3-5

모델의 r2를 구하여라

3-6

위에서 계산한 모델을 이용하여 뇌크기 90 키 70 몸무게 150일 때 지능을 예측하라