8회 기출 변형

8회 기출 변형#

모두 좋은 결과 있으시길!

풀이 강의 기초부터 탄탄히!

작업 1유형#

Attention

DataUrl = https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p1_1.csv 데이터 출처 : kaggle 데이터 설명 : 대륙,국가별 맥주 소비량

import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p1_1.csv')
df.head(5)

	대륙	국가명	소비량
0	Africa	Algeria	25
1	Africa	Angola	217
2	Africa	Benin	34
3	Africa	Botswana	173
4	Africa	Burundi	88

1-1

대륙별 맥주 평균 소비량을 구하라. 5번째로 소비가 많은 대륙의 2번째로 맥주 소비량이 많은 국가의 맥주 소비량을 구하여라

Attention

DataUrl = https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p1_2.csv 데이터 출처 : https://know.tour.go.kr/stat/exitTourStatDis19Re.do 후처리 데이터 설명 : 목적별 행선지별 출국

import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p1_2.csv')
df.head(5)

	국가	관광	방문	유학연수	취업	기타
0	뉴질랜드	24724.0	6320.0	4911.0	56.0	637.0
1	피 지	3889.0	564.0	98.0	15.0	40.0
2	벨기에	243.0	58.0	30.0	7.0	25.0
3	멕시코	1069.0	335.0	103.0	32.0	48.0
4	우즈베키스탄	3994.0	1456.0	97.0	4.0	137.0

1-2

총 방문객 수는 관광,방문,유햑연수,취업,기타 방문자 숫자의 합으로 정의한다. 각 국가별 관광 / 총 방문객 수의 비율을 구하고 이를 관광 비율이라 한다. 관광비율이 2번째로 높은 국가의 취업으로 출국한 인원과 관광 숫자가 3번째로 높은 국가의 방문으로 출국한 인원의 합을 구하여라

import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p1_3.csv')
df.head(5)

	Date	Time	CO(GT)	PT08.S1(CO)	NMHC(GT)	C6H6(GT)
0	10/03/2004	18.00.00	2.6	1360.0	150.0	11.9
1	10/03/2004	19.00.00	2.0	1292.0	112.0	9.4
2	10/03/2004	20.00.00	2.2	1402.0	88.0	9.0
3	10/03/2004	21.00.00	2.2	1376.0	80.0	9.2
4	10/03/2004	22.00.00	1.6	1272.0	51.0	6.5

1-3

CO(GT),NMHC(GT) 두 컬럼을 min-max normalize를 진행하고 각 컬럼의 모표준편차의 차이의 절댓값을 소숫점 이하 3째 자리까지 구하여라

작업 2유형#

Attention

날씨에 따른 지하철 이용자수 train = https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p2_train.csv test = https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p2_test.csv

종속변수 :Y , 평가지표 : mae

import pandas as pd
train = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p2_train2.csv')
test = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p2_test2.csv')

display(train.head(2))
test.head(2)

	ID	C1	C2	C3	C4	Date	Weekday	Temperature	Humidity	Wind_Speed	Precipitation	Pressure	Visibility	Y
0	ID_1300	X_2	Y_0	Z_3	W_2	2023-03-27	0	10.533315	88.101605	13.632211	7.814899	1046.992484	6.100292	27
1	ID_1301	X_0	Y_3	Z_2	W_9	2023-10-12	3	-1.698046	42.811039	6.165366	1.139649	985.766276	5.720027	-5

	ID	C1	C2	C3	C4	Date	Weekday	Temperature	Humidity	Wind_Speed	Precipitation	Pressure	Visibility
0	ID_4780	X_1	Y_2	Z_2	W_11	2023-07-27	3	28.460744	32.869427	13.978067	1.453519	980.152660	3.091170
1	ID_217	X_2	Y_2	Z_0	W_9	2023-09-05	1	33.699748	20.366573	9.032971	1.430375	1014.322511	7.788306

작업 3유형#

Attention

데이터 출처 : 자체 제작 데이터url = https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p3_1.csv 종속변수 : y

import pandas as pd
df=pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p3_1.csv')
df.head()

	X1	X2	X3	X4	X5	X6	X7	X8	X9	X10	X11	X12	X13	X14	X15	Y
0	0.506278	-0.231322	0.759771	-0.172927	-0.687524	-0.556815	-1.381369	1.633690	-0.869129	0.370614	0.615057	-0.416594	-1.175980	0.113494	-0.539230	1
1	0.017220	1.530047	0.676838	1.533623	-0.516027	0.949166	-1.180669	1.895021	-1.211768	-1.081109	-1.067039	-0.611829	0.846854	-0.812381	0.823546	0
2	1.436089	0.038078	-0.120501	0.914955	-1.504149	0.443893	-0.696385	0.245013	1.221166	-1.387287	-1.762048	-0.556466	0.130129	0.517210	1.056730	0
3	-0.926337	-0.665242	-0.106853	-1.111627	-0.127867	0.746742	-0.345943	0.848144	0.374944	-0.951299	1.097359	0.754369	-0.221183	-0.430509	0.756875	1
4	-0.350953	-0.044709	-0.421777	1.359772	-1.619690	-0.645908	-1.717975	-0.598477	1.026014	-0.134644	-0.988988	0.513048	-0.886113	0.247288	-0.016664	0

3-1

y컬럼을 종속변수로하는 로지스틱회귀 모형을 만들 떄 유의미하지 않은 변수의 개수는? % 상수항은 추가하여 모델링하라

3-2

**유의한 변수들 만으로 다시 모델링을 해서 X를 포함하는 독립변수들의 회귀계수 합계를 소숫점 이하 3째 자리까지 구하여라 **

3-3

3-2번의 모델 결과에 대해 X뒤의 숫자가 가장 낮은 컬럼이 5단위 늘어나면 오즈비 몇 배로 변화?

Attention

데이터 설명 : 키,체중,뇌사이즈에 따른 지능(PIQ) 데이터 출처 : online.stat.psu.edu 데이터 url : https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p3_1.csv

import pandas as pd 
df= pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e8_p3_2.csv')
df.head()

	PIQ	Brain	Height	Weight
0	124	81.69	64.5	118
1	150	103.84	73.3	143
2	128	96.54	68.8	172
3	134	95.15	65.0	147
4	110	92.88	69.0	146

3-4

PIQ를 예측하는 다중선형회귀 모형을 만들고 Brain의 회귀 계수를 구하여라

3-5

모델의 r2를 구하여라

3-6

위에서 계산한 모델을 이용하여 뇌크기 90 키 70 몸무게 150일 때 지능을 예측하라

8회 기출 변형

Contents

8회 기출 변형#

작업 1유형#

작업 2유형#

작업 3유형#