사이파이 튜토리얼

사이파이 튜토리얼#

웹 광고 한번 눌러주세요!!!

주요 모듈

6가지 대표 하위 메소드중 통계분석을 위한 stats를 위주로 학습

scipy
│
├── 01 integrate 수치적분, 미분방정식
│  
├── 02 linalg (선형대수, 매트릭스 분해)
│ 
├── 03 optimize (방정식 해 구하는 알고리즘, 함수 최적화)
│ 
├── 04 signal (신호 관련)
│
├── 05 sparse (희소 행렬, 희소 선형 시스템)
│
└── 06 stats (통계 분석) 

stats 하위 모듈

252개

from scipy import stats
print(len([x for x in dir(stats) if x[0] !='_'  ]))

stats 주요 모듈#

scipy.stats
│
├── 01 T-test
│   │
│   ├── ttest_1samp         (단일표본 t검정)
│   ├── ttest_ind           (독립표본 t검정)
│   └── ttest_rel           (대응표본 t검정) 
│ 
├── 02 비모수 검정
│   │
│   ├── mannwhitneyu        (맨-휘트니 U 검정 - 중위수 , 윌콕슨 순위합 검정과 동일하다 볼 수 있음)
│   ├── ranksums            (윌콕슨 순위합 검정 - 중위수)
│   └── wilcoxon            (윌콕슨 부호 순위합 검정)
│ 
├── 03 정규정 검정
│   │
│   ├── anderson            (Anderson-Darling , 데이터수가 상대적으로 많을 때)
│   ├── kstest              (Kolmogorov-Smirnov , 데이터수가 상대적으로 많을 때)
│   ├── mstats.normaltest
│   └── shapiro             (shapiro, 노말분포 가장 엄격하게 검정, 데이터수가 상대적으로 적을때)
│   
├── 04 등분산 검정
│   │
│   ├── bartlett
│   ├── fligner
│   └── levene
│
├── 05 카이제곱검정
│   │
│   ├── chi2_contingency     (카이제곱독립검정, 독립성 검정)
│   ├── chisquare            (카이제곱검정 , 적합도 검정)
│   └── fisher_exact         (피셔 정확 검정 - 빈도수가 5개 이하 셀의 수가 전체 셀의 20%이상일 경우 사용 )
│
└── 06 ANOVA (일원분산분석)
    │
    └── f_oneway (분산 분석은  statmodels 모듈이 더 좋음! )

dir , help를 이용해서 파라미터들 찾아가며 사용하기

예제 데이터는 랜덤 생성하였습니다

정규성 검정#

Question

다음 데이터의 정규성을 검증하라

import pandas as pd 
import matplotlib.pyplot as plt
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/normal1.csv')
plt.hist(df)
plt.show()

../../_images/d7d2ca300a33b9c0dc2dcc2426b0d67efeb2bcf0eb6116d433cd180c04c53156.png

Question

다음 데이터의 정규성을 검증하라

import pandas as pd 
import matplotlib.pyplot as plt
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/normal3.csv')
plt.hist(df)
plt.show()

../../_images/a0e38095070b4e8c6b10f4e25d043403210bbe9181504f036e8959c56297eee2.png

Question

위의 데이터를 log변환 한 후에 정규성을 가지는지 확인하라

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/normal3.csv')
log_y_data = np.log1p(df)

plt.hist(log_y_data)
plt.show()

../../_images/8474aaa06d8d392da768e8a38f3b90a644bf30a34cb0f4b0cc056138593540b5.png

Question

다음 데이터의 정규성을 검증하라

import pandas as pd 
import matplotlib.pyplot as plt
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/normal6.csv')
plt.hist(df)
plt.show()

../../_images/eb9f0d1b4de89d2e1bed84456a39c6b3dff7e2521dfcd5366b779f65c473ce66.png

단일 표본 t검정 (one-sample)#

Question

100명의 키 정보가 들어 있는 데이터가 있다.데이터가 정규성을 만족하는지 확인하라.
그리고 평균키는 165라 판단할수 있는지 귀무가설과 대립가설을 설정한 후 유의수준 5%로 검정하라.

import pandas as pd 
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/height1.csv')

Show code cell content Hide code cell content

from scipy.stats import ttest_1samp
from scipy.stats import shapiro
from scipy.stats import wilcoxon

# 정규성 검정 샤피로
static, pvalue = shapiro(df)
print('샤피로 정규성 검정 p-value : ',pvalue,'이므로')

if pvalue < 0.05:
    print('귀무가설을 기각한다. 정규성을 만족하지 않으므로 비모수 검정을 진행한다. 윌콕슨 순위 부호 검정을 진행한다.\n')
    print('윌콕슨 순위 부호 검정의 귀무가설은 "100명 키의 평균은 165이다." 이며 대립가설은 "100명 키의 평균은 165가 아니다." 이다')
    
    #윌콕슨 부호순위 검정
    static, pvalue = wilcoxon(df['height']-165) # or static, pvalue = wilcoxon(df['height'], np.ones(len(df)) *165)
    
    
    
    if pvalue < 0.05:
        print(f'검정 결과 pvalue는 {pvalue}로 결과는 귀무가설을 기각하고 대립가설을 채택한다.')
    else:
        print(f'검정 결과 pvalue는 {pvalue}로 결과는 귀무가설을 기각하지 않는다.')
    
    
else:
    print('귀무가설을 기각하지 않는다. 정규성을 만족하므로 단일표본 검정으로 확인한다.\n')
    print('단일표본 t-test의 귀무가설은 "100명 키의 평균은 165이다." 이며 대립가설은 "100명 키의 평균은 165가 아니다." 이다')
    
    #단일 표본 t 검정
    static, pvalue = ttest_1samp(df['height'],165) 
    if pvalue < 0.05:
        print(f'검정 결과 pvalue는 {pvalue}로 결과는 귀무가설을 기각하고 대립가설을 채택한다.')
    else:
        print(f'검정 결과 pvalue는 {pvalue}로 결과는 귀무가설을 기각하지 않는다.')  

샤피로 정규성 검정 p-value :  0.455832302570343 이므로
귀무가설을 기각하지 않는다. 정규성을 만족하므로 단일표본 검정으로 확인한다.

단일표본 t-test의 귀무가설은 "100명 키의 평균은 165이다." 이며 대립가설은 "100명 키의 평균은 165가 아니다." 이다
검정 결과 pvalue는 0.0018367171548080209로 결과는 귀무가설을 기각하고 대립가설을 채택한다.

Question

100명의 키 정보가 들어 있는 데이터가 있다.데이터가 정규성을 만족하는지 확인하라.
그리고 평균키는 165라 판단할수 있는지 귀무가설과 대립가설을 설정한 후 유의수준 5%로 검정하라.

import pandas as pd 
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/height2.csv')

Show code cell content Hide code cell content

from scipy.stats import ttest_1samp
from scipy.stats import shapiro
from scipy.stats import wilcoxon

# 정규성 검정 샤피로
static, pvalue = shapiro(df)
print('샤피로 정규성 검정 p-value : ',pvalue,'이므로')

if pvalue < 0.05:
    print('귀무가설을 기각한다. 정규성을 만족하지 않으므로 비모수 검정을 진행한다. 윌콕슨 순위 부호 검정을 진행한다.\n')
    print('윌콕슨 순위 부호 검정의 귀무가설은 "100명 키의 평균은 165이다." 이며 대립가설은 "100명 키의 평균은 165가 아니다." 이다')
    
    #윌콕슨 부호순위 검정
    static, pvalue = wilcoxon(df['height']-165) # or static, pvalue = wilcoxon(df['height'], np.ones(len(df)) *165)
    
    
    
    if pvalue < 0.05:
        print(f'검정 결과 pvalue는 {pvalue}로 결과는 귀무가설을 기각하고 대립가설을 채택한다.')
    else:
        print(f'검정 결과 pvalue는 {pvalue}로 결과는 귀무가설을 기각하지 않는다.')
    
    
else:
    print('귀무가설을 기각하지 않는다. 정규성을 만족하므로 단일표본 검정으로 확인한다.\n')
    print('단일표본 t-test의 귀무가설은 "100명 키의 평균은 165이다." 이며 대립가설은 "100명 키의 평균은 165가 아니다." 이다')
    
    #단일 표본 t 검정
    static, pvalue = ttest_1samp(df['height'],165) 
    if pvalue < 0.05:
        print(f'검정 결과 pvalue는 {pvalue}로 결과는 귀무가설을 기각하고 대립가설을 채택한다.')
    else:
        print(f'검정 결과 pvalue는 {pvalue}로 결과는 귀무가설을 기각하지 않는다.')  

샤피로 정규성 검정 p-value :  0.013552471995353699 이므로
귀무가설을 기각한다. 정규성을 만족하지 않으므로 비모수 검정을 진행한다. 윌콕슨 순위 부호 검정을 진행한다.

윌콕슨 순위 부호 검정의 귀무가설은 "100명 키의 평균은 165이다." 이며 대립가설은 "100명 키의 평균은 165가 아니다." 이다
검정 결과 pvalue는 0.04880534424649582로 결과는 귀무가설을 기각하고 대립가설을 채택한다.

등분산 검정#

Question

두개 학급의 시험성적에 대한 데이터이다 그룹간 등분산 검정을 시행하라

import pandas as pd 
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/scipy2.csv')
df.head()

	class	score
0	A	84
1	A	59
2	A	49
3	A	57
4	A	82

Question

두개 학급의 시험성적에 대한 데이터이다 그룹간 등분산 검정을 시행하라

import pandas as pd 
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/scipy3.csv')
df.head()

	class	score
0	A	32
1	A	69
2	A	68
3	A	60
4	A	78

Question

두개 학급의 시험성적에 대한 데이터이다 그룹간 등분산 검정을 시행하라

import pandas as pd 
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/scipy6.csv')
df.head()

	A	B
0	44	36
1	61	92
2	76	41
3	64	45
4	65	35

Question

두개 학급의 시험성적에 대한 데이터이다 그룹간 등분산 검정을 시행하라

import pandas as pd 
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/scipy5.csv')
df.head()

	A	B
0	74	30.0
1	30	59.0
2	35	69.0
3	45	88.0
4	74	68.0

독립표본 검정 (Independent)#

독립 표본 t검정의 경우 집단의 정규성에 따라 접근방식이 다르다
정규성 검정은 shapiro , anderson(샘플 5000개 이상) 을 통해 확인

데이터가 정규성을 가지는 경우(모수적 검정)
두 집단의 등분산 검정을 한 후
from scipy.stats import ttest_ind
등분산일 경우
\( \begin{align} t = \dfrac{\bar{x}_1 - \bar{x}_2}{s \cdot \sqrt{\dfrac{1}{N_1}+\dfrac{1}{N_2}}} \tag{equal_var=True} \end{align} \)

등분산이 아닐 경우
\( \begin{align} t = \dfrac{\bar{x}_1 - \bar{x}_2}{\sqrt{\dfrac{s_1^2}{N_1} + \dfrac{s_2^2}{N_2}}} \tag{equal_var=False , welch t-test} \end{align} \)

데이터가 정규성을 가지지 않는 경우(비모수적 검정)

Question

두개 학급의 시험성적에 대한 데이터이다. 두 학습의 시험 평균(비모수검정의 경우 중위값)은 동일하다 말할 수 있는지 확인 하라

import pandas as pd 
import matplotlib.pyplot as plt
df1 = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/ind1.csv')
df2 = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/ind2.csv')


plt.hist(df1,label='df1',alpha=0.4)
plt.hist(df2,label="df2",alpha=0.4)
plt.xlabel('Score bins')
plt.ylabel('Counts')
plt.legend()
plt.show()

../../_images/3feb77c263b5e832d9ad785f1d294c8882cfff22dd4d9219def516f0fa37f6e8.png

Question

두개 학급의 시험성적에 대한 데이터이다. 두 학습의 시험 평균(비모수검정의 경우 중위값)은 동일하다 말할 수 있는지 확인 하라

import pandas as pd 
import matplotlib.pyplot as plt
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/scipy5.csv')

plt.hist(df['A'],alpha=0.5,label='A')
plt.hist(df['B'].dropna(),alpha=0.5,label="B")
plt.xlabel('Score bins')
plt.ylabel('Counts')
plt.legend()
plt.show()

../../_images/e024ad3c1bb3777c44318b0b3dc23032c8d053787ae4d35d3e3893c1accde933.png

Question

두개 그룹에 대한 수치형 데이터이다. 두 그룹의 평균은 동일하다 말할 수 있는지 검정하라

import pandas as pd 
import matplotlib.pyplot as plt
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/ind3.csv')

plt.hist(df[df['group'] =='a'].data,label='A',alpha=0.5)
plt.hist(df[df['group'] =='b'].data,label="B",alpha=0.5)
plt.xlabel('Score bins')
plt.ylabel('Counts')
plt.legend()
plt.show()

../../_images/99c000314621cbd44605b4a5f17a84f68f10c5e397244e75b33b8c24ccdee641.png

Show code cell content Hide code cell content

a = df[df['group'] =='a'].data
b = df[df['group'] =='b'].data


from scipy.stats import shapiro
print(shapiro(a))
print(shapiro(b))

print("두 그룹 모두 Shapiro검정 결과 귀무가설(정규성을 가진다)을 기각 하지 못한다. 두 그룹은 정규성을 가진다.")

from scipy.stats import levene
print()
print(levene(a,b))
print("두그룹은 levene 검정을 확인해 본결과 pvalue 는 0.013로 귀무가실을 기각하고 대립가설을 채택한다. 두 그룹은 등분산이 아니다")

from scipy.stats import ttest_ind
print()
print(ttest_ind(a,b,equal_var=False))

print('''등분산이 아니기 때문에 equal_var=False 파라미터를 주고 ttest_ind 모듈을 이용하여 t test를 진행한다
pvalue는 0.02이므로 귀무가설(각 그룹의 평균값은 동일하다)를 기각하고 대립가설을 채택한다
결론적으로 두 그룹은 모두 정규성을 가지지만 등분산은 아니며 평균은 동일하다고 보기 어렵다
''')

ShapiroResult(statistic=0.9834123253822327, pvalue=0.1473984718322754)
ShapiroResult(statistic=0.9831849336624146, pvalue=0.47018250823020935)
두 그룹 모두 Shapiro검정 결과 귀무가설(정규성을 가진다)을 기각 하지 못한다. 두 그룹은 정규성을 가진다.

LeveneResult(statistic=6.185601018015722, pvalue=0.013750484571911342)
두그룹은 levene 검정을 확인해 본결과 pvalue 는 0.013로 귀무가실을 기각하고 대립가설을 채택한다. 두 그룹은 등분산이 아니다

Ttest_indResult(statistic=-2.1949470315829265, pvalue=0.029512802991767915)
등분산이 아니기 때문에 equal_var=False 파라미터를 주고 ttest_ind 모듈을 이용하여 t test를 진행한다
pvalue는 0.02이므로 귀무가설(각 그룹의 평균값은 동일하다)를 기각하고 대립가설을 채택한다
결론적으로 두 그룹은 모두 정규성을 가지지만 등분산은 아니며 평균은 동일하다고 보기 어렵다

Question

두개 그룹에 대한 수치형 데이터이다. 두 그룹의 평균은 동일하다 말할 수 있는지 검정하라

import pandas as pd 
import matplotlib.pyplot as plt
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/ind6.csv')

plt.hist(df['a'],alpha=0.5,label='A')
plt.hist(df['b'],alpha=0.5,label="B")
plt.xlabel('Score bins')
plt.ylabel('Counts')
plt.legend()
plt.show()

../../_images/a4a2be5dfcfe58e1cbc9abdc939114f5008d3a567a29ca90cf54b0414061dc39.png

대응표본 t 검정 (paired)#

Question

특정 질병 집단의 투약 전후의 혈류량 변화를 나타낸 데이터이다. 투약 전후의 변화가 있는지 검정하라

import pandas as pd 
import matplotlib.pyplot as plt
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/rel2.csv')

fig ,ax = plt.subplots(1,2)
ax[0].boxplot(df['before'])
ax[1].boxplot(df['after'])
ax[0].set_xticklabels(['before'])
ax[1].set_xticklabels(['after'])
ax[0].set_ylim(100,350)
ax[1].set_ylim(100,350)
ax[1].get_yaxis().set_visible(False)
ax[0].set_ylabel('value')
plt.show()

../../_images/2f2e769b256b7a92951e005b13bfb9a8de48b11417552237e04a2662ea93a801.png

Question

특정 질병 집단의 투약 전후의 혈류량 변화를 나타낸 데이터이다. 투약 전후의 변화가 있는지 검정하라

import pandas as pd 
import matplotlib.pyplot as plt
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/rel3.csv')

fig ,ax = plt.subplots(1,2)
ax[0].boxplot(df['before'])
ax[1].boxplot(df['after'])
ax[0].set_xticklabels(['before'])
ax[1].set_xticklabels(['after'])
ax[0].set_ylim(130,300)
ax[1].set_ylim(130,300)
ax[1].get_yaxis().set_visible(False)
ax[0].set_ylabel('value')
plt.show()

../../_images/17a29985e1c90da385e5201b6c9ba6b7a1f2653f9679b07888a755ee7267c5c2.png

Question

특정 집단의 학습 전후 시험 성적 변화를 나타낸 데이터이다. 시험 전과 후에 차이가 있는지 검정하라

import pandas as pd 
import matplotlib.pyplot as plt
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/rel1.csv')

fig ,ax = plt.subplots(1,2)
ax[0].boxplot(df['before'])
ax[1].boxplot(df['after'])
ax[0].set_xticklabels(['before'])
ax[1].set_xticklabels(['after'])
ax[0].set_ylim(145,170)
ax[1].set_ylim(145,170)
ax[1].get_yaxis().set_visible(False)
ax[0].set_ylabel('value')
plt.show()

../../_images/33abecd16fce5ebfb50410a10c7bca00a9656ea58e255904a2271590b0dd74ae.png

Question

한 기계 부품의 rpm 수치를 두가지 다른 상황에서 측정했다.(총 70세트) b 상황이 a 상황보다 rpm값이 높다고 말할 수 있는지 검정하라

import pandas as pd 
import matplotlib.pyplot as plt
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/rel4.csv')

fig ,ax = plt.subplots(1,2)
ax[0].boxplot(df[df['group']=='a'].rpm)
ax[1].boxplot(df[df['group']=='b'].rpm)
ax[0].set_xticklabels(['a'])
ax[1].set_xticklabels(['b'])
ax[0].set_ylim(430,600)
ax[1].set_ylim(430,600)
ax[1].get_yaxis().set_visible(False)
ax[0].set_ylabel('rpm')
plt.show()

../../_images/6c324f43ea4d781083c7f1f67d4c244a61cc5e4aaf32605a9f398531b8c35a3d.png

카이제곱 검정 (교차분석)#

일원 카이제곱검정 (chisquare , 카이제곱 적합도 검정)
한 개의 요인에 의해 k개의 범주를 가질때 이론적 분포를 따르는지 검정
이원 카이제곱검정 (chi2_contingency ,fisher_exact(빈도수 5개 이하 셀이 20% 이상일때) , 카이제곱독립검정)
모집단이 두개의 변수에 의해 범주화 되었을 때, 두 변수들 사이의 관계가 독립인지 아닌지 검정

Question

144회 주사위를 던졌을때, 각 눈금별로 나온 횟수를 나타낸다. 이 데이터는 주사위의 분포에서 나올 가능성이 있는지 검정하라

import pandas as pd 
import matplotlib.pyplot as plt
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/dice.csv')

plt.bar(df.dice_number,df.counts)
plt.xlabel('dice value')
plt.ylabel('counts')
plt.show()

../../_images/4ac6f4156c0d0cae5b606aaba60dd4376315247ad1ec67f4f87be633f2c45d77.png

Question

다음 데이터는 어떤 집단의 왼손잡이, 오른손 잡이의 숫자를 나타낸다. 인간의 왼손잡이와 오른손잡이의 비율을 0.2:0.8로 알려져있다.
이 집단에서 왼손과 오른손 잡이의 비율이 적합한지 검정하라

import pandas as pd 
import matplotlib.pyplot as plt
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/hands2.csv')
df.head()

	hands
0	right
1	right
2	left
3	right
4	right

Show code cell content Hide code cell content

# 데이터에서 

target = df.hands.value_counts().to_frame()
target['expected'] = [int(target.hands.sum()*0.8),int(target.hands.sum()*0.2)]
display(target)

from scipy.stats import chisquare
print(chisquare(target.hands,target.expected))

# 알려진 비율로 계산된 기댓값을 구하여 카이제곱검정을 시행한다.
# p-value는 0.02로 유의수준 5%이내에서 귀무가설을 기각하고 대립가설을 채택한다
# 즉 주어진 집단의 왼손, 오른손 비율은 0.2, 0.8으로 볼 수 없다

	hands	expected
right	420	400
left	80	100

Power_divergenceResult(statistic=5.0, pvalue=0.025347318677468325)

Question

다음 데이터는 국민 기초체력을 조사한 데이터이다. 성별과 등급이 독립적인지 검정하라

import pandas as pd 
import matplotlib.pyplot as plt
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/body/body.csv')
df.head()

	측정나이	측정회원성별	신장 : cm	체중 : kg	체지방율 : %	이완기혈압(최저) : mmHg	수축기혈압(최고) : mmHg	악력D : kg	앉아윗몸앞으로굽히기 : cm	교차윗몸일으키기 : 회	제자리 멀리뛰기 : cm	등급
0	59.0	M	175.0	70.6	19.2	91.0	150.0	40.6	12.2	30.0	179.0	C
1	40.0	F	161.4	45.8	21.7	62.0	119.0	22.1	16.0	32.0	165.0	B
2	27.0	M	176.6	84.8	19.2	87.0	153.0	45.9	13.2	61.0	216.0	B
3	38.0	M	167.6	76.7	24.7	63.0	132.0	43.6	16.0	45.0	231.0	A
4	21.0	M	165.2	66.2	21.5	83.0	106.0	33.5	10.6	46.0	198.0	C

Show code cell content Hide code cell content

cdf = pd.crosstab(df['측정회원성별'],df['등급'])
display(cdf)

from scipy.stats import chi2_contingency
print(chi2_contingency(cdf))
chi2 , p ,dof, expected = chi2_contingency(cdf)
print(p)

# p-value는 0에 근접하므로 측정회원성별 - 등급은 연관이 없다는 귀무가설을 기각하고, 성별관 체력 등급간에는 관련이 있다고 볼 수 있다.

등급	A	B	C	D
측정회원성별
F	1484	1130	1147	1120
M	1865	2219	2202	2229

(120.06233631119409, 7.481892813401677e-26, 3, array([[1220.25, 1220.25, 1220.25, 1220.25],
       [2128.75, 2128.75, 2128.75, 2128.75]]))
7.481892813401677e-26

Question

성별에 따른 동아리 활동 참석 비율을 나타낸 데이터이다. 성별과 참석간에 관련이 있는지 검정하라

import pandas as pd 
import matplotlib.pyplot as plt
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/scipy/fe2.csv',index_col=0)
df

	불참	참석	총합
남성	4	2	6
여성	1	9	10
총합	5	11	16

Show code cell content Hide code cell content

cdf = df.iloc[:-1,:-1]
display(cdf)

from scipy.stats import chi2_contingency,fisher_exact
print(chi2_contingency(cdf))
chi2 , p ,dof, expected = chi2_contingency(cdf)
print(p)

# 카이 제곱 검정시 p-value는 0.07로 귀무가설을 기각하지 못한다. 성별과 참석여부는 관련이 없다(독립이다).

# 하지만 5보다 작은 셀이 20%가 넘어가므로(75%) 피셔의 정확검정을 사용 해야한다.
# 피셔의 정확검정시 0.03의 값을 가지므로 귀무가설을 기각한다. 성별과 참석여부는 관련이 있다. (독립이 아니다)) 
print(fisher_exact(cdf))

	불참	참석
남성	4	2
여성	1	9

(3.277575757575758, 0.07023259819117404, 1, array([[1.875, 4.125],
       [3.125, 6.875]]))
0.07023259819117404
(18.0, 0.035714285714285726)

사이파이 튜토리얼

Contents

사이파이 튜토리얼#

stats 주요 모듈#

정규성 검정#

단일 표본 t검정 (one-sample)#

등분산 검정#

독립표본 검정 (Independent)#

대응표본 t 검정 (paired)#

카이제곱 검정 (교차분석)#