작업1유형 (R)#

Hits

다양한 데이터#

유튜브 인기동영상 데이터#

Question

인기동영상 제작횟수가 많은 채널 상위 10개명을 출력하라 (날짜기준, 중복포함)

# 워닝제거
assign("last.warning", NULL, envir = baseenv())
library(dplyr)
df <- read.csv("https://raw.githubusercontent.com/Datamanim/datarepo/main/youtube/youtube.csv")

Ans<-
    df%>%
    group_by(channelTitle)%>%
    summarise(n=n())%>%
    arrange(desc(n))%>%
    slice(c(1:10))%>%
    select(1)

Ans
A tibble: 10 × 1
channelTitle
<chr>
짤툰
파뿌리
SPOTV
런닝맨 - 스브스 공식 채널
엠뚜루마뚜루 : MBC 공식 종합 채널
장삐쭈
BANGTANTV
채널 십오야
이과장
총몇명

Question

논란으로 인기동영상이 된 케이스를 확인하고 싶다. dislikes수가 like 수보다 높은 동영상을 제작한 채널을 모두 출력하라

Ans<-unique(df[which(df$dislikes > df$likes),'channelTitle'])
Ans
  1. '핫도그TV'
  2. 'ASMR 애정TV'
  3. '하얀트리HayanTree'
  4. '양팡 YangPang'
  5. '철구형 (CHULTUBE)'
  6. '왜냐맨하우스'
  7. '(MUTUBE)와꾸대장봉준'
  8. '오메킴TV'
  9. '육지담'
  10. 'MapleStory_KR'
  11. 'ROAD FIGHTING CHAMPIONSHIP'
  12. '사나이 김기훈'
  13. '나혼자산다 STUDIO'
  14. 'Gen.G esports'

Question

채널명을 바꾼 케이스가 있는지 확인하고 싶다. channelId의 경우 고유값이므로 이를 통해 채널명을 한번이라도 바꾼 채널의 갯수를 구하여라

Ans<-df %>%
    group_by(channelId,channelTitle) %>%
    summarise(n=n(), .groups = 'drop') %>%
    count(channelId) %>%
    filter(n>1) %>%
    nrow

print(Ans)
[1] 71

Question

일요일에 인기있었던 영상들중 가장많은 영상 종류(categoryId)는 무엇인가?

df$weekday <- as.factor(weekdays(as.POSIXct(df$trending_date2)))
Ans<-df %>%
    filter(weekday=="일요일") %>%  # filter(weekday=="Sunday") %>% 
    group_by(categoryId) %>%
    summarise(n=n()) %>% 
    arrange(desc(n)) %>% 
    slice(1)
print(Ans[,1])
# A tibble: 1 x 1
  categoryId
       <int>
1         24

Question

각 요일별 인기 영상들의 categoryId는 각각 몇개 씩인지 하나의 데이터 프레임으로 표현하라

data<- df %>% 
    select(c("categoryId", "weekday")) %>% 
    arrange(weekday)

Ans<- table(data)
print(Ans)
          weekday
categoryId 금요일 목요일 수요일 월요일 일요일 토요일 화요일
        1     243    246    234    263    274    255    257
        2     120    128    129    105     99    119    119
        10    833    890    917    837    830    776    894
        15    187    207    207    215    217    198    208
        17    633    682    706    668    636    592    708
        19     90     92     85     92     91     87     89
        20    283    282    291    298    289    296    285
        22   1288   1341   1333   1373   1337   1289   1375
        23    568    560    566    594    556    570    569
        24   2976   2954   3090   3148   3096   3066   3084
        25    444    470    468    453    437    422    452
        26    369    375    385    378    363    364    394
        27    183    194    212    205    199    183    194
        28    171    166    165    160    167    173    161
        29     12     13     12     10      9     10     11

Question

댓글의 수로 (comment_count) 영상 반응에 대한 판단을 할 수 있다. viewcount대비 댓글수가 가장 높은 영상을 확인하라 (view_count값이 0인 경우는 제외한다)

Ans<-df %>% 
    mutate(ratio = comment_count/view_count) %>% 
    arrange(desc(ratio)) %>% 
    filter(ratio>0 & ratio != "Inf") %>% 
    select(title) %>% 
    slice(1)

print(Ans)
                                                        title
1 60분 동안 댓글이 달리지 않으면, 영상이 삭제됩니다. (챌린지)

Question

댓글의 수로 (comment_count) 영상 반응에 대한 판단을 할 수 있다.viewcount대비 댓글수가 가장 낮은 영상을 확인하라 (view_counts, ratio값이 0인경우는 제외한다.)

Ans<-df %>% 
    mutate(ratio = comment_count/view_count) %>% 
    arrange(ratio) %>% 
    filter(ratio>0) %>% 
    select(title) %>% 
    slice(1)

print(Ans)
                                                              title
1 Join the BTS #PermissiontoDance Challenge only on YouTube #Shorts

Question

like 대비 dislike의 수가 가장 적은 영상은 무엇인가? (like, dislike 값이 0인경우는 제외한다)

Ans<- df %>% 
    mutate(ratio = dislikes/likes) %>% 
    arrange(ratio) %>% 
    filter(ratio>0) %>% 
    select(title) %>% 
    slice(1)
print(Ans)
                                                                                                           title
1 [줌터뷰] *최초공개* 사부작즈🐰🐶의 비공식 이름은 아이라인즈? 꿀조합 티키타카 가득한 NCT 127 도영&정우의 줌터뷰

Question

가장많은 트렌드 영상을 제작한 채널의 이름은 무엇인가? (날짜기준, 중복포함)

Ans <- df %>% 
    group_by(channelTitle) %>% 
    summarise(n=n()) %>% 
    arrange(desc(n)) %>% 
    select(channelTitle) %>% 
    slice(1)
print(Ans)
# A tibble: 1 x 1
  channelTitle
  <chr>       
1 짤툰        

Question

20회(20일)이상 인기동영상 리스트에 포함된 동영상의 숫자는?

Ans<-df %>% 
    group_by(title,channelId) %>% 
    summarise(n=n(), .groups = 'drop') %>% 
    filter(n>=20) %>%
    nrow()


print(Ans)
[1] 40

유튜브 공범컨텐츠 동영상 데이터#

Attention

데이터 출처 :https://www.kaggle.com/kukuroo3/youtube-episodic-contents-kr(참고, 데이터 수정)
데이터 설명 : 유튜브 “공범” 컨텐츠 동영상 정보 ( 10분 간격 수집)
dataurl1 (비디오 정보) = https://raw.githubusercontent.com/Datamanim/datarepo/main/youtube/videoInfo.csv
dataurl2 (참가자 채널 정보)= https://raw.githubusercontent.com/Datamanim/datarepo/main/youtube/channelInfo.csv

Question

각 데이터의 ‘ct’컬럼을 시간으로 인식할수 있게 datatype을 변경하고 video 데이터의 videoname의 각 value 마다 몇개의 데이터씩 가지고 있는지 확인하라

library(dplyr)
ch <- read.csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/youtube/channelInfo.csv')
vd <- read.csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/youtube/videoInfo.csv')

Ans<-vd %>% 
    group_by(videoname) %>% 
    summarise(n=n())


Ans
A tibble: 8 × 2
videonamen
<chr><int>
공범 EP13492
공범 EP23204
공범 EP32568
공범 EP42280
공범 EP51562
공범 EP61274
공범 EP7 555
공범 EP8 266

Question

수집된 각 video의 가장 최신화 된 날짜의 viewcount값을 출력하라

Ans <- vd %>% 
    arrange(desc(ct), videoname ) %>% 
    distinct(videoname, .keep_all=T) 

Ans
A data.frame: 8 × 8
videopkviewcntlikecntdislikecntfavoritecntcmcntctvideoname
<chr><int><int><int><int><int><chr><chr>
QUjQbgj5IXM163020029335 4000182472021-11-01 15:30:05 공범 EP7
yZt-h-KcmUE12890882561636210316632021-11-01 15:30:05 공범 EP8
hv7FBjskAu0150343519926 4210124342021-11-01 15:30:04 공범 EP5
AxGKHmXyuAE175022224494 3890130252021-11-01 15:30:04 공범 EP6
c5JQp6xafqc31805324104311130 76742021-11-01 15:30:03 공범 EP1
23QQ1ru9YQg219932825566 7630 91712021-11-01 15:30:03 공범 EP2
GygoAk1hDU0167129422719 5080124992021-11-01 15:30:03 공범 EP3
bK0_3Vbfvs8181849322703 4080169492021-11-01 15:30:03 공범 EP4

Question

Channel 데이터중 2021-10-03일 이후 각 채널의 처음 기록 됐던 구독자 수(subcnt)를 출력하라

Ans<- channel %>% 
    filter(ct>="2021-10-3") %>% 
    arrange(ct, channelname ) %>% 
    distinct(channelname, .keep_all=T) %>% 
    select(2,6)

Ans
A data.frame: 11 × 2
subcntchannelname
<int><chr>
909000논리왕 전기
266000야전삽짱재
54900와글와글 WagleWagle
226000조나단
323000츄정ChuJeong
469000곽토리 kwak tori
9030김농밀의 농밀한 삶
20000릴펄 Lilpearl
24000형사!탐정되다
1400000꽈뚜룹
56600Balming Tiger

Question

각채널의 2021-10-03 03:00:00 ~ 2021-11-01 15:00:00 까지 구독자수 (subcnt) 의 증가량을 구하여라

start <- ch %>% 
    filter(ct >="2021-10-03 03:00:00" & ct<="2021-11-01 15:00:00") %>% 
    arrange(ct) %>% 
    distinct(channelname, .keep_all = T) %>% 
    select(6,2)

end <- ch %>% 
    filter(ct >="2021-10-03 03:00:00" & ct<="2021-11-01 15:00:00") %>% 
    arrange(desc(ct)) %>% 
    distinct(channelname, .keep_all = T) %>% 
    select(6,2)


change <- merge(start, end, by="channelname")
change$del<-change$subcnt.y - change$subcnt.x


Ans <- change %>% select(1,4)
Ans
A data.frame: 11 × 2
channelnamedel
<chr><int>
곽토리 kwak tori -2000
김농밀의 농밀한 삶 1540
꽈뚜룹 70000
논리왕 전기 -11000
릴펄 Lilpearl 11000
야전삽짱재 11000
와글와글 WagleWagle 0
조나단 12000
츄정ChuJeong 1000
형사!탐정되다 10300
Balming Tiger 2500

Question

각 비디오는 10분 간격으로 구독자수, 좋아요, 싫어요수, 댓글수가 수집된것으로 알려졌다. 공범 EP1의 비디오정보 데이터중 수집간격이 5분 이하, 20분이상인 데이터 구간( 해당 시점 전,후) 의 시각을 모두 출력하라

Question

각 에피소드의 시작날짜(년-월-일)를 에피소드 이름과 묶어 데이터 프레임으로 만들고 출력하라

Question

“공범” 컨텐츠의 경우 19:00시에 공개 되는것으로 알려져있다. 공개된 날의 21시의 viewcnt, ct, videoname 으로 구성된 데이터 프레임을 viewcnt를 내림차순으로 정렬하여 출력하라

Question

video 정보의 가장 최근 데이터들에서 각 에피소드의 싫어요/좋아요 비율을 ratio 컬럼으로 만들고 videoname, ratio로 구성된 데이터 프레임을 ratio를 오름차순으로 정렬하라

Question

2021-11-01 00:00:00 ~ 15:00:00까지 각 에피소드별 viewcnt의 증가량을 데이터 프레임으로 만드시오

Question

video 데이터 중에서 중복되는 데이터가 존재한다. 중복되는 각 데이터의 시간대와 videoname 을 구하여라

월드컵 출전선수 골기록 데이터#

Attention

데이터 출처 :https://www.kaggle.com/darinhawley/fifa-world-cup-goalscorers-19302018(참고, 데이터 수정)
데이터 설명 : 1930 ~2018년도 월드컵 출전선수 골기록
data url = https://raw.githubusercontent.com/Datamanim/datarepo/main/worldcup/worldcupgoals.csv

Question

주어진 전체 기간의 각 나라별 골득점수 상위 5개 국가와 그 득점수를 데이터프레임형태로 출력하라

Question

주어진 전체기간동안 골득점을 한 선수가 가장 많은 나라 상위 5개 국가와 그 선수 숫자를 데이터 프레임 형식으로 출력하라

Question

Years 컬럼은 년도 -년도 형식으로 구성되어있고, 각 년도는 4자리 숫자이다. 년도 표기가 4자리 숫자로 안된 케이스가 존재한다. 해당 건은 몇건인지 출력하라

Question

**Q3에서 발생한 예외 케이스를 제외한 데이터프레임을 df2라고 정의하고 데이터의 행의 숫자를 출력하라 (아래 문제부터는 df2로 풀이하겠습니다) **

Question

월드컵 출전횟수를 나타내는 ‘LenCup’ 컬럼을 추가하고 4회 출전한 선수의 숫자를 구하여라

Question

Yugoslavia 국가의 월드컵 출전횟수가 2회인 선수들의 숫자를 구하여라

Question

2002년도에 출전한 전체 선수는 몇명인가?

Question

이름에 ‘carlos’ 단어가 들어가는 선수의 숫자는 몇 명인가? (대, 소문자 구분 x)

Question

월드컵 출전 횟수가 1회뿐인 선수들 중에서 가장 많은 득점을 올렸던 선수는 누구인가?

Question

월드컵 출전횟수가 1회 뿐인 선수들이 가장 많은 국가는 어디인가?

서울시 따릉이 이용정보 데이터#

Attention

데이터 출처 :https://www.data.go.kr/data/15051872/fileData.do(참고, 데이터 수정)
데이터 설명 : 서울특별시_공공자전거 시간대별 이용정보
data url = https://raw.githubusercontent.com/Datamanim/datarepo/main/bicycle/seoul_bi.csv

Question

대여일자별 데이터의 수를 데이터프레임으로 출력하고, 가장 많은 데이터가 있는 날짜를 출력하라

Question

각 일자의 요일을 표기하고 (‘Monday’ ~’Sunday’) ‘day_name’컬럼을 추가하고 이를 이용하여 각 요일별 이용 횟수의 총합을 데이터 프레임으로 출력하라

Question

각 요일별 가장 많이 이용한 대여소의 이용횟수와 대여소 번호를 데이터 프레임으로 출력하라

Question

나이대별 대여구분 코드의 (일일권/전체횟수) 비율을 구한 후 가장 높은 비율을 가지는 나이대를 확인하라. 일일권의 경우 일일권 과 일일권(비회원)을 모두 포함하라

Question

연령대별 평균 이동거리를 구하여라

Question

연령대 코드가 20대인 데이터를 추출하고,이동거리값이 추출한 데이터의 이동거리값의 평균 이상인 데이터를 추출한다.최종 추출된 데이터를 대여일자, 대여소 번호 순서로 내림차순 정렬 후 1행부터 200행까지의 탄소량의 평균을 소숫점 3째 자리까지 구하여라

Question

6월 7일 ~10대의 “이용건수”의 중앙값은?

Question

평일 (월~금) 출근 시간대(오전 6,7,8시)의 대여소별 이용 횟수를 구해서 데이터 프레임 형태로 표현한 후 각 대여시간별 이용 횟수의 상위 3개 대여소와 이용횟수를 출력하라

Question

이동거리의 평균 이상의 이동거리 값을 가지는 데이터를 추출하여 추출데이터의 이동거리의 표본표준편차 값을 구하여라

Question

남성(‘M’ or ‘m’)과 여성(‘F’ or ‘f’)의 이동거리값의 평균값을 구하여라

전세계 행복도 지표 데이터#

Attention

데이터 출처 :https://www.kaggle.com/unsdsn/world-happiness(참고, 데이터 수정)
데이터 설명 : 전세계 행복도 지표 조사
data url = https://raw.githubusercontent.com/Datamanim/datarepo/main/happy2/happiness.csv

Question

데이터는 2018년도와 2019년도의 전세계 행복 지수를 표현한다. 각년도의 행복랭킹 10위를 차지한 나라의 행복점수의 평균을 구하여라

Question

데이터는 2018년도와 2019년도의 전세계 행복 지수를 표현한다. 각년도의 행복랭킹 50위이내의 나라들의 각각의 행복점수 평균을 데이터프레임으로 표시하라

Question

2018년도 데이터들만 추출하여 행복점수와 부패에 대한 인식에 대한 상관계수를 구하여라

Question

2018년도와 2019년도의 행복랭킹이 변화하지 않은 나라명의 수를 구하여라

Question

2019년도 데이터들만 추출하여 각변수간 상관계수를 구하고 내림차순으로 정렬한 후 상위 5개를 데이터 프레임으로 출력하라. 컬럼명은 v1,v2,corr으로 표시하라

Question

각 년도별 하위 행복점수의 하위 5개 국가의 평균 행복점수를 구하여라

Question

2019년 데이터를 추출하고 해당데이터의 상대 GDP 평균 이상의 나라들과 평균 이하의 나라들의 행복점수 평균을 각각 구하고 그 차이값을 출력하라

Question

각년도의 부패에 대한인식을 내림차순 정렬했을때 상위 20개 국가의 부패에 대한인식의 평균을 구하여라

Question

2018년도 행복랭킹 50위 이내에 포함됐다가 2019년 50위 밖으로 밀려난 국가의 숫자를 구하여라

Question

2018년,2019년 모두 기록이 있는 나라들 중 년도별 행복점수가 가장 증가한 나라와 그 증가 수치는?

지역구 에너지 소비량 데이터#

Attention

데이터 출처 : https://archive.ics.uci.edu/ml/datasets/Power+consumption+of+Tetouan+city (참고, 데이터 수정)
데이터 설명 : 기온, 습도,바람풍속에 따른 도시의 3개 지역구의 에너지 소비량
data url = https://raw.githubusercontent.com/Datamanim/datarepo/main/consum/Tetuan City power consumption.csv

Question

DateTime컬럼을 통해 각 월별로 몇개의 데이터가 있는지 데이터 프레임으로 구하여라

Question

3월달의 각 시간대별 온도의 평균들 중 가장 낮은 시간대의 온도를 출력하라

Question

3월달의 각 시간대별 온도의 평균들 중 가장 높은 시간대의 온도를 출력하라

Question

Zone 1 Power Consumption 컬럼의 value값의 크기가 Zone 2 Power Consumption 컬럼의 value값의 크기보다 큰 데이터들의 Humidity의 평균을 구하여라

Question

각 zone의 에너지 소비량의 상관관계를 구해서 데이터 프레임으로 표기하라

Question

Temperature의 값이 10미만의 경우 A, 10이상 20미만의 경우 B,20이상 30미만의 경우 C, 그 외의 경우 D라고 할때 각 단계의 데이터 숫자를 구하여라

Question

6월 데이터중 12시의 Temperature의 표준편차를 구하여라

Question

6월 데이터중 12시의 Temperature의 분산을 구하여라

Question

Temperature의 평균이상의 Temperature의 값을 가지는 데이터를 Temperature를 기준으로 정렬 했을때 4번째 행의 Humidity 값은?

Question

**Temperature의 중간값 이상의 Temperature의 값을 가지는 데이터를Temperature를 기준으로 정렬 했을때 4번째 행의 Humidity 값은?

**

포켓몬 정보 데이터#

Attention

데이터 출처 : https://www.kaggle.com/abcsds/pokemon (참고, 데이터 수정)
데이터 설명 : 포켓몬 정보
data url = https://raw.githubusercontent.com/Datamanim/datarepo/main/pok/Pokemon.csv

Question

Legendary 컬럼은 전설포켓몬 유무를 나타낸다.전설포켓몬과 그렇지 않은 포켓몬들의 HP평균의 차이를 구하여라

Question

Type 1은 주속성 Type 2 는 부속성을 나타낸다. 가장 많은 부속성 종류는 무엇인가?

Question

가장 많은 Type 1 의 종의 평균 Attack 을 평균 Defense로 나눈값은?

Question

포켓몬 세대(Generation) 중 가장많은 Legendary를 보유한 세대는 몇세대인가?

Question

‘HP’, ‘Attack’, ‘Defense’, ‘Sp. Atk’, ‘Sp. Def’, ‘Speed’ 간의 상관 계수중 가장 절댓값이 큰 두 변수와 그 값을 구하여라

Question

각 Generation의 Attack으로 오름차순 정렬시 상위 3개 데이터들(18개)의 Attack의 전체 평균을 구하여라

Question

각 Generation의 Attack으로 내림차순 정렬시 상위 5개 데이터들(30개)의 Attack의 전체 평균을 구하여라

Question

가장 흔하게 발견되는 (Type1 , Type2) 의 쌍은 무엇인가?

Question

한번씩만 존재하는 (Type1 , Type2)의 쌍의 갯수는 몇개인가?

Question

한번씩만 존재하는 (Type1 , Type2)의 쌍을 각 세대(Generation)은 각각 몇개씩 가지고 있는가?

대한민국 체력장 데이터#

Attention

데이터 출처 : 국민체육진흥공단 (문화 빅데이터플랫폼) (참고, 데이터 수정)
데이터 설명 : 대한민국 국민 체력장 평가
data url = https://raw.githubusercontent.com/Datamanim/datarepo/main/body/body.csv

Question

전체데이터의 수축기혈압(최고) - 이완기혈압(최저)의 평균을 구하여라

Question

50~59세의 신장평균을 구하여라

Question

연령대 (20~29 : 20대 …) 별 인원수를 구하여라

Question

연령대 (20~29 : 20대 …) 별 등급의 숫자를 데이터 프레임으로 표현하라

Question

남성 중 A등급과 D등급의 체지방률 평균의 차이(큰 값에서 작은 값의 차)를 구하여라

Question

여성 중 A등급과 D등급의 체중의 평균의 차이(큰 값에서 작은 값의 차)를 구하여라

Question

bmi는 자신의 몸무게(kg)를 키의 제곱(m)으로 나눈값이다. 데이터의 bmi 를 구한 새로운 컬럼을 만들고 남성의 bmi 평균을 구하여라

Question

bmi보다 체지방율이 높은 사람들의 체중평균을 구하여라

Question

남성과 여성의 악력 평균의 차이를 구하여라

Question

남성과 여성의 교차윗몸일으키기 횟수의 평균의 차이를 구하여라

기온 강수량 데이터#

Attention

데이터 출처 : https://data.kma.go.kr/cmmn/static/staticPage.do?page=intro
데이터 설명 : 2020년도 이화동(서울) , 수영동(부산)의 시간단위의 기온과 강수량
데이터 url : https://raw.githubusercontent.com/Datamanim/datarepo/main/weather/weather2.csv

Question

여름철(6월,7월,8월) 이화동이 수영동보다 높은 기온을 가진 시간대는 몇개인가?

Question

이화동과 수영동의 최대강수량의 시간대를 각각 구하여라

서비스 이탈예측 데이터#

Attention

데이터 출처 : https://www.kaggle.com/shubh0799/churn-modelling 에서 변형
데이터 설명 : 고객의 신상정보 데이터를 통한 회사 서비스 이탈 예측 (종속변수 : Exited)
Data url : https://raw.githubusercontent.com/Datamanim/datarepo/main/churn/train.csv

Question

남성 이탈(Exited)이 가장 많은 국가(Geography)는 어디이고 이탈 인원은 몇명인가?

Question

**카드를 소유(HasCrCard ==1)하고 있으면서 활성멤버(IsActiveMember ==1) 인 고객들의 평균 나이를 소숫점이하 4자리까지 구하여라? **

Question

Balance 값이 중간값 이상을 가지는 고객들의 CreditScore의 표준편차를 소숫점이하 3자리까지 구하여라

성인 건강검진 데이터#

Attention

데이터 출처 :https://www.data.go.kr/data/15007122/fileData.do (참고, 데이터 수정)
데이터 설명 : 2018년도 성인의 건강검 진데이터 (흡연상태 1- 흡연, 0-비흡연 )
데이터 url : https://raw.githubusercontent.com/Datamanim/datarepo/main/smoke/train.csv

Question

수축기혈압과 이완기 혈압기 수치의 차이를 새로운 컬럼(‘혈압차’) 으로 생성하고, 연령대 코드별 각 그룹 중 ‘혈압차’ 의 분산이 5번째로 큰 연령대 코드를 구하여라

Question

비만도를 나타내는 지표인 WHtR는 허리둘레 / 키로 표현한다. 일반적으로 0.58이상이면 비만으로 분류한다. 데이터중 WHtR 지표상 비만인 인원의 남/여 비율을 구하여라

자동차 보험가입 예측데이터#

Question

Vehicle_Age 값이 2년 이상인 사람들만 필터링 하고 그중에서
Annual_Premium 값이 전체 데이터의 중간값 이상인 사람들을 찾고, 그들의 Vintage값의 평균을 구하여라

Question

vehicle_age에 따른 각 성별(gender)그룹의 Annual_Premium값의 평균을 구하여 아래 테이블과 동일하게 구현하라

핸드폰 가격 예측데이터#

Attention

데이터 출처 :https://www.kaggle.com/iabhishekofficial/mobile-price-classification?select=train.csv(참고, 데이터 수정)
데이터 설명 : 핸드폰 가격예측 (price_range컬럼 0(저렴) ~3(매우비쌈) 범위 )
Data url https://raw.githubusercontent.com/Datamanim/datarepo/main/mobile/train.csv

Question

price_range 의 각 value를 그룹핑하여 각 그룹의 n_cores 의 빈도가 가장높은 value와 그 빈도수를 구하여라

Question

price_range 값이 3인 그룹에서 상관관계가 2번째로 높은 두 컬럼과 그 상관계수를 구하여라

비행탑승 경험 만족도 데이터#

Attention

데이터 출처 :https://www.kaggle.com/teejmahal20/airline-passenger-satisfaction?select=train.csv (참고, 데이터 수정)
데이터 설명 : 비행탑승 경험 만족도 (satisfaction 컬럼 : ‘neutral or dissatisfied’ or satisfied ) (83123, 24) shape
Data url :https://raw.githubusercontent.com/Datamanim/datarepo/main/airline/train.csv

Question

Arrival Delay in Minutes 컬럼이 결측치인 데이터들 중 ‘neutral or dissatisfied’ 보다 ‘satisfied’의 수가 더 높은 Class는 어디 인가?

수질 음용성 여부 데이터#

Attention

데이터 출처 :https://www.kaggle.com/adityakadiwal/water-potability
데이터 설명 : 수질 음용성 여부 (Potablillity 컬럼 : 0 ,1 )
Data url :https://raw.githubusercontent.com/Datamanim/datarepo/main/waters/train.csv

Question

ph값은 상당히 많은 결측치를 포함한다. 결측치를 제외한 나머지 데이터들 중 사분위값 기준 하위 25%의 값들의 평균값은?

의료 비용 예측 데이터#

Attention

데이터 출처 :https://www.kaggle.com/mirichoi0218/insurance/code(참고, 데이터 수정)
데이터 설명 : 의료비용 예측문제
Data url :https://raw.githubusercontent.com/Datamanim/datarepo/main/MedicalCost/train.csv

Question

흡연자와 비흡연자 각각 charges의 상위 10% 그룹의 평균의 차이는?

킹카운티 주거지 가격예측문제 데이터#

Attention

데이터 출처 :https://www.kaggle.com/harlfoxem/housesalesprediction (참고, 데이터 수정)
데이터 설명 : 킹카운티 주거지 가격 예측문제
Data url :https://raw.githubusercontent.com/Datamanim/datarepo/main/kingcountyprice/train.csv

Question

bedrooms 의 빈도가 가장 높은 값을 가지는 데이터들의 price의 상위 10%와 하위 10%값의 차이를 구하여라

대학원 입학가능성 데이터#

Attention

데이터 출처 :https://www.kaggle.com/mohansacharya/graduate-admissions(참고, 데이터 수정)
데이터 설명 : 대학원 입학 가능성 예측
Data url :https://raw.githubusercontent.com/Datamanim/datarepo/main/admission/train.csv

Question

Serial No. 컬럼을 제외하고 ‘Chance of Admit’을 종속변수, 나머지 변수를 독립변수라 할때, 랜덤포레스트를 통해 회귀 예측을 할 떄 변수중요도 값을 출력하라 (시드값에 따라 순서는 달라질수 있음)

레드 와인 퀄리티 예측 데이터#

Attention

데이터 출처 :https://www.kaggle.com/uciml/red-wine-quality-cortez-et-al-2009(참고, 데이터 수정)
데이터 설명 : 레드 와인 퀄리티 예측문제
Data url :https://raw.githubusercontent.com/Datamanim/datarepo/main/redwine/train.csv

Question

quality 값이 3인 그룹과 8인 데이터그룹의 각 컬럼별 독립변수의 표준편차 값의 차이를 구할때 그값이 가장 큰 컬럼명을 구하여라

약물 분류 데이터#

Attention

데이터 출처 :https://www.kaggle.com/prathamtripathi/drug-classification(참고, 데이터 수정)
데이터 설명 : 투약하는 약을 분류
Data url :https://raw.githubusercontent.com/Datamanim/datarepo/main/drug/train.csv

Question

남성들의 연령대별 (10살씩 구분 0~9세 10~19세 …) Na_to_K값의 평균값을 구해서 데이터 프레임으로 표현하여라

사기회사 분류 데이터#

Attention

데이터 출처 :https://www.kaggle.com/sid321axn/audit-data(참고, 데이터 수정)
데이터 설명 : 사기회사 분류
Data url :https://raw.githubusercontent.com/Datamanim/datarepo/main/audit/train.csv

Question

데이터의 Risk 값에 따른 score_a와 score_b의 평균값을 구하여라

센서데이터 동작유형 분류 데이터#

Attention

데이터 출처 :https://www.kaggle.com/kyr7plus/emg-4(참고, 데이터 수정)
데이터 설명 : 센서데이터로 동작 유형 분류
Data url :https://raw.githubusercontent.com/Datamanim/datarepo/main/muscle/train.csv

Question

pose값에 따른 각 motion컬럼의 중간값의 가장 큰 차이를 보이는 motion컬럼은 어디이며 그값은?

현대 차량 가격 분류문제 데이터#

Attention

데이터 출처 :https://www.kaggle.com/mysarahmadbhat/hyundai-used-car-listing(참고, 데이터 수정)
데이터 설명 : 현대 차량가격 분류문제
Data url :hhttps://raw.githubusercontent.com/Datamanim/datarepo/main/hyundai/train.csv

Question

정보(row수)가 가장 많은 상위 3차종의 price값의 각 평균값은?

당뇨여부판단 데이터#

Attention

데이터 출처 :https://www.kaggle.com/pritsheta/diabetes-dataset(참고, 데이터 수정)
데이터 설명 : 당뇨여부 판단하기
Data url :https://raw.githubusercontent.com/Datamanim/datarepo/main/diabetes/train.csv

Question

Outcome 값에 따른 각 그룹의 각 컬럼의 평균 차이를 구하여라

넷플릭스 주식 데이터#

Question

매년 5월달의 open가격의 평균값을 데이터 프레임으로 표현하라

220510추가#

nba 선수 능력치 데이터#

Question

Tm 컬럼은 각 팀의 이름을 의미한다. TOR팀의 평균나이를 소수 4째 자리까지 구하여라

Question

Pos 컬럼은 포지션을 의미한다. 전체 선수 중 최소나이대의 선수들을 필터하고 그들 중 가장 많은 포지션은 무엇인지 확인하라

Question

선수들의 이름은 first_name+ 공백 + last_name으로 이루어져 있다. 가장 많은 first_name은 무엇이며 몇 회 발생하는지 확인하라

Question

PTS컬럼은 경기당 평균득점수 이다. 각포지션별로 경기당 평균득점수의 평균을 구하여라

Question

PTS컬럼은 경기당 평균득점수 이다. 각포지션별로 경기당 평균득점수의 평균을 구하여라

Question

G컬럼은 참여한 경기의 숫자이다. 각 팀별로 가장 높은 경기참여 수를 가진 선수들의 경기 참여 숫자의 평균을 구하여라

Question

Tm의 값이 MIA이며 Pos는 C또는 PF인 선수의 MP값의 평균은?

Question

전체 데이터중 G의 평균값의 1.5배 이상인 데이터들만 추출했을때 3P값의 평균은?

Question

Age의 평균 이상인 그룹과 평균 미만인 그룹간의 G값의 평균의 차이는?

Question

평균나이가 가장 젊은 팀은 어디인가

Question

Pos그룹별 평균 MP값을 구하여라