3-2. R 데이터 활용 1(subset, 내보내기)

1) 데이터 추출

<시작 전>

setwd("D:/R files/week3_2")

brain<-read.csv("brain2210.csv")

head(brain)

attach(brain)

- 데이터 추출 - subset(데이터이름, 조건)

예제1 : brain 데이터에서 female만 있는 subset 데이터 생성

brainf<-subset(brain, sex=='f') brain 데이터에서 female(여성)만 추출하여 brainf로 저장

문자 변수인 경우 '==' 사용

mean(brainf$wt) brainf에서 wt의 평균

예제2 : brain 데이터에서 wt>=1300은 제외한 데이터 생성

brain1300<-subset(brain,brain$wt<1300) brain1300<-subset(brain,!brain$wt>=1300) 도 가능

summary(brain1300) 수치 데이터와 범주형 변수의 빈도를 계산하여 요약

간단한 분석

brainf<-subset(brain, sex=='f')
mean(brainf$wt)
sd(brainf$wt) 표준편차

brainm<-subset(brain, sex=='m')
mean(brainm$wt)
sd(brainm$wt)

2) 요약통계치(그룹별)

- 요약통계치 (그룹별) - aggregate(변수~그룹, 데이터, 함수)

aggregate(wt~sex, data=brain, FUN=mean)

aggregate(wt~sex, data=brain, FUN=sd)

3) 데이터 추출과 활용

- 추출한 데이터의 활용 (그룹별 히스토그램)

par(mfrow=c(2,2))
brainf<-subset(brain,brain$sex=='f')
hist(brainf$wt, breaks = 12,col = "green",cex=0.7, main="Histogram (Female)" ,xlab="brain weight")

brainm<-subset(brain,brain$sex=='m')
hist(brainm$wt, breaks = 12,col = "orange", main="Histogram with (Male)" , xlab="brain weight")

- 추출한 데이터의 활용 (그룹별 히스토그램) - 눈여겨보기

hist(brainf$wt, breaks = 12,col = "green",cex=0.7, main="Histogram with Normal Curve (Female)" , xlim=c(900,1700),ylim=c(0,25), xlab="brain weight")
hist(brainm$wt, breaks = 12,col = "orange", main="Histogram with Normal Curve (Male)" , xlim=c(900,1700), ylim=c(0,25),xlab="brain weight")

x축 범위 통일

4) 데이터 내보내기

- csv로 내보내기 (write.table, write.csv)

write.table(brainf,file="brainf.csv", row.names = FALSE, sep=", ", na=" ")

write.table(내보낼 데이터, 내보낼 데이터 이름, 행 넘버링 유무, ...)

write.csv(brainf, file="brainf.csv", row.names = FALSE)

'공부 > R & Python' 카테고리의 다른 글

3-4. 여러형태의 DB다루기 (Excel 통합파일, DBF, SQL) (0)	2020.02.13
3-3. R 데이터의 활용 2 (0)	2020.02.12
데이터 불러들이기 (0)	2019.11.18
함수 생성 및 루프 (0)	2019.11.11
벡터와 행렬의 연산 (0)	2019.11.09

logN^블

3-2. R 데이터 활용 1(subset, 내보내기)