본문 바로가기
공부/R & Python

3-2. R 데이터 활용 1(subset, 내보내기)

by 드인 2020. 2. 12.

3-2. R 데이터 활용 1(subset, 내보내기)


1) 데이터 추출

<시작 전>

setwd("D:/R files/week3_2")

brain<-read.csv("brain2210.csv")

head(brain)

attach(brain)

 

- 데이터 추출 - subset(데이터이름, 조건)

예제1 : brain 데이터에서 female만 있는 subset 데이터 생성

brainf<-subset(brain, sex=='f')   brain 데이터에서 female(여성)만 추출하여 brainf로 저장 

                                          문자 변수인 경우 '==' 사용

mean(brainf$wt)                     brainf에서 wt의 평균

 

예제2 : brain 데이터에서 wt>=1300은 제외한 데이터 생성

brain1300<-subset(brain,brain$wt<1300)  brain1300<-subset(brain,!brain$wt>=1300) 도 가능

summary(brain1300)                            수치 데이터와 범주형 변수의 빈도를 계산하여 요약

 

간단한 분석

brainf<-subset(brain, sex=='f') 
mean(brainf$wt)
sd(brainf$wt)                                      표준편차

 

brainm<-subset(brain, sex=='m') 
mean(brainm$wt)
sd(brainm$wt)

 

2) 요약통계치(그룹별)

- 요약통계치 (그룹별) - aggregate(변수~그룹, 데이터, 함수)

aggregate(wt~sex, data=brain, FUN=mean)

aggregate(wt~sex, data=brain, FUN=sd)

 

3) 데이터 추출과 활용

- 추출한 데이터의 활용 (그룹별 히스토그램)

par(mfrow=c(2,2))
brainf<-subset(brain,brain$sex=='f') 
hist(brainf$wt, breaks = 12,col = "green",cex=0.7, main="Histogram (Female)" ,xlab="brain weight")

brainm<-subset(brain,brain$sex=='m') 
hist(brainm$wt, breaks = 12,col = "orange", main="Histogram with (Male)" ,  xlab="brain weight")

 

- 추출한 데이터의 활용 (그룹별 히스토그램) - 눈여겨보기

hist(brainf$wt, breaks = 12,col = "green",cex=0.7, main="Histogram with Normal Curve (Female)" , xlim=c(900,1700),ylim=c(0,25), xlab="brain weight")
hist(brainm$wt, breaks = 12,col = "orange", main="Histogram with Normal Curve (Male)" , xlim=c(900,1700), ylim=c(0,25),xlab="brain weight")

x축 범위 통일

 

4) 데이터 내보내기

- csv로 내보내기 (write.table, write.csv)

write.table(brainf,file="brainf.csv", row.names = FALSE, sep=", ", na=" ")

write.table(내보낼 데이터, 내보낼 데이터 이름, 행 넘버링 유무, ...)

write.csv(brainf, file="brainf.csv", row.names = FALSE)

 

 

'공부 > R & Python' 카테고리의 다른 글

3-4. 여러형태의 DB다루기 (Excel 통합파일, DBF, SQL)  (0) 2020.02.13
3-3. R 데이터의 활용 2  (0) 2020.02.12
데이터 불러들이기  (0) 2019.11.18
함수 생성 및 루프  (0) 2019.11.11
벡터와 행렬의 연산  (0) 2019.11.09