3-2. R 데이터 활용 1(subset, 내보내기)
1) 데이터 추출
<시작 전>
setwd("D:/R files/week3_2")
brain<-read.csv("brain2210.csv")
head(brain)
attach(brain)
- 데이터 추출 - subset(데이터이름, 조건)
예제1 : brain 데이터에서 female만 있는 subset 데이터 생성
brainf<-subset(brain, sex=='f') brain 데이터에서 female(여성)만 추출하여 brainf로 저장
문자 변수인 경우 '==' 사용
mean(brainf$wt) brainf에서 wt의 평균
예제2 : brain 데이터에서 wt>=1300은 제외한 데이터 생성
brain1300<-subset(brain,brain$wt<1300) brain1300<-subset(brain,!brain$wt>=1300) 도 가능
summary(brain1300) 수치 데이터와 범주형 변수의 빈도를 계산하여 요약
간단한 분석
brainf<-subset(brain, sex=='f')
mean(brainf$wt)
sd(brainf$wt) 표준편차
brainm<-subset(brain, sex=='m')
mean(brainm$wt)
sd(brainm$wt)
2) 요약통계치(그룹별)
- 요약통계치 (그룹별) - aggregate(변수~그룹, 데이터, 함수)
aggregate(wt~sex, data=brain, FUN=mean)
aggregate(wt~sex, data=brain, FUN=sd)
3) 데이터 추출과 활용
- 추출한 데이터의 활용 (그룹별 히스토그램)
par(mfrow=c(2,2))
brainf<-subset(brain,brain$sex=='f')
hist(brainf$wt, breaks = 12,col = "green",cex=0.7, main="Histogram (Female)" ,xlab="brain weight")
brainm<-subset(brain,brain$sex=='m')
hist(brainm$wt, breaks = 12,col = "orange", main="Histogram with (Male)" , xlab="brain weight")
- 추출한 데이터의 활용 (그룹별 히스토그램) - 눈여겨보기
hist(brainf$wt, breaks = 12,col = "green",cex=0.7, main="Histogram with Normal Curve (Female)" , xlim=c(900,1700),ylim=c(0,25), xlab="brain weight")
hist(brainm$wt, breaks = 12,col = "orange", main="Histogram with Normal Curve (Male)" , xlim=c(900,1700), ylim=c(0,25),xlab="brain weight")
x축 범위 통일
4) 데이터 내보내기
- csv로 내보내기 (write.table, write.csv)
write.table(brainf,file="brainf.csv", row.names = FALSE, sep=", ", na=" ")
write.table(내보낼 데이터, 내보낼 데이터 이름, 행 넘버링 유무, ...)
write.csv(brainf, file="brainf.csv", row.names = FALSE)
'공부 > R & Python' 카테고리의 다른 글
3-4. 여러형태의 DB다루기 (Excel 통합파일, DBF, SQL) (0) | 2020.02.13 |
---|---|
3-3. R 데이터의 활용 2 (0) | 2020.02.12 |
데이터 불러들이기 (0) | 2019.11.18 |
함수 생성 및 루프 (0) | 2019.11.11 |
벡터와 행렬의 연산 (0) | 2019.11.09 |