반응형
데이터가 주어졌을 때 가장 먼저 해야하는 것은 데이터의 구조를 파악하는 것이다.
이번에는 데이터를 파악하는데 도움이 되는 함수를 알아보자.
# csv를 exam에 할당
exam <- read.csv("csv_exam.csv")
# 데이터의 앞부분 6행까지
head(exam)
# 앞부분 10행까지
head(exam,10)
# 뒷부분 6행
tail(exam)
# 뒷부분 10행까지
tail(exam,10)
#데이터 뷰어창에서 데이터 확인
View(exam)
#데이터 행, 열 확인
dim(exam)
#데이터 속성 확인
str(exam)
#데이터 요약 통계량 확인
summary(exam)
summary에서 확인 할 수 있는 통계량은 다음과 같다.
출력값 | 통계량 | 설명 |
---|---|---|
Min | 최솟값(Minimum) | 가장 작은 값 |
1st Qu | 1사분위수(1st Quantile) | 하위 25% 지점에 위치하는 값 |
Median | 중앙값(Median) | 중앙에 위치하는 값 |
Mean | 평균(Mean) | 모든 값을 더해 값의 개수로 나눈 값 |
3rd Qu | 3사분위수(3rd Quantile) | 하위 75% 지점에 위치하는 값 |
Max | 최댓값(Maximum) | 가장 큰 값 |
Median과 Mean 값은 데이터 보정에 사용되는 중요한 값이다.
데이터의 특징을 파악했다면, 이제 알아보기 쉽게 변수명을 바꾸는 작업을 해보자.
#df_raw를 df_new로 백업
df_new <- df_raw
# 변수 이름 변경
df_new <- rename(df_new,v2=var2)
# var_sum 이름의 파생 변수 생성
df_new$var_sum <- df_new$var1 + df_new$v2
# 조건문을 활용 파생 변수 생성
df_new$exam <- ifelse(df_new$var_sum >=5,"pass","fail")
빈도별로 데이터를 파악, 시각화 해보자.
# 등급 빈도표
# 표 생성
table(df_new$var1)
# 등급 빈도 막대 그래프
# 막대 그래프 생성
library(ggplot2)
qplot(df_new$var1)
반응형
'Computer Science > R' 카테고리의 다른 글
R 데이터 프레임 (data frame) (0) | 2018.07.03 |
---|---|
R 패키지 사용하기 (0) | 2018.07.03 |
R 변수 할당 (0) | 2018.07.03 |
데이터 분석 기초 (1) | 2018.07.03 |