R 데이터 파악

2018. 7. 3. 18:05

데이터가 주어졌을 때 가장 먼저 해야하는 것은 데이터의 구조를 파악하는 것이다.

이번에는 데이터를 파악하는데 도움이 되는 함수를 알아보자.

# csv를 exam에 할당
exam <- read.csv("csv_exam.csv")

# 데이터의 앞부분 6행까지
head(exam)
# 앞부분 10행까지
head(exam,10)

# 뒷부분 6행
tail(exam)
# 뒷부분 10행까지
tail(exam,10)

#데이터 뷰어창에서 데이터 확인
View(exam)

#데이터 행, 열 확인
dim(exam)

#데이터 속성 확인
str(exam)

#데이터 요약 통계량 확인
summary(exam)

summary에서 확인 할 수 있는 통계량은 다음과 같다.

출력값	통계량	설명
Min	최솟값(Minimum)	가장 작은 값
1st Qu	1사분위수(1st Quantile)	하위 25% 지점에 위치하는 값
Median	중앙값(Median)	중앙에 위치하는 값
Mean	평균(Mean)	모든 값을 더해 값의 개수로 나눈 값
3rd Qu	3사분위수(3rd Quantile)	하위 75% 지점에 위치하는 값
Max	최댓값(Maximum)	가장 큰 값

Median과 Mean 값은 데이터 보정에 사용되는 중요한 값이다.

데이터의 특징을 파악했다면, 이제 알아보기 쉽게 변수명을 바꾸는 작업을 해보자.

#df_raw를 df_new로 백업
df_new <- df_raw

# 변수 이름 변경
df_new <- rename(df_new,v2=var2)

# var_sum 이름의 파생 변수 생성
df_new$var_sum <- df_new$var1 + df_new$v2

# 조건문을 활용 파생 변수 생성
df_new$exam <- ifelse(df_new$var_sum >=5,"pass","fail")

빈도별로 데이터를 파악, 시각화 해보자.

# 등급 빈도표
# 표 생성
table(df_new$var1)

# 등급 빈도 막대 그래프
# 막대 그래프 생성
library(ggplot2)
qplot(df_new$var1)

저작자표시 비영리 동일조건 (새창열림)

'Computer Science > R' 카테고리의 다른 글

R 데이터 프레임 (data frame) (0)	2018.07.03
R 패키지 사용하기 (0)	2018.07.03
R 변수 할당 (0)	2018.07.03
데이터 분석 기초 (1)	2018.07.03

공간

R 데이터 파악

'Computer Science > R' 카테고리의 다른 글

+ Recent posts

티스토리툴바