// google adsense
반응형

데이터가 주어졌을 때 가장 먼저 해야하는 것은 데이터의 구조를 파악하는 것이다.

이번에는 데이터를 파악하는데 도움이 되는 함수를 알아보자.


# csv를 exam에 할당
exam <- read.csv("csv_exam.csv")

# 데이터의 앞부분 6행까지
head(exam)
# 앞부분 10행까지
head(exam,10)

# 뒷부분 6행
tail(exam)
# 뒷부분 10행까지
tail(exam,10)

#데이터 뷰어창에서 데이터 확인
View(exam)

#데이터 행, 열 확인
dim(exam)

#데이터 속성 확인
str(exam)

#데이터 요약 통계량 확인
summary(exam)


summary에서 확인 할 수 있는 통계량은 다음과 같다.


출력값통계량설명
Min최솟값(Minimum)가장 작은 값
1st Qu1사분위수(1st Quantile)하위 25% 지점에 위치하는 값
Median중앙값(Median)중앙에 위치하는 값
Mean평균(Mean)모든 값을 더해 값의 개수로 나눈 값
3rd Qu3사분위수(3rd Quantile)하위 75% 지점에 위치하는 값
Max최댓값(Maximum)가장 큰 값


Median과 Mean 값은 데이터 보정에 사용되는 중요한 값이다.




데이터의 특징을 파악했다면, 이제 알아보기 쉽게 변수명을 바꾸는 작업을 해보자.


#df_raw를 df_new로 백업
df_new <- df_raw

# 변수 이름 변경
df_new <- rename(df_new,v2=var2)

# var_sum 이름의 파생 변수 생성
df_new$var_sum <- df_new$var1 + df_new$v2

# 조건문을 활용 파생 변수 생성
df_new$exam <- ifelse(df_new$var_sum >=5,"pass","fail")


빈도별로 데이터를 파악, 시각화 해보자.


# 등급 빈도표
# 표 생성
table(df_new$var1)

# 등급 빈도 막대 그래프
# 막대 그래프 생성
library(ggplot2)
qplot(df_new$var1)


반응형

'Computer Science > R' 카테고리의 다른 글

R 데이터 프레임 (data frame)  (0) 2018.07.03
R 패키지 사용하기  (0) 2018.07.03
R 변수 할당  (0) 2018.07.03
데이터 분석 기초  (1) 2018.07.03

+ Recent posts