Language/R

[R] 데이터 탐색 - 파일 읽기, 데이터 파악하기

Jonnie 2021. 9. 19. 01:18

csv 파일의 형태 불러오기

  • read.csv
    • 내장함수로 별도의 패키지 설치 필요X
    • 기본 명령문: data frame <- read.csv("파일명.csv", stringsAsFactors = F)
      • stringsAsFactors: 문자로 된 것을 범주형 척도로 인식할 것인가 → F (바꾸고 싶다면 T)
      • data frame: 파일명.csv를 불러와서 data frame에 할당(assign)
        • alt키와 -키를 누르면 <- assign 키가 만들어짐
        • exam <- read.csv("exam.csv", stringsAsFactors = F)

데이터 파악하기: 여섯 개 함수

1. head()

  • 데이터 앞부분 6행을 보여줌
  • head(OOO, k): k행까지 조절 가능
  • head(exam$gender, 7)
    #특정 속성만 불러오기($)

2. tail()

  • 데이터 뒷부분 6행을 보여줌
  • tail(OOO, k): k행까지 조절 가능

3. View()

  • Viewer 창에서 데이터를 보여줌

4. dim()

  • 행과 열을 활용한 데이터 크기를 보여줌

5. str()

  • 데이터 속성을 보여줌
  • 속성 확인 후 변수 척도 수정

6. summary()

  • 기술통계량을 요약하여 보여줌
  • min, max, median, mean, Q1, Q3
  • exam$id <- NULL

속성값을 NULL로 할당 → 지워준다

범주형 척도로 바꾸기

  • as.factor(변수명)

데이터 파악하기: 기술통계량과 히스토그램

  • mean(): 평균
  • var(): 분산
  • sd(): 표준편차
  • hist(): 히스토그램 그리기
    • hist(exam$math, breaks = seq(0, 100, by = 5))
      #exam의 math에 대한 히스토그램. 최솟값 0, 최댓값 100, 간격 5
  • 빈도수 파악하기
    1. table()
      • 척도가 문자 혹은 범주인 변수에 대해 적용
    2. qplot()
      • ggplot2 패키지 설치 및 불러오기 필요
        • install.packages("ggplot2")
        • library(ggplot2)
      • table()을 통해 확인한 결과를 막대 그래프 형태로 표현
        • 기본 명령문: qplot(data = df, var)
        • 두 개 변수를 동시에 고려한 명령문: qplot(data = df, var1, fill = var2)
          • fill : 색상을 기준으로 구분하는 것이 목적