반응형

[R] 데이터 불러오기 : CSV - read_csv(), read.csv(), fread()

.

이번엔 CSV 파일을 불러오는 방법을 소개한다.

 

코드를 보여드리기에 앞서 워킹 디렉토리부터 지정하겠다.

워킹 디렉토리에 관한 설명은 다음 링크된 포스트에서 볼 수 있다.

2022.08.05 - [통계 프로그램 사용 팁] - [R] 작업 디렉토리 (Working Directory) 지정

 

[R] 작업 디렉토리 (Working Directory) 지정 - getwd(), setwd()

[R] 작업 디렉토리 (Working directory) 지정  R에는 작업 디렉토리 (Working directory)라는 개념이 있다. SPSS에는 없는 개념이고, SAS의 라이브러리와는 약간 다른 개념인데, R의 작업 디렉토리는 일의 편리.

medistat.tistory.com

setwd("C:/Users/user/Documents/Tistory_blog")

 

*실습용 데이터는 아래 링크를 클릭하면 다운로드할 수 있습니다.

2022.08.04 - [공지사항 및 소개] - 분석용 데이터 (update 22.08.08) - 기술 통계

 

분석용 데이터 (update 22.08.04) - 기술 통계

2022년 08월 04일 버전입니다. 변수는 계속하여 추가될 예정입니다. 다음 카테고리에 있는 글에서 이용된 데이터입니다. - 기술 통계

medistat.tistory.com

 

CSV 파일 불러오기

많이들 쓰는 함수는 세 가지가 있다.

read.csv() (패키지: utils)
read_csv() (패키지: readr)
fread() (패키지: data.table)

각각의 패키지를 설치하고, 작업 디렉토리 내에 있는 파일 "Data.csv"를 불러와 a, b, c에 저장하도록 하겠다.

install.packages("utils") # R 기본 패키지므로 설치 필요 없음
library("utils")
a<-read.csv("Data.csv")

install.packages("readr")
library("readr")
b<-read_csv("Data.csv")

install.packages("data.table")
library("data.table")
c<-fread("Data.csv")

 

1) [패키지: utils] read.csv()  

 read.csv()가 들어있는 utils는 R을 설치할 때 자동으로 딸려오는 패키지다. 따라서 별도의 패키지 설치가 필요 없고 data.frame 형식으로 저장하므로 read.csv()는 CSV를 불러올 때 가장 많이 쓰이는 함수 중 하나다.

 하지만, 다음과 같이 첫 번째 열 이름 (column name)에서 오류가 자주 발생한다는 단점이 있다. 

2) [패키지: readr] read_csv()  

 위와 같은 에러가 발생하지 않고, 실행도 잘 되어서 문제가 없지만, 다음 나오는 fread보다는 조금 느리다는 단점이 있다.

 

3) [패키지: data.table] fread()  

 CSV파일을 정말 빠르게 읽을 수 있는 함수다. 특히 100만행이 넘어가는 데이터부터는 극도의 효율성을 자랑한다. 하지만 간혹 에러가 나는 경우가 있으니 주의할 필요가 있다.

 

 

R 데이터 불러오기 - CSV 정복 완료!

 

작성일: 2022.08.08.

최종 수정일: 2022.08.08.

이용 프로그램: R 4.1.3, RStudio v1.4.1717

운영체제: Windows 10

 
반응형
반응형

[R] 데이터 불러오기 : EXCEL - read_excel(), read.xlsx()

R은 SPSS나 SAS에 비해 많은 종류의 파일을 불러오고 사용하기에 적합하다. 하지만 각 파일마다 불러오는 방법이 다르며, 심지어는 한 종류의 파일을 불러오는 방법도 여러 가지다. 따라서 하나씩 살펴보고자 한다.

 

먼저 이번시간엔 EXCEL 파일을 불러오는 방법을 소개한다.

 

코드를 보여드리기에 앞서 워킹 디렉토리부터 지정하겠다.

워킹 디렉토리에 관한 설명은 다음 링크된 포스트에서 볼 수 있다.

2022.08.05 - [통계 프로그램 사용 팁] - [R] 작업 디렉토리 (Working Directory) 지정

 

[R] 작업 디렉토리 (Working Directory) 지정

[R] 작업 디렉토리 (Working directory) 지정  R에는 작업 디렉토리 (Working directory)라는 개념이 있다. SPSS에는 없는 개념이고, SAS의 라이브러리와는 약간 다른 개념인데, R의 작업 디렉토리는 일의 편리.

medistat.tistory.com

 

setwd("C:/Users/user/Documents/Tistory_blog")

 

*실습용 데이터는 아래 링크를 클릭하면 다운로드할 수 있습니다.

2022.08.04 - [공지사항 및 소개] - 분석용 데이터 (update 22.08.04) - 기술 통계

 

분석용 데이터 (update 22.08.04) - 기술 통계

2022년 08월 04일 버전입니다. 변수는 계속하여 추가될 예정입니다. 다음 카테고리에 있는 글에서 이용된 데이터입니다. - 기술 통계

medistat.tistory.com

 

EXCEL 불러오기

많이들 쓰는 함수는 두 가지가 있다.

read_excel() (패키지: readxl)
read.xlsx() (패키지: openxlsx)

각각의 패키지를 설치하고, 작업 디렉토리 내에 있는 파일 "Data.xlsx"를 불러와보도록 하겠다.

 

install.packages("readxl")
library("readxl")
read_excel("Data.xlsx")

install.packages("openxlsx")
library("openxlsx")
read.xlsx("Data.xlsx")

 

두 가지 방식 모두 데이터를 잘 불러오나 약간의 차이가 있다. 차이를 확인하기 위해 각각 a, b, c에 저장을 한 뒤, 속성을 볼 수 있는 str() 함수를 사용하여 확인하면 다음을 알 수 있다.

 

a<-read_excel("Data.xlsx")
b<-read.xlsx("Data.xlsx")

str(a)
 #tibble [1,000 x 2] (S3: tbl_df/tbl/data.frame)
str(b)
 #'data.frame':	1000 obs. of  2 variables:

"read_excel"은 tibble로, "read.xlsx"는 data.frame으로 읽어온다.

 

일반적으로 tibble을 쉽게 data.frame으로 변환할 수 있으므로 "read_excel()"함수를 더 많이 사용한다.

 

 

read_excel() 함수에도 수많은 arguments들이 있지만 꼭 필요하고, 자주 쓰일 수 있는 것 한 개만 보겠다.

read_excel("Data.xlsx", sheet="Data")

sheet="Data" : 불러올 시트 이름을 지정하는 것이다. 

 

 

R 데이터 불러오기 - EXCEL 정복 완료!

 

작성일: 2022.08.05.

최종 수정일: 2022.11.08.

이용 프로그램: R 4.1.3, RStudio v1.4.1717

운영체제: Windows 10

 
반응형
반응형

[R] 패키지 설치하기 - install.packages(), library()

 R은 오픈 소스 프로그램으로 수많은 유저가 아주 좋은 통계 도구를 만들어 온라인 상에 무료로 배포한다. 배포된 어떤 기능을 쓰기 위해서는 그 함수를 담고있는 패키지 (package)를 다운받아야 한다.

 

패키지 확인하기

우리가 쓰고 싶은 함수가 어떤 패키지에 들어있는지 확인하기 위해서는 함수 앞에 물음표 두개를 붙여 실행하면 된다. 예를 들어 엑셀 파일을 불러오는 함수 중 하나인 "read_excel"이 어떤 패키지에 알고 싶다면 다음 코드를 실행하면 된다.

??read_excel

R studio상 Help 창에서 다음과 같은 결과를 확인할 수 있다.

readxl::read_excel

"read_excel"은 "readxl"이라는 패키지에 들어있음을 알려주고 있다.

 

패키지 설치하기

찾은 패키지를 설치하기 위해서는 다음과 같은 코드를 실행하면 된다.

install.packages("readxl")

인터넷에 연결되어 있다면, 설치를 시작하게 되며 보통 10초 안에 설치가 완료되게 된다.

 

패키지 로드하기

패키지가 설치는 되었지만, 사용하기 위해서는 로드해야한다. 코드는 다음과 같다.

library("readxl")

 

지금부터는 "readxl" 안에 있는 함수들을 사용할 수 있다.

 

 

R 패키지 설치하기 정복 완료!

작성일: 2022.08.05.

최종 수정일: 2022.08.05.

이용 프로그램: R 4.1.3, RStudio v1.4.1717

운영체제: Windows 10

 
반응형
반응형

[R] 작업 디렉토리 (Working Directory) 지정 - getwd(), setwd()

 R에는 작업 디렉토리 (Working directory)라는 개념이 있다. SPSS에는 없는 개념이고, SAS의 라이브러리와는 약간 다른 개념인데, R의 작업 디렉토리는 일의 편리함을 극대화해주는 도구다.

 

방법

 거두절미하고 작업 디렉토리를 지정하는 코드는 다음과 같다.

setwd("C:/Users/user/Documents/Tistory_blog")

원하는 폴더의 위치를 setwd("")안에 넣어주기만 하면 된다. 

 - 이때 탐색기와 같은 프로그램에서 위치를 복사에 R 혹은 R studio에 붙여 넣으면 /이 아니라 \로 입력되는데, 이는 일일이 "/"로 바꿔주어야 한다. 혹은 R studio내에서 Ctrl + F로 한 번에 바꿔주거나, 메모장의 Ctrl + H기능으로 한 번에 바꿔주면 된다.

 - Mac OS이용자는 바꿔줄 필요 없이 바로 붙여 넣으면 된다.

 

작업 디렉토리가 잘 지정되었는지 확인할 수도 있는데 코드는 다음과 같다.

getwd()

getwd()를 실행하면 다음과 같이 반환되는 것을 볼 수 있다.

[1] "C:/Users/user/Documents/Tistory_blog"

 

이점

워킹 디렉토리의 이점은 효율성이다. 예를 들어 "C:\Users\user\Documents\Tistory_blog"안에 있는 "Data_220804.xlsx"를 지정하기 위해서는 일반적으로 다음과 같이 지정해야 한다.

"C:/Users/user/Documents/Tistory_blog/Data_220804.xlsx"

하지만 이미 "C:\Users\user\Documents\Tistory_blog"을 워킹 디렉토리로 지정해 두었으므로 앞으로는 다음과 같이 언급해도 이는 위와 같은 파일을 가리키는 것과 같다.

"Data_220804.xlsx"

 

 

R 작업 디렉토리 (Working directory) 지정 정복 완료!

 

작성일: 2022.08.05.

최종 수정일: 2022.08.05.

이용 프로그램: R 4.1.3, RStudio v1.4.1717

운영체제: Windows 10

반응형

+ Recent posts