반응형

[R] 패키지 설치하기 - install.packages(), library()

 R은 오픈 소스 프로그램으로 수많은 유저가 아주 좋은 통계 도구를 만들어 온라인 상에 무료로 배포한다. 배포된 어떤 기능을 쓰기 위해서는 그 함수를 담고있는 패키지 (package)를 다운받아야 한다.

 

패키지 확인하기

우리가 쓰고 싶은 함수가 어떤 패키지에 들어있는지 확인하기 위해서는 함수 앞에 물음표 두개를 붙여 실행하면 된다. 예를 들어 엑셀 파일을 불러오는 함수 중 하나인 "read_excel"이 어떤 패키지에 알고 싶다면 다음 코드를 실행하면 된다.

??read_excel

R studio상 Help 창에서 다음과 같은 결과를 확인할 수 있다.

readxl::read_excel

"read_excel"은 "readxl"이라는 패키지에 들어있음을 알려주고 있다.

 

패키지 설치하기

찾은 패키지를 설치하기 위해서는 다음과 같은 코드를 실행하면 된다.

install.packages("readxl")

인터넷에 연결되어 있다면, 설치를 시작하게 되며 보통 10초 안에 설치가 완료되게 된다.

 

패키지 로드하기

패키지가 설치는 되었지만, 사용하기 위해서는 로드해야한다. 코드는 다음과 같다.

library("readxl")

 

지금부터는 "readxl" 안에 있는 함수들을 사용할 수 있다.

 

 

R 패키지 설치하기 정복 완료!

작성일: 2022.08.05.

최종 수정일: 2022.08.05.

이용 프로그램: R 4.1.3, RStudio v1.4.1717

운영체제: Windows 10

 
반응형
반응형

[R] 작업 디렉토리 (Working Directory) 지정 - getwd(), setwd()

 R에는 작업 디렉토리 (Working directory)라는 개념이 있다. SPSS에는 없는 개념이고, SAS의 라이브러리와는 약간 다른 개념인데, R의 작업 디렉토리는 일의 편리함을 극대화해주는 도구다.

 

방법

 거두절미하고 작업 디렉토리를 지정하는 코드는 다음과 같다.

setwd("C:/Users/user/Documents/Tistory_blog")

원하는 폴더의 위치를 setwd("")안에 넣어주기만 하면 된다. 

 - 이때 탐색기와 같은 프로그램에서 위치를 복사에 R 혹은 R studio에 붙여 넣으면 /이 아니라 \로 입력되는데, 이는 일일이 "/"로 바꿔주어야 한다. 혹은 R studio내에서 Ctrl + F로 한 번에 바꿔주거나, 메모장의 Ctrl + H기능으로 한 번에 바꿔주면 된다.

 - Mac OS이용자는 바꿔줄 필요 없이 바로 붙여 넣으면 된다.

 

작업 디렉토리가 잘 지정되었는지 확인할 수도 있는데 코드는 다음과 같다.

getwd()

getwd()를 실행하면 다음과 같이 반환되는 것을 볼 수 있다.

[1] "C:/Users/user/Documents/Tistory_blog"

 

이점

워킹 디렉토리의 이점은 효율성이다. 예를 들어 "C:\Users\user\Documents\Tistory_blog"안에 있는 "Data_220804.xlsx"를 지정하기 위해서는 일반적으로 다음과 같이 지정해야 한다.

"C:/Users/user/Documents/Tistory_blog/Data_220804.xlsx"

하지만 이미 "C:\Users\user\Documents\Tistory_blog"을 워킹 디렉토리로 지정해 두었으므로 앞으로는 다음과 같이 언급해도 이는 위와 같은 파일을 가리키는 것과 같다.

"Data_220804.xlsx"

 

 

R 작업 디렉토리 (Working directory) 지정 정복 완료!

 

작성일: 2022.08.05.

최종 수정일: 2022.08.05.

이용 프로그램: R 4.1.3, RStudio v1.4.1717

운영체제: Windows 10

반응형
반응형

[SAS] 데이터 불러오기 및 저장하기 (내보내기) - PROC IMPORT, PROC EXPORT

불러오기

1. '불러오기 마법사 (Import Wizard)'를 이용하는 방법

2. 코드 (PROC IMPORT)를 사용하는 방법 (추천)

 

저장하기 (내보내기)

1. '내보내기 마법사 (Export Wizard)'를 이용하는 방법

2. 코드 (PROC EXPORT)를 사용하는 방법 (추천)

 

 

불러오기

SAS에서 불러올 수 있는 파일의 종류는 굉장히 많지만 불러오는 방법은 대체적으로 대동소이하다.

두 가지 방법으로 데이터를 불러오는 방법에 대해 설명하고자 한다.

 

1. '불러오기 마법사 (Import Wizard)'를 이용하는 방법

SAS를 이용할 때 데이터를 불러오는 방법과 저장하는 방법을 알아보겠다.

 

*실습용 데이터는 아래 링크를 클릭하면 다운로드할 수 있습니다

2022.08.04 - [공지사항 및 소개] - 분석용 데이터 (update 22.08.04) - 기술 통계

 

분석용 데이터 (update 22.08.04) - 기술 통계

2022년 08월 04일 버전입니다. 변수는 계속하여 추가될 예정입니다. 다음 카테고리에 있는 글에서 이용된 데이터입니다. - 기술 통계

medistat.tistory.com

 

 

 

1) 파일 > 데이터 가져오기 (I) 클릭하기

 

2) 파일 종류 선택하기

엑셀 파일을 불러올 거면 설정을 바꾸지 않는다.

CSV 파일을 가져오는 경우 드롭박스를 선택하여 CSV를 선택한다.

"Next>"를 눌러 다음 단계로 넘어간다.

 

3) 파일 선택하기

"Browse.."버튼을 누르면 다음과 같은 창이 뜬다

그런데 파일 위치에 찾아가도 보통 파일이 보이지 않는다. 왜냐하면 SAS는 엑셀 확장자 중 "xls 파일"을 기본값으로 설정하고 있는데, 요새 엑셀은 웬만하면 "xlsx 파일"을 사용하기 때문이다. 따라서 파일 형식 드롭박스를 눌러 "xlsx 파일"을 선택하면 파일이 보인다.

파일 선택 후 "열기 (O)"버튼을 누른다.

"OK"버튼을 누른다.

 

4) 시트 (Sheet) 선택하기

해당 엑셀 파일에 여러 개의 sheet가 있는 경우 원하는 sheet를 고른다.

 

"Options.."버튼은 평소에 거의 쓸 일이 없다. "Options.."버튼을 누르면 다음과 같은 창이 뜨는데

파일의 첫 행이 데이터명 (Age, ALT 등...)인 경우 첫 번째 체크박스는 반드시 선택되어 있어야 한다. 데이터명이 없는 데이터 파일인 경우 체크박스를 해제한다. 나머지는 변수의 포맷에 관한 것인데, 포맷 변경은 일일이 하는 것이 훨씬 편하므로 이 옵션 창에서는 아무것도 건들지 않는다.

 

"OK"버튼을 누르고 "Next>"버튼을 누른다.

 

4) 라이브러리 및 데이터명을 지정한다.

SAS에는 라이브러리라는 개념이 있다. 이에 관한 설명은 아래 링크에서 확인할 수 있다.

 

-라이브러리를 지정하지 않을 경우 기본값인 "WORK"에서 바꾸지 않으면 되고, 원하는 라이브러리에 데이터를 위치시키고 싶을 경우 원하는 라이브러리를 선택한다.

-원하는 데이터명을 "Member:"에 입력한다. 필자는 "Patient"라고 입력하였다.

 

"Next>"버튼을 눌러 다음으로 넘어간다.

이 창은 지금까지의 과정을 저장하겠냐고 묻는 것인데, 불러오기 마법사 (Import wizard)는 앞으로 쓰지 않을 것이므로 개의치 않는다. 그저 "Finish"버튼을 눌러 마무리한다.

 

 

2. 코드 (PROC IMPORT)를 사용하는 방법

위 방법은 몇 번의 클릭으로 마무리할 수 있으므로 직관적이고 간편해보이나, 생각보다 시간이 많이 들고 불편하며, 무엇보다 오류가 잘 생긴다. 단례로, 변수 이름이 잘못 불러와지는 경우가 매우 많다. 따라서 위 방법은 추천하지 않으며 코드를 쓰는 방법을 추천한다.

 

코드 사용하기에 앞서 먼저 라이브러리를 지정한다.

(라이브러리 지정 방법은 다음 링크에서 확인할 수 있다. 2022.08.05 - [통계 프로그램 사용 방법/SAS] - [SAS] 라이브러리 만들기 - LIBNAME)

 

LIBNAME hong "C:/Users/User/Documents/Tistory_blog";

 

기본적인 PROC IMPORT 코드는 다음과 같다.

PROC IMPORT
DATAFILE="C:\Users\user\Documents\Tistory_blog\Data.xlsx"
DBMS=EXCEL
OUT=hong.df
REPLACE;
RUN;

 

PROC IMPORT: 파일을 불러오는 코드를 작성하겠다.

DATAFILE="C:\Users\user\Documents\Tistory_blog\Data.xlsx" : 문서의 "Tistory_blog" 폴더에 있는 "Data.xlsx"파일을 가져오라.

DBMS=EXCEL : 데이터 종류 (DBMS, DataBase Management System)는 엑셀 파일이다.

 - CSV파일은 "EXCEL"대신에 "CSV"를 쓰면 되고, tab으로 구분되어있는 파일은 "TAB"을 쓰면 된다.

OUT=hong.df : "hong" 이라는 라이브러리에 저장하되 데이터 파일 이름은 "df"로 한다.

REPLACE: 혹시 "hong"이라는 라이브러리에 이미 이름이 "df"인 데이터 파일이 있으면 덮어쓴다. (REPLACE 옵션을 쓰지 않으면 SAS는 기본적으로 덮어쓰지 않는다.)

 

 - 라이브러리의 개념이 어색한 독자는 다음 글을 참고하기 바란다.

2022.08.05 - [통계 프로그램 사용 팁] - [SAS] 라이브러리 만들기

 

[SAS] 라이브러리 만들기

[SAS] 라이브러리 만들기 SAS를 접하자마자 마주치는 단어가 '라이브러리 (Library)'인데 생소하고 어색한 개념이라 쉽게 이해하기 어려울 것이 사실이다. 필자도 이를 받아들이기까지 짧지 않은 시

medistat.tistory.com

 

 라이브러리에 데이터 파일을 불러오면 다음부터는 PROC IMPORT를 통해 엑셀 파일을 다시 불러올 필요가 없다. 라이브러리 지정만 해주면 "hong.df"라는 데이터 파일은 언제든지 쓸 수 있다. 평소에는 큰 이득이 되는지 모르겠지만, 데이터 파일이 너무 크거나, 데이터 변환을 하는 경우에는 큰 이득이 된다.

 

 라이브러리를 지정한 문서 내 "Tistory_blog"폴더에 가면 "df.sas7bdat"라는 파일이 생긴 것을 확인할 수 있다.

 

혹은 SAS 내 탐색기에서 "라이브러리 - Hong"으로 들어가면 Df파일이 존재함을 확인할 수도 있다.

 

몇개의 옵션을 더 넣을 수도 있다.

PROC IMPORT
DATAFILE="C:\Users\user\Documents\Tistory_blog\Data.xlsx"
DBMS=EXCEL
OUT=hong.df
REPLACE;
SHEET="Sheet1$";
RANGE="Sheet1$A1:B10";
GETNAMES=YES;
RUN;

SHEET="Sheet1$":엑셀 파일에 여러 개의 시트가 있을 경우 "Sheet1"을 불러오도록 지정한다.

 - CSV 파일은 SHEET구분이 없으므로 지정할 필요가 없다.

RANGE="Sheet1$A1:B10":시트 중 불러올 영역을 "Sheet1의 A1 - B10"으로 지정한다. 만약 SHEET구문과 상충되면 (예, SHEET="Sheet2$"; RANGE="Sheet1$A1:B10") SHEET구문은 무시되고 RANGE에 따라 데이터를 불러온다.
GETNAMES=YES: 첫 번째 행을 변수명으로 불러오라는 옵션이다. 

 

처음엔 코드란 것이 많이 어색하고 불편하겠지만, 익숙해지면 불러오기 마법사 (Import wizard)는 사용하지 않게 될 것이다.

 

 

 

저장하기 (내보내기)

이번엔 데이터를 내보내는 방법을 알아보도록 하겠다.

 

 

1. '내보내기 마법사 (Export Wizard)'를 이용하는 방법

앞서 불러오기 마법사를 이용해 임시 라이브러리 (WORK)에 저장해놓은 "PATIENT"라는 데이터 파일을 내보내기로 한다.

 

1) 파일 > 데이터 내보내기 (R) 클릭하기

 

2) 라이브러리와 내보낼 데이터 파일 선택하기

라이브러리는 WORK, 데이터 파일 (Member)은 PATIENT를 선택하고 "Next >" 버튼을 누른다.

 

3) 저장될 파일의 포맷 선택하기

엑셀 파일, CSV파일, SPSS파일 등 여러 포맷으로 반출이 가능하다. 이번에는 엑셀 파일로 내보내기를 한다. "Next >" 버튼을 누른다.

 

4) 저장될 위치와 파일의 이름 지정하기

"Browse..." 버튼을 누른다.

 

저장하고자 하는 곳의 위치를 찾아 들어가고, 파일 이름일 작성하고, 원하는 파일 형식을 작성한다. 호환성을 위해 ".xlsx" 형식을 추천한다.

 

 

"OK"버튼을 누른다.

 

5) 완료

 

여기에서 바로 "Finish"버튼을 누르면 내보내기 과정은 끝이 난다.

 

하지만, 내보내진 엑셀 파일의 시트 이름을 지정하고 싶을 때가 있는데, 이때는 다음 그림과 같이

시트 이름을 지정하고 "Next >"버튼을 누르면 된다.

 

 

 

불러오기 마법사에서 처럼 지금까지의 과정을 PROC EXPORT로 저장하는 것인데, 앞으로 쓰지 않을 방법이므로 무시한다.

 

 

 

2. 코드 (PROC EXPORT)를 사용하는 방법

PROC IMPORT에서와 같이 마법사 보다는 코드를 추천한다.

 

기본적인 PROC EXPORT 코드는 다음과 같다.

PROC EXPORT
DATA=hong.df
OUTFILE="C:\Users\user\Documents\Tistory_blog\Output.xlsx"
DBMS=EXCEL
REPLACE;
RUN;

 

PROC EXPORT: 파일을 내보내는 코드를 작성하겠다.

DATA=hong.df: 추출할 파일은 "hong" 이라는 라이브러리에 있는 데이터 파일 "df"이다.

OUTFILE="C:\Users\user\Documents\Tistory_blog\Output.xlsx" : 문서의 "Tistory_blog" 폴더에 있는 "Export.xlsx"파일로 저장한다.

DBMS=EXCEL : 데이터 종류 (DBMS, DataBase Management System)는 엑셀 파일이다.

 - CSV파일은 "EXCEL"대신에 "CSV"를 쓰면 되고, tab으로 구분되어있는 파일은 "TAB"을 쓰면 된다.

REPLACE: 혹시 "C:\Users\user\Documents\Tistory_blog\"에 이미 이름이 "Export.xlsx"인 파일이 있으면 덮어쓴다. 

 

 

만약 CSV파일로 내보내고 싶다면 파일명과 DBMS를 다음과 같이 CSV로 바꾸어주면 된다.

PROC EXPORT
DATA=hong.df
OUTFILE="C:\Users\user\Documents\Tistory_blog\Output.csv"
DBMS=CSV
REPLACE;
RUN;

 

SAS 데이터 불러오기 및 저장하기 정복 완료!

 

작성일: 2022.08.05.

최종 수정일: 2022.08.08.

이용 프로그램: SAS v9.4

운영체제: Windows 10

반응형
반응형

[SAS] 주석 처리 및 프로그램 특징

 

SAS를 구동하다 보면 특정 구역을 실행되지 않았으면 할 때가 있다. 예를 들어, 코드를 설명해놓은 구역은 실행되지 않아야 한다. 이럴 때는 주석 처리를 하면 된다. 방법은 두 가지를 알아보겠다.

 

행 별로 주석 처리 하기

행의 첫 시작을 "*"으로, 마지막을 ";"으로 지정하면 된다.

*라이브러리 지정하기;
LIBNAME hong "C:/Users/User/Documents/Tistory_blog";

이와 같은 코드 하에서는 첫 번째 행은 실행되지 않고, 두 번째 행만 실행된다.

 

여러 줄을 주석 처리하기

주석 시작 시점에 "/*"을, 마지막 시점에 "*/"으로 지정하면 된다.

/*라이브러리 지정하기
라이브러리 이름은 hong
위치는 C드라이브의 문서의 Tistory_blog */
LIBNAME hong "C:/Users/User/Documents/Tistory_blog";

 

 

SAS 프로그램의 특징 두 가지

특징 두 가지를 더 언급하고 본 포스팅을 마무리하고자 한다.

1) SAS는 대소문자를 가리지 않는다.

2) 문장이 마무리되었음은 세미콜론 (;)으로 알린다.

3) 코드를 실행하는 단축키는 F3이다.

 

SAS 주석 처리 정복 완료!

작성일: 2022.08.05.

최종 수정일: 2022.08.05.

이용 프로그램: SAS v9.4

운영체제: Windows 10

반응형
반응형

[SAS] 라이브러리 만들기 - LIBNAME

SAS를 접하자마자 마주치는 단어가 '라이브러리 (Library)'인데 생소하고 어색한 개념이라 쉽게 이해하기 어려울 것이 사실이다. 필자도 이를 받아들이기까지 짧지 않은 시간이 걸렸으니 말이다.

 

SAS 라이브러리 개념을 설명하고자 한다. 이해보다 코드가 필요한 독자들은 아래 코드 박스로 이동하면 된다.

-----------------------------SAS 라이브러리 개념 설명-----------------------------

SAS에서 사용되는 파일은 라이브러리에 저장되는데, SAS 라이브러리는 두 가지로 나뉜다.

1) WORK 라이브러리

 - 기본 라이브러리

 - 임시 폴더

2) 개인이 지정한 라이브러리

 - 개별화된 라이브러리

 - 영구 폴더

 

라이브러리라는 개념은 다음 비유를 통하면 쉽게 이해할 수 있을 거라 생각한다. 

 이 페이지에 들어온 독자들의 기기는 사진을 다운받아 여러분에게 보여준다. 하지만 이내 필요한 파일이 아니므로 곧 삭제한다. 이때 파일이 저장되어있는 곳이 "WORK 라이브러리"다. 파일이 곧 사라지듯, SAS를 종료하면 "WORK 라이브러리"에 저장되어 있는 SAS 파일은 사라진다.

 여러분의 기기에 사진을 영구적으로 저장하고자 한다면 특정 폴더에 저장을 해야 한다. 그 특정 폴더가 "개인이 지정한 라이브러리"이며 이곳에 저장된 파일은 영구적으로 저장되어 있다.

---------------------------------------------------------------------------------

 

 

라이브러리 지정 코드는 다음과 같다.

LIBNAME hong "C:/Users/User/Documents/Tistory_blog";

LIBNAME : 지정 코드. 변경하지 않는다.

hong: 원하는 라이브러리의 이름. 독자가 원하는 이름 (test, exam, patient ... 등) 원하는 이름으로 지정한다.

"C:/Users/User/Documents/Tistory_blog" : 라이브러리로 지정할 폴더의 위치를 지정한다. 앞으로의 SAS파일은 이 폴더에 저장될 것이다.

 

아래 글에서 찾아볼 수 있듯이, SAS는 대소문자를 가리지 않으므로  "LIBNAME", "hong"은 대문자로 쓰든, 소문자로 쓰든, 섞어 쓰든 아무 상관이 없으며 모두 같은 것으로 인식한다.

2022.08.05 - [통계 프로그램 사용 팁] - [SAS] 주석 처리 및 프로그램 특징

 

[SAS] 주석 처리 및 프로그램 특징

[SAS] 주석 처리 및 프로그램 특징 SAS를 구동하다 보면 특정 구역을 실행되지 않았으면 할 때가 있다. 예를 들어, 코드를 설명해놓은 구역은 실행되지 않아야 한다. 이럴 때는 주석 처리를 하면 된

medistat.tistory.com

 

 

SAS 파일을 특정 라이브러리에 저장하는 방법 및 SAS에서 라이브러리 지정이 필요한 이유는 다음 글에서 찾아볼 수 있다.

2022.08.05 - [통계 프로그램 사용 팁] - [SAS] 데이터 불러오기 및 저장하기

 

[SAS] 데이터 불러오기 및 저장하기

[SAS] 데이터 불러오기 및 저장하기 (내보내기) 불러오기 1. '불러오기 마법사 (Import Wizard)'를 이용하는 방법 2. 코드 (PROC IMPORT)를 사용하는 방법 (추천) 저장하기 (내보내기) 1. '내보내기 마법사 (Exp

medistat.tistory.com

 

 

 

SAS 라이브러리 정복 완료!

 

작성일: 2022.08.05.

최종 수정일: 2022.08.05.

이용 프로그램: SAS v9.4

운영체제: Windows 10

반응형
반응형

[SPSS] 데이터 불러오기 및 저장하기

1. 데이터 불러오기

2. 데이터 저장하기

 

SPSS를 이용할 때 데이터를 불러오는 방법과 저장하는 방법을 알아보겠다.

 

*실습용 데이터는 아래 링크를 클릭하면 다운로드할 수 있습니다.

2022.08.04 - [공지사항 및 소개] - 분석용 데이터 (update 22.08.04) - 기술 통계

 

분석용 데이터 (update 22.08.04) - 기술 통계

2022년 08월 04일 버전입니다. 변수는 계속하여 추가될 예정입니다. 다음 카테고리에 있는 글에서 이용된 데이터입니다. - 기술 통계

medistat.tistory.com

 

 

1. 데이터 불러오기

1) SPSS에서 데이터를 불러오기 위해서는 다음과 같이 선택을 해야 한다.

 

엑셀 파일:

파일 > 데이터 가져오기 (D) > Excel...

CSV 파일:

파일 > 데이터 가져오기 (D) > CSV 데이터...

 

 

2) 파일이 있는 위치에서 원하는 파일을 선택하고 "열기 (O)"버튼을 누른다.

 

 

 

3) 그 다음에 나오는 창은 특별한 경우가 아닌 이상 설정을 만지지 말고 "확인" 버튼을 누른다.

*특별한 경우

 1) 첫 번째 체크박스: 첫 번째 행에 변수 이름이 존재하지 않고 바로 데이터부터 나올 경우 첫 번째 체크 박스 ("데이터 첫 행에서 변수 이름 읽어오기 (V)")를 해제한다. 

 2) 두 번째 체크박스: 100개의 데이터 중 95개 이상이 '숫자'라면 변수의 유형을 '숫자'로 지정하겠다는 것이다. 이 기준을 더 엄격하게 하고 싶다면 95보다 큰 숫자를, 느슨한 기준으로 평가하겠다면 95보다 낮은 숫자를 입력한다.

 3) 세 번째 체크박스: 엑셀에서 '행 숨기기' 혹은 '열 숨기기'로 특정 데이터가 보이지 않게 처리하였고, SPSS에 파일을 불러온 뒤에도 그 데이터들을 보고 싶지 않다면 체크박스를 해제하지 않는다. 만약 숨긴 데이터도 보고 싶다면 체크박스를 해제한다.

 

4) 데이터가 잘 불려온 것을 확인한다.

 

 

사실 더 간단한 방법이 있는데, 원하는 데이터 파일을 드래그하여 SPSS 창 중 어떤 곳에든지 내려놓는 것이다.

그러면 첫 번째, 두 번째 단계를 뛰어넘게 된다.

 

2. 데이터 저장하기

 SPSS에서 다뤘던 데이터를 저장하고 싶을 때가 생기기 마련이다.

 

1) 다음과 같이 클릭한다.

엑셀 파일:

파일 > 내보내기 (T) > Excel...

CSV 파일:

파일 > 내보내기 (T) > CSV 데이터...

 

2) 저장하고자 하는 위치와 파일 이름을 지정한다.

3) 저장하고자 하는 변수를 선택한다.

선택하기 위해서는 "변수(V)"버튼을 클릭하여 원하는 변수의 체크박스에만 체크를 한다. 필자는 두 개의 변수를 모두 선택했다.

"계속(C)"버튼을 누르고 위 그림에서 "저장(S)"을 누르면 저장이 된다.

 

 

SPSS 데이터 불러오기 및 저장하기 정복 완료!

 

작성일: 2022.08.04.

최종 수정일: 2022.08.08.

이용 프로그램: IBM SPSS v26

운영체제: Windows 10

반응형

+ Recent posts