이번에 다뤄볼 주제는 경로 설정 및 데이터 불러오기 입니다.
간단한 데이터의 경우 직접 입력을 하여 사용할 수 있지만, 양이 많은 경우 직접 입력하기는 매우 힘들죠.
이러한 경우 *.txt 또는 *.csv 파일로 저장된 파일을 읽어오는 것이 편합니다.
파일을 읽어오기 위해서는 파일들의 위치를 먼저 정해줘야 합니다.
파일을 읽는 경우 외에도 결과를 저장할 때에도 저장될 위치를 정해주는 것이 좋습니다.
그렇다면 먼저 불러올 데이터를 만들어 볼까요.
test_data.txt파일과 test_data.csv파일을 다음과 같이 각각 만들어줍니다.
이제 R에서 경로를 설정해볼까요.
R을 실행시켜 getwd()라는 명령어를 입력해주면 현재 R이 작업하고 있는 위치 경로를 보여줍니다.
다음으로 파일이 있는 위치로 변경을 하려고 하는데요. 파일의 위치는 어디에 있을까요?
윈도우 기준으로 불러오고자 하는 파일을 클릭한 후 마우스 오른쪽 버튼을 눌러 속성을 눌러줍니다.
속성을 눌러보면 파일의 위치가 나타나는데, 이것을 복사하면 됩니다.
복사한 후 setwd("복사한 경로")를 하면됩니다.
이때 복사한 경로는 \ 로 구분되어 있는데 이것을 / 또는 \\ 로 변경해야 합니다.
변경하지 않으면 에러가 나타나는 것을 볼 수 있습니다.
그럼 작업경로가 잘 설정되었는지 getwd()를 입력하여 확인해볼까요.
추가로 list.files()라는 함수를 이용하여 이 위치에 어떤 파일들이 있는지도 확인해볼께요.
보이는 것 처럼 경로가 R program폴더로 잘 변경되었고, 이 위치에 test_data.txt와 test_data.csv파일이 있는 것을 확인할 수 있습니다.
경로를 설정하는 방법에는 setwd()함수를 쓰는것 외에 직접 클릭하여 설정하는 방법도 있습니다.
파일에서 작업 디렉토리 변경을 클릭한 후 직접 폴더를 선택해주면 setwd()와 동일하게 변경됩니다.
이제 파일을 읽어보도록 하겠습니다.
먼저 txt파일을 불러올텐데요. 이때 사용할 함수는 read.table()입니다.
read.table("파일명")을 입력하시면 불러올 수 있습니다.
data1에 txt데이터를 불러와서 할당하도록 하겠습니다.
보시는 것 처럼 test_data.txt를 읽어와서 data1에 할당하였습니다.
그런데 첫 row의 값이 Name과 Score로 들어간 것을 볼 수 있습니다.
Name과 Score를 1 row 값이 아닌 column 이름으로 설정하고 싶다면 header=TURE라는 인자를 추가해주면 됩니다.
이제 문제없이 들어간 것으로 보입니다.
하지만 한가지 주의가 필요한 것이 있습니다.
일반적으로 read.table로 읽었을 경우 문자는 factor로 읽는다는 것입니다.
factor를 이용하시는 경우에는 문제가 없지만 factor를 사용하지 않는 경우 문제가 발생할 수 있습니다.
그렇다면 factor가 아닌 그냥 문자로 읽어오려면 어떻게 해야할까요.
stringsAsFactors=FALSE 라는 인자를 추가해주면 됩니다. (대소문자 주의)
다음으로 csv파일을 불러오도록 하겠습니다.
이때 사용할 함수는 read.csv()입니다. read.table과 매우 비슷하며, 추가되는 인자들 역시 동일한 것이 많습니다.
가장 기본적으로 파일을 불러오는 방법을 보여드렸는데요.
이 외에도 다양한 형태의 파일을 불러올 수 있으며, 또한 다양한 조건을 설정하여 줄 수 있습니다.
이러한 내용은 차차 다루도록 하겠습니다.
'R program' 카테고리의 다른 글
[Scatter plot] plot()함수를 이용하여 그림 그리기1 (0) | 2019.11.14 |
---|---|
[데이터 다루기] data.frame편 (0) | 2019.09.22 |
[데이터 다루기] Matrix 편 (0) | 2019.09.07 |
[데이터 다루기] Factor편 (0) | 2019.09.03 |
[데이터 다루기] Vector편 (0) | 2019.09.01 |