head() function
포스트 난이도: HOO_Junior
# head()
데이터 사이언스 프로젝트를 하기 위해서 판다스(Pandas)를 통해서 데이터셋을 불러올 수 있다.
.csv 와 같이 텍스트 형식의 테이블 데이터셋을 불러와서 Training dataset으로 사용할 수가 있다.
혼자서 작업을 할 경우에는 각각의 데이터셋이 어떻게 구성되어 있는지를 알지만, 여러 사람들이 작업을 같이 수행하거나 작업을 수행하는 데 있어 데이터셋을 제공받았다면 데이터셋이 어떻게 구성되어 있는지 모를 수 있다.
ML을 돌리기 위해서는 Attributes들의 위치를 정확하게 파악하고 있어야 한다.
한마디로 데이터셋에 대해서 데이터 하나하나를 파악하는 것이 중요한 것이 아니라, Attributes들과 데이터셋 구성이 어떤식으로 되어 있는지를 인지하는 것이 중요하다.
결국 매번 데이터셋을 열어가며 확인하기에는 번거로움이 있으니, 판다스에서는 head()라는 function을 제공하여 쉽게 확인을 할 수 있도록 도와준다.
# pd.DataFrame을 사용한 head() 예제
head() funciton은 default값이 5에 해당한다.
따라서 괄호 안의 별도의 값을 입력하지 않으면 5개의 배열 값이 산출되어 나타난다.
하지만 굳이 5개의 값이 필요없거나 추가적으로 더 많은 데이터를 나타내고 싶다면 특정 값을 입력해주면 된다.
물론 데이터셋에서 나타낼 수 있는 값보다 더 큰 값을 입력한다면 나머지 값들은 출력되지 않는다.
아래의 예제는 DataFrame을 사용하였으며, head() function이 어떻게 사용되고 있는지를 살펴볼 수 있다.
import numpy as np
import pandas as pd
kakao = pd.DataFrame({'Characters': ['FRODO', 'NEO', 'TUBE', 'APEACH', 'MUZI', 'CON', 'JAY-G']})
kakao
kakao.head()
kakao.head(3)
kakao.head(100)
'Python' 카테고리의 다른 글
[Keras] Batch Normalization (0) | 2022.07.21 |
---|---|
[Keras] Sequential Model (0) | 2022.07.19 |
[Python] Numpy Shape() (0) | 2022.07.12 |
[PyTorch] 데이터셋과 데이터로더 (Dataloader and Dataset) (0) | 2022.07.12 |
[Python] Split: split(), max split (0) | 2022.03.06 |
댓글