본문 바로가기
AI & Data

[Data Science] 한글 csv 파일 cp949 인코딩으로 pd.read_csv() 하는 방법

by Henry Cho 2022. 12. 31.
728x90

한글 csv 파일 cp949 인코딩으로 pd.read_csv() 하는 방법

포스트 난이도: HOO_Middle


# 한글 csv 파일 cp949 인코딩으로 pd.read_csv() 예제 코드


한글이 포함된 csv 파일인 경우에는 Pandas에서 데이터를 읽고 처리하는데 utf-8 에러가 발생할 수 있다. 영어로 되어 있다면 문제가 없겠지만 한글이나 한국에서 주로 사용하는 특수 기호가 포함되어 있다면 이러한 에러 문제가 발생한다. 한마디로 컴퓨터에게 한글을 사용할 것이라는 걸 알려줘야 하는데, 이때 인코딩 세팅을 추가로 해주면 문제없이 데이터 읽고 사용이 가능하다.

 

인코딩 넘버는 'cp949'이며 pd.read_csv()에 인코딩을 추가해줘서 쉽게 한글 csv 파일 사용이 가능하다.


import pandas as pd

df = pd.read_csv('국가어항+일반현황.csv', encoding= 'cp949')
df.head()

위의 경우에는 한글로 구성이 된 국가어항+일반현황.csv 파일을 읽는다고 가정했을 때, encodings을 통해서 cp949로 설정해 주었다. 이 경우 문제없이 데이터가 출력되는 걸 확인할 수 있다.


해양수산빅데이터 거래소, 빌리언21, 국가어항+일반현황


 

728x90

댓글