'Python' 태그의 글 목록
Data Analyst
300x250
300x250

Python 9

파이썬에서 데이터 읽는 방법

파이썬은 데이터를 읽고 처리하는 데 매우 효과적인 도구입니다. 다양한 데이터 소스에서 데이터를 읽을 수 있는 방법이 있습니다. 이 글에서는 CSV, Excel, JSON, SQL 데이터베이스 및 웹에서 데이터를 읽는 방법을 알아보겠습니다. 1. CSV 파일 읽기 CSV(Comma-Separated Values) 파일은 쉼표로 구분된 텍스트 파일입니다. 파이썬에서 CSV 파일을 읽으려면 csv 모듈을 사용합니다. import csv # CSV 파일 열기 with open('data.csv', 'r') as file: reader = csv.reader(file) # 각 행 읽기 for row in reader: print(row) 2. Excel 파일 읽기 Excel 파일을 읽으려면 pandas 라이브러리..

Python 파이썬, 왜 다들 파이썬 파이썬 그러는가?

파이썬은 다양한 이유로 많은 사람들에게 인기가 있는 프로그래밍 언어입니다. 이런 이유 중 일부는 다음과 같습니다 읽기 쉬운 문법 파이썬은 간결하고 읽기 쉬운 문법을 가지고 있어 새로운 프로그래머들도 빠르게 배울 수 있으며, 코드를 이해하기 쉽습니다. 다양한 라이브러리와 프레임워크 파이썬은 다양한 라이브러리와 프레임워크를 지원하며, 데이터 분석, 인공지능, 웹 개발, 게임 개발, 과학 연구 등 다양한 분야에서 사용됩니다. 대표적으로 NumPy, pandas, TensorFlow, Django, Flask, 등이 있습니다. 크로스 플랫폼 지원 파이썬은 Windows, macOS, Linux와 같은 다양한 운영체제에서 동작합니다. 이는 다양한 환경에서 프로그램을 개발하고 실행할 수 있도록 도와줍니다. 커뮤니티..

train_test_split() - (3)

이번시간에는 train_test_split() 메소드의 test_size 파라미터와 shuffle 파라미터 에 대해 알아보겠습니다. test_size: test data(validation data) 구성의 비율을 나타냅니다. train_size의 옵션과 반대 관계에 있는 옵션 값이며, 주로 test_size 파라미터를 지정 해줍니다. test_size = 0.2 로 지정 하면 전체 데이터 셋의 20%를 test(validation) 셋으로 지정하겠다는 의미입니다. default 값은 0.25 입니다. shuffle: 데이터를 split 하기 이전에 섞을지 말지 여부에 대해 지정해주는 파라미터 입니다. default = True 입니다. # 라이브러리 로딩 from sklearn.model_selecti..

특정 텍스트 제거 - (5)

이번시간에는 이전에 배웠던 특정 텍스트를 제거하는 방법을 이용해 청와대 청원 데이터에서 불필요한 텍스트를 제거해 보겠습니다. 청와대 청원 데이터를 살펴보면 아래 사진 처럼 \\n 와 같은 문자열이 많이 보입니다. 해당 문자열은 줄바꿈을 나타내는 의미이며, 텍스트에서 불필요한 문자열이기 때문에 데이터 분석에 방해가 되지 않게 제거해주도록 하겠습니다. train_data[0] 모든 train데이터에 한번에 replace 함수를 적용하기 위해서는 apply() 함수, lambda() 함수를 함께 사용하면 됩니다. 사용방법은 아래와 같습니다. import pandas as pd train=pd.read_csv('data/train.csv') test=pd.read_csv('data/test.csv') train..

index=False, 데이터를 저장할 때 index 제외하고 저장

파이썬에서 데이터 파일을 내보내기 위해서는 pandas 라이브러리의 to_csv 함수를 이용하면 손쉽게 데이터를 내보낼수있다. DataFrame.to_csv('path')로 저장할 수 있고, path에 저장하고 싶은 경로와 파일명을 함께 넣어주면 된다. 하지만, to_csv 메서도 안에 아무런 옵션도 지정해주지 않는다면 다음과 같이 인덱스도 데이터에 포함되어 저장되기 떄문에 index는 포함하지않고 저장하는 옵션을 지정해주어야 한다. index를 포함시키지 않고 데이터를 저장하기 위해서는 to_csv(inedx=False)로 지정해서 데이터를 저장해주면 된다. #index를 포함하지 않고 데이터 저장하기 import pandas as pd train.to_csv('data/train.csv',index=..

index_col, 원하는 컬럼을 인덱스로 지정하여 불러오기

데이터에서 컬럼을 index로 지정하여 불러오기 데이터에서 컬럼을 인덱스로 지정하여 불러오기 위해서는 read_csv의 index_col 옵션을 사용하면 된다. 예를 들어, 데이터에 python 컬럼이 있다고 했을 때, pd.read_csv('파일경로',index_col='python')으로 지정해주면 된다. # index 컬럼을 인덱스로 지정해서 불러오기 train_index = pd.read_csv('data/train.csv',index_col='index') test_index = pd.read_csv('data/test,csv',index_col='index')

Lv3 | 전처리 | 이상치 탐지

데이터 중에는 이상치가 존재한다. 이상치는 말 그대로 이상이 있는 데이터다. 일반적인 데이터 패턴과 매우 다른 패턴을 갖는 데이터과 된다. 이러한 이상치 데이터는 모델의 성능을 크게 떨어트립니다. 오늘은 이상치를 탐지하는법을 배우겠다. 대표적인 방법은 IQR 로, 사분위 값의 편차를 이용한다. 이를 boxplot 그래프로 볼 수 있다. import seaborn as sns sns.boxplot(data='데이터셋')

Lv3 | EDA | read_csv(), info(), shape, head()

EDA의 첫 번쨰 순서로 가장 기본적인 데이터 불러오기, 데이터 정보 관측하기, 데이터 크기 파악하기, 데이터 피쳐 알아보기를 진행한다. CSV 파일을 pandas DataFrame class로 불러오기 위해 read_csv() 메서드를 활용할 수 있다. df = pd.read_csv(‘경로') info() 메서드를 활용하여 데이터의 피쳐수와 컬럼명, 결측치여부, dtype에 대한 정보를 알 수 있다. df.info() shape attribute를 쓰면 데이터의 행갯수, 열갯수를 출력하여 데이터의 크기를 파악할 수 있다. df.shape head() 메서드를 통해 데이터의 대략적인 정보를 알 수 있다. df.head()

300x250
300x250