파이썬은 데이터를 읽고 처리하는 데 매우 효과적인 도구입니다. 다양한 데이터 소스에서 데이터를 읽을 수 있는 방법이 있습니다. 이 글에서는 CSV, Excel, JSON, SQL 데이터베이스 및 웹에서 데이터를 읽는 방법을 알아보겠습니다.
1. CSV 파일 읽기
CSV(Comma-Separated Values) 파일은 쉼표로 구분된 텍스트 파일입니다. 파이썬에서 CSV 파일을 읽으려면 csv 모듈을 사용합니다.
import csv
# CSV 파일 열기
with open('data.csv', 'r') as file:
reader = csv.reader(file)
# 각 행 읽기
for row in reader:
print(row)
2. Excel 파일 읽기
Excel 파일을 읽으려면 pandas 라이브러리를 사용할 수 있습니다.
import pandas as pd
# Excel 파일 읽기
df = pd.read_excel('data.xlsx')
print(df)
3. JSON 파일 읽기
JSON(JavaScript Object Notation) 파일은 데이터를 저장하고 전송하기 위한 형식입니다. 파이썬에서 JSON 파일을 읽으려면 json 모듈을 사용합니다.
import json
# JSON 파일 읽기
with open('data.json', 'r') as file:
data = json.load(file)
print(data)
4. SQL 데이터베이스 읽기
SQL 데이터베이스에서 데이터를 읽으려면 sqlite3 모듈을 사용할 수 있습니다.
import sqlite3
# 데이터베이스 연결
conn = sqlite3.connect('database.db')
cursor = conn.cursor()
# 쿼리 실행
cursor.execute('SELECT * FROM table_name')
# 결과 가져오기
rows = cursor.fetchall()
for row in rows:
print(row)
# 연결 종료
conn.close()
5. 웹에서 데이터 읽기
웹에서 데이터를 읽으려면 requests 라이브러리를 사용할 수 있습니다.
import requests
# 웹페이지에서 데이터 가져오기
response = requests.get('http://example.com/data.csv')
data = response.text
print(data)
6. Parquet 파일 읽기
Parquet 파일은 대용량의 데이터를 저장하고 처리하는 데 사용되는 열 지향 데이터 형식입니다. pandas 라이브러리를 사용하여 Parquet 파일을 읽어올 수 있습니다.
import pandas as pd
# Parquet 파일 읽기
df = pd.read_parquet('data.parquet')
print(df)
7. XML 파일 읽기
XML(Extensible Markup Language) 파일은 데이터를 구조화하여 저장하는 데 사용되는 형식입니다. xml.etree.ElementTree 모듈을 사용하여 XML 파일을 읽어올 수 있습니다.
import xml.etree.ElementTree as ET
# XML 파일 읽기
tree = ET.parse('data.xml')
root = tree.getroot()
# XML 데이터 탐색
for child in root:
print(child.tag, child.attrib)
8. YAML 파일 읽기
YAML(YAML Ain't Markup Language) 파일은 데이터를 표현하기 위한 형식 중 하나입니다. PyYAML 라이브러리를 사용하여 YAML 파일을 읽어올 수 있습니다.
import yaml
# YAML 파일 읽기
with open('data.yaml', 'r') as file:
data = yaml.safe_load(file)
print(data)
9. Avro 파일 읽기
Avro 파일은 데이터 직렬화 및 저장을 위한 형식 중 하나입니다. fastavro 라이브러리를 사용하여 Avro 파일을 읽어올 수 있습니다.
import fastavro
# Avro 파일 읽기
with open('data.avro', 'rb') as file:
reader = fastavro.reader(file)
for record in reader:
print(record)
10. ORC 파일 읽기
ORC(Optimized Row Columnar) 파일은 대용량의 데이터를 저장하고 처리하는 데 사용되는 데이터 형식 중 하나입니다. pyorc 라이브러리를 사용하여 ORC 파일을 읽어올 수 있습니다.
import pyorc
# ORC 파일 읽기
with open('data.orc', 'rb') as file:
reader = pyorc.Reader(file)
for row in reader:
print(row)
위의 방법들을 사용하여 파이썬에서 다양한 데이터 소스로부터 데이터를 읽을 수 있습니다. 이러한 기능을 사용하여 데이터 분석 및 처리를 효과적으로 수행할 수 있습니다.
'빅데이터 관련 자료 > Python' 카테고리의 다른 글
Python: 혁신적인 프로그래밍 언어 (2) | 2024.07.24 |
---|---|
[예시 Python 코딩] RFM 분석을 통한 고객을 세분화 (0) | 2024.03.08 |
Python 파이썬, 왜 다들 파이썬 파이썬 그러는가? (0) | 2023.10.31 |
Python 함수 group by, unstack() , transpose() (0) | 2023.02.02 |
ValueError: invalid literal for int() with base 10: ' ' 주피터 파이썬 에러 (0) | 2023.01.30 |