파이썬에서 데이터 읽는 방법
Data Analyst

빅데이터 관련 자료/Python

파이썬에서 데이터 읽는 방법

carpe08 2024. 3. 6. 13:00
320x100
320x100

파이썬은 데이터를 읽고 처리하는 데 매우 효과적인 도구입니다. 다양한 데이터 소스에서 데이터를 읽을 수 있는 방법이 있습니다. 이 글에서는 CSV, Excel, JSON, SQL 데이터베이스 및 웹에서 데이터를 읽는 방법을 알아보겠습니다.

1. CSV 파일 읽기

CSV(Comma-Separated Values) 파일은 쉼표로 구분된 텍스트 파일입니다. 파이썬에서 CSV 파일을 읽으려면 csv 모듈을 사용합니다.

import csv

# CSV 파일 열기
with open('data.csv', 'r') as file:
    reader = csv.reader(file)
    # 각 행 읽기
    for row in reader:
        print(row)

2. Excel 파일 읽기

Excel 파일을 읽으려면 pandas 라이브러리를 사용할 수 있습니다.

import pandas as pd

# Excel 파일 읽기
df = pd.read_excel('data.xlsx')
print(df)

3. JSON 파일 읽기

JSON(JavaScript Object Notation) 파일은 데이터를 저장하고 전송하기 위한 형식입니다. 파이썬에서 JSON 파일을 읽으려면 json 모듈을 사용합니다.

import json

# JSON 파일 읽기
with open('data.json', 'r') as file:
    data = json.load(file)
    print(data)
 

4. SQL 데이터베이스 읽기

SQL 데이터베이스에서 데이터를 읽으려면 sqlite3 모듈을 사용할 수 있습니다.

import sqlite3

# 데이터베이스 연결
conn = sqlite3.connect('database.db')
cursor = conn.cursor()

# 쿼리 실행
cursor.execute('SELECT * FROM table_name')

# 결과 가져오기
rows = cursor.fetchall()
for row in rows:
    print(row)

# 연결 종료
conn.close()

5. 웹에서 데이터 읽기

웹에서 데이터를 읽으려면 requests 라이브러리를 사용할 수 있습니다.

import requests

# 웹페이지에서 데이터 가져오기
response = requests.get('http://example.com/data.csv')
data = response.text
print(data)

6. Parquet 파일 읽기

Parquet 파일은 대용량의 데이터를 저장하고 처리하는 데 사용되는 열 지향 데이터 형식입니다. pandas 라이브러리를 사용하여 Parquet 파일을 읽어올 수 있습니다.

import pandas as pd

# Parquet 파일 읽기
df = pd.read_parquet('data.parquet')
print(df)

7. XML 파일 읽기

XML(Extensible Markup Language) 파일은 데이터를 구조화하여 저장하는 데 사용되는 형식입니다. xml.etree.ElementTree 모듈을 사용하여 XML 파일을 읽어올 수 있습니다.

import xml.etree.ElementTree as ET

# XML 파일 읽기
tree = ET.parse('data.xml')
root = tree.getroot()

# XML 데이터 탐색
for child in root:
    print(child.tag, child.attrib)

8. YAML 파일 읽기

YAML(YAML Ain't Markup Language) 파일은 데이터를 표현하기 위한 형식 중 하나입니다. PyYAML 라이브러리를 사용하여 YAML 파일을 읽어올 수 있습니다.

import yaml

# YAML 파일 읽기
with open('data.yaml', 'r') as file:
    data = yaml.safe_load(file)

print(data)

9. Avro 파일 읽기

Avro 파일은 데이터 직렬화 및 저장을 위한 형식 중 하나입니다. fastavro 라이브러리를 사용하여 Avro 파일을 읽어올 수 있습니다.

 
import fastavro

# Avro 파일 읽기
with open('data.avro', 'rb') as file:
    reader = fastavro.reader(file)
    for record in reader:
        print(record)

10. ORC 파일 읽기

ORC(Optimized Row Columnar) 파일은 대용량의 데이터를 저장하고 처리하는 데 사용되는 데이터 형식 중 하나입니다. pyorc 라이브러리를 사용하여 ORC 파일을 읽어올 수 있습니다.

 
import pyorc

# ORC 파일 읽기
with open('data.orc', 'rb') as file:
    reader = pyorc.Reader(file)
    for row in reader:
        print(row)

위의 방법들을 사용하여 파이썬에서 다양한 데이터 소스로부터 데이터를 읽을 수 있습니다. 이러한 기능을 사용하여 데이터 분석 및 처리를 효과적으로 수행할 수 있습니다.

320x100
320x100