'데이터분석' 태그의 글 목록

시계열 데이터에서 계절주기를 검출하는 방법

시계열 데이터(time series data)는 시간의 흐름에 따라 측정된 값들의 연속입니다. 온도 변화, 매출 추이, 주식 가격, 웹 트래픽 등 다양한 분야에서 활용되며, 이 데이터를 분석하는 과정에서 자주 등장하는 개념이 바로 '계절성(Seasonality)'입니다.계절성(Seasonality)이란?계절성은 일정한 주기를 두고 반복되는 패턴을 의미합니다. 예를 들어:아이스크림 매출은 여름에 증가합니다. 더운 날씨로 인해 시원한 제품의 수요가 자연스럽게 늘어나기 때문이죠.온라인 쇼핑은 연말 시즌에 급증합니다. 블랙프라이데이, 크리스마스, 연말정산 등 다양한 이벤트가 소비를 자극합니다.교통량은 주말과 평일에 차이를 보이며, 출퇴근 시간대에도 명확한 패턴을 형성합니다.이러한 반복적인 주기를 정확하게 파악하..

빅데이터 관련 자료 2025.04.16

가설 검정: 데이터 기반 의사결정의 핵심 도구

가설 검정은 통계학에서 데이터를 기반으로 결론을 내리는 데 사용되는 중요한 절차입니다. 이 글에서는 가설 검정의 기본 개념, 주요 용어, 단계, 그리고 실무에서의 활용 사례를 다루겠습니다.1. 가설 검정이란?가설 검정(Hypothesis Testing)은 표본 데이터를 바탕으로 어떤 주장(가설)이 사실인지 여부를 검증하는 통계적 방법입니다. 이는 실험 결과나 관측 데이터를 기반으로 결론을 내리는 과정에서 중요한 역할을 합니다.2. 주요 용어1) 귀무가설 (Null Hypothesis, H₀)처음 세운 기본 가설로, 차이가 없거나 효과가 없다는 주장을 나타냅니다.예: "새로운 약은 기존 약과 효과가 같다."2) 대립가설 (Alternative Hypothesis, H₁)귀무가설에 반대되는 가설로, 차이가 ..

빅데이터 관련 자료 2025.01.22

기초 통계: 데이터 분석의 시작점

통계는 데이터 분석의 기초이자 핵심 도구입니다. 데이터를 이해하고 의사결정을 내리는 데 필수적인 여러 기초 개념들을 알아보겠습니다. 이 글에서는 통계의 기본 개념과 대표적인 기초 통계 지표들을 소개하고, 이를 실무에 어떻게 활용할 수 있는지 살펴보겠습니다.1. 통계란 무엇인가?통계(Statistics)는 데이터를 수집, 분석, 해석, 표현하는 학문입니다. 이를 통해 복잡한 데이터를 요약하고, 데이터를 기반으로 결론을 도출하거나 미래를 예측할 수 있습니다.통계는 크게 두 가지로 나뉩니다:기술통계(Descriptive Statistics): 데이터를 요약하고 설명.예: 평균, 중앙값, 분산 등.추론통계(Inferential Statistics): 표본 데이터를 기반으로 모집단의 특성을 추정.예: 가설 검정,..

빅데이터 관련 자료 2025.01.08

확률과 분포: 데이터의 패턴을 이해하는 열쇠

확률과 분포: 데이터의 패턴을 이해하는 열쇠데이터 분석과 통계학에서 확률과 분포는 데이터를 이해하고 모델링하는 데 필수적인 개념입니다. 이 글에서는 확률과 분포의 기본 개념, 주요 분포의 종류, 그리고 이를 실무에서 활용하는 방법을 살펴보겠습니다.1. 확률(Probability)이란?확률은 특정 사건이 발생할 가능성을 수치로 나타낸 것입니다. 확률의 값은 항상 0과 1 사이에 위치하며, 0은 사건이 절대 발생하지 않음을, 1은 사건이 반드시 발생함을 의미합니다.확률의 기본 규칙:확률의 범위: 모든 사건의 확률은 0에서 1 사이의 값을 가짐.전체 확률의 합: 모든 가능한 사건의 확률 합은 1.배반 사건: 두 사건이 동시에 발생할 수 없을 경우, P(A ∪ B) = P(A) + P(B).예제:주사위를 던졌을..

빅데이터 관련 자료 2025.01.02

파이썬에서 데이터 읽는 방법

파이썬은 데이터를 읽고 처리하는 데 매우 효과적인 도구입니다. 다양한 데이터 소스에서 데이터를 읽을 수 있는 방법이 있습니다. 이 글에서는 CSV, Excel, JSON, SQL 데이터베이스 및 웹에서 데이터를 읽는 방법을 알아보겠습니다. 1. CSV 파일 읽기 CSV(Comma-Separated Values) 파일은 쉼표로 구분된 텍스트 파일입니다. 파이썬에서 CSV 파일을 읽으려면 csv 모듈을 사용합니다. import csv # CSV 파일 열기 with open('data.csv', 'r') as file: reader = csv.reader(file) # 각 행 읽기 for row in reader: print(row) 2. Excel 파일 읽기 Excel 파일을 읽으려면 pandas 라이브러리..

IT/Python 2024.03.06

CountVectorizer - (2)

이번 시간에는 CountVectorizer를 이용하여 청와대 청원 데이터를 벡터화 시켜 보도록 하겠습니다. 실습 순서는 다음과 같습니다. train 데이터를 이용해 CountVectorizer 학습(fit) 학습(fit) 된 CountVectorizer를 이용해 train 데이터 변환(transform) train 데이터로 학습(fit) 된 CountVectorizer를 이용해 test 데이터 변환(transform) 그럼 바로 실습을 진행해보도록 하겠습니다 from sklearn.featrue_extraction.text import CounterVectorizer #Count Vectorization으로 train 데이터를 피처 벡터화 변환 수행 vect = CounterVector() vect.fi..

IT/Dacon 2021.11.16

Lv3 | EDA | read_csv(), info(), shape, head()

EDA의 첫 번쨰 순서로 가장 기본적인 데이터 불러오기, 데이터 정보 관측하기, 데이터 크기 파악하기, 데이터 피쳐 알아보기를 진행한다. CSV 파일을 pandas DataFrame class로 불러오기 위해 read_csv() 메서드를 활용할 수 있다. df = pd.read_csv(‘경로') info() 메서드를 활용하여 데이터의 피쳐수와 컬럼명, 결측치여부, dtype에 대한 정보를 알 수 있다. df.info() shape attribute를 쓰면 데이터의 행갯수, 열갯수를 출력하여 데이터의 크기를 파악할 수 있다. df.shape head() 메서드를 통해 데이터의 대략적인 정보를 알 수 있다. df.head()

IT/Dacon 2021.08.10

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

하미's 블로그

데이터분석 7

티스토리툴바