'데이터분석' 태그의 글 목록
Data Analyst
300x250
300x250

데이터분석 6

가설 검정: 데이터 기반 의사결정의 핵심 도구

가설 검정은 통계학에서 데이터를 기반으로 결론을 내리는 데 사용되는 중요한 절차입니다. 이 글에서는 가설 검정의 기본 개념, 주요 용어, 단계, 그리고 실무에서의 활용 사례를 다루겠습니다.1. 가설 검정이란?가설 검정(Hypothesis Testing)은 표본 데이터를 바탕으로 어떤 주장(가설)이 사실인지 여부를 검증하는 통계적 방법입니다. 이는 실험 결과나 관측 데이터를 기반으로 결론을 내리는 과정에서 중요한 역할을 합니다.2. 주요 용어1) 귀무가설 (Null Hypothesis, H₀)처음 세운 기본 가설로, 차이가 없거나 효과가 없다는 주장을 나타냅니다.예: "새로운 약은 기존 약과 효과가 같다."2) 대립가설 (Alternative Hypothesis, H₁)귀무가설에 반대되는 가설로, 차이가 ..

기초 통계: 데이터 분석의 시작점

통계는 데이터 분석의 기초이자 핵심 도구입니다. 데이터를 이해하고 의사결정을 내리는 데 필수적인 여러 기초 개념들을 알아보겠습니다. 이 글에서는 통계의 기본 개념과 대표적인 기초 통계 지표들을 소개하고, 이를 실무에 어떻게 활용할 수 있는지 살펴보겠습니다.1. 통계란 무엇인가?통계(Statistics)는 데이터를 수집, 분석, 해석, 표현하는 학문입니다. 이를 통해 복잡한 데이터를 요약하고, 데이터를 기반으로 결론을 도출하거나 미래를 예측할 수 있습니다.통계는 크게 두 가지로 나뉩니다:기술통계(Descriptive Statistics): 데이터를 요약하고 설명.예: 평균, 중앙값, 분산 등.추론통계(Inferential Statistics): 표본 데이터를 기반으로 모집단의 특성을 추정.예: 가설 검정,..

확률과 분포: 데이터의 패턴을 이해하는 열쇠

데이터 분석과 통계학에서 확률과 분포는 데이터를 이해하고 모델링하는 데 필수적인 개념입니다. 이 글에서는 확률과 분포의 기본 개념, 주요 분포의 종류, 그리고 이를 실무에서 활용하는 방법을 살펴보겠습니다.1. 확률(Probability)이란?확률은 특정 사건이 발생할 가능성을 수치로 나타낸 것입니다. 확률의 값은 항상 0과 1 사이에 위치하며, 0은 사건이 절대 발생하지 않음을, 1은 사건이 반드시 발생함을 의미합니다.확률의 기본 규칙:확률의 범위: 전체 확률의 합: 모든 가능한 사건의 확률 합은 1입니다. 배반 사건: 두 사건이 동시에 발생할 수 없는 경우, .예제:주사위를 던졌을 때, 3이 나올 확률은 .동전을 던졌을 때, 앞면이 나올 확률은 .2. 분포(Distribution)란?분포는 데이터나 확..

파이썬에서 데이터 읽는 방법

파이썬은 데이터를 읽고 처리하는 데 매우 효과적인 도구입니다. 다양한 데이터 소스에서 데이터를 읽을 수 있는 방법이 있습니다. 이 글에서는 CSV, Excel, JSON, SQL 데이터베이스 및 웹에서 데이터를 읽는 방법을 알아보겠습니다. 1. CSV 파일 읽기 CSV(Comma-Separated Values) 파일은 쉼표로 구분된 텍스트 파일입니다. 파이썬에서 CSV 파일을 읽으려면 csv 모듈을 사용합니다. import csv # CSV 파일 열기 with open('data.csv', 'r') as file: reader = csv.reader(file) # 각 행 읽기 for row in reader: print(row) 2. Excel 파일 읽기 Excel 파일을 읽으려면 pandas 라이브러리..

CountVectorizer - (2)

이번 시간에는 CountVectorizer를 이용하여 청와대 청원 데이터를 벡터화 시켜 보도록 하겠습니다. 실습 순서는 다음과 같습니다. train 데이터를 이용해 CountVectorizer 학습(fit) 학습(fit) 된 CountVectorizer를 이용해 train 데이터 변환(transform) train 데이터로 학습(fit) 된 CountVectorizer를 이용해 test 데이터 변환(transform) 그럼 바로 실습을 진행해보도록 하겠습니다 from sklearn.featrue_extraction.text import CounterVectorizer #Count Vectorization으로 train 데이터를 피처 벡터화 변환 수행 vect = CounterVector() vect.fi..

Lv3 | EDA | read_csv(), info(), shape, head()

EDA의 첫 번쨰 순서로 가장 기본적인 데이터 불러오기, 데이터 정보 관측하기, 데이터 크기 파악하기, 데이터 피쳐 알아보기를 진행한다. CSV 파일을 pandas DataFrame class로 불러오기 위해 read_csv() 메서드를 활용할 수 있다. df = pd.read_csv(‘경로') info() 메서드를 활용하여 데이터의 피쳐수와 컬럼명, 결측치여부, dtype에 대한 정보를 알 수 있다. df.info() shape attribute를 쓰면 데이터의 행갯수, 열갯수를 출력하여 데이터의 크기를 파악할 수 있다. df.shape head() 메서드를 통해 데이터의 대략적인 정보를 알 수 있다. df.head()

300x250
300x250