'빅데이터 관련 자료' 카테고리의 글 목록
Data Analyst
300x250
300x250

빅데이터 관련 자료 295

PostgreSQL에서 테이블 컬럼 정보 조회하기

데이터베이스 관리 시스템을 운영하거나 데이터와 관련된 작업을 할 때, 특정 테이블의 구조를 이해하는 것은 매우 중요합니다. PostgreSQL에서는 information_schema.columns 뷰를 활용하여 테이블의 컬럼 정보를 손쉽게 조회할 수 있습니다. 이 글에서는 information_schema.columns 뷰를 사용하여 특정 테이블의 컬럼 상세 정보를 어떻게 확인할 수 있는지 알아보겠습니다. 1. information_schema.columns 소개information_schema.columns는 데이터베이스 내 모든 스키마의 컬럼 정보를 담고 있는 시스템 카탈로그 뷰입니다.사용자가 접근할 수 있는 모든 테이블의 컬럼 정보를 조회할 수 있습니다. 2. 필요한 정보 선택하기column_nam..

Part 1: Log 검증 첫걸음

안녕하세요! 데이텀 팀 데이터분석가 박상욱입니다. 현재 제가 하는 업무는 web/App log 분석 관련해서 진행하고 있습니다. 제가 다룰 주제는 'Web/App log 데이터를 사용하여 Google Analytics KPI 이관'이며, 이번글에서는 Google Analytics와 수집된 로그 지표의 비교분석에 대해 이야기 하도록 하겠습니다. 먼저 Web/App Log와 Google Analytics가 무엇인지 간단히 살펴보겠습니다. Web/App Log분석(웹/앱 로그 분석)이란? 유저가 웹 또는 앱 서비스를 이용할 때, 어떤 유저가 어느 페이지에 접속하여 얼마나 오랫동안 머물렀는 지 등의 log 데이터를 수집하여 마케팅에 필요로하는 지표들을 중심으로 분석하는 것입니다. \유저 A가 사이트 페이지에 접..

윈도우 프레임 SQL : ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING

ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING 구문은 SQL의 윈도우 함수에서 사용되며, 윈도우 프레임을 정의합니다. 이것을 심화 버전으로 설명하면 다음과 같습니다: 윈도우 프레임 윈도우 프레임은 윈도우 함수가 작동할 데이터의 범위를 정의합니다. 윈도우 프레임을 설정함으로써 함수는 해당 프레임 내에서만 작동하게 됩니다. - UNBOUNDED PRECEDING UNBOUNDED PRECEDING은 윈도우 프레임의 시작을 나타냅니다. 이것은 현재 행을 포함한 윈도우의 가장 첫 번째 행을 지정합니다. - UNBOUNDED FOLLOWING UNBOUNDED FOLLOWING은 윈도우 프레임의 끝을 나타냅니다. 이것은 현재 행을 포함한 윈도우의 가장 마지막..

SQL에서의 FIRST_VALUE 함수: 활용과 예제

SQL에서 FIRST_VALUE 함수는 데이터 집합 내에서 첫 번째 값을 반환하는 유용한 함수입니다. 이 함수는 특히 윈도우 함수나 ORDER BY 절과 함께 사용될 때 더욱 강력한 기능을 발휘합니다. 이 블로그에서는 FIRST_VALUE 함수의 사용법과 몇 가지 예제를 살펴보겠습니다. FIRST_VALUE 함수 구문 sqlCopy code FIRST_VALUE(expression) OVER ( [PARTITION BY partition_expression, ... ] ORDER BY order_expression [ASC | DESC] ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING ) expression: 반환할 값입니다. PARTITION BY:..

초보자도 이해하기 쉬운 git 설명

Git은 소스 코드 버전 관리 시스템(VCS)으로, 여러 명의 개발자가 협업하고 소스 코드의 변화를 효과적으로 관리할 수 있도록 도와주는 도구입니다. Git은 Linus Torvalds에 의해 만들어졌으며, 가장 널리 사용되는 버전 관리 시스템 중 하나입니다. Git의 주요 특징: 분산 버전 관리 시스템(DVCS): Git은 분산 버전 관리 시스템으로, 모든 개발자가 전체 프로젝트의 히스토리를 가지고 있습니다. 이는 오프라인에서도 작업이 가능하고, 각자의 로컬에서 변경사항을 효과적으로 관리할 수 있게 합니다. 브랜치: Git은 가볍고 빠르게 브랜치를 생성하고 전환할 수 있습니다. 이를 통해 독립적으로 작업하거나 기능을 실험하는 데에 유용합니다. 병합(Merge): 브랜치에서의 작업이 완료되면, Git은 ..

[예시 Python 코딩] RFM 분석을 통한 고객을 세분화

실제 파이썬 코드를 통해 예시를 공부해봤습니다. # 원본 데이터셋 복사 rfm_online_sales = online_sales.copy() # 날짜 형식 변환 rfm_online_sales['거래날짜'] = pd.to_datetime(rfm_online_sales['거래날짜']) # 데이터 내 마지막 날짜 계산 last_date = rfm_online_sales['거래날짜'].max() # Recency 계산 recency_data = rfm_online_sales.groupby('고객ID')['거래날짜'].max().reset_index() recency_data['Recency'] = (last_date - recency_data['거래날짜']).dt.days # Frequency 계산 freque..

파이썬에서 데이터 읽는 방법

파이썬은 데이터를 읽고 처리하는 데 매우 효과적인 도구입니다. 다양한 데이터 소스에서 데이터를 읽을 수 있는 방법이 있습니다. 이 글에서는 CSV, Excel, JSON, SQL 데이터베이스 및 웹에서 데이터를 읽는 방법을 알아보겠습니다. 1. CSV 파일 읽기 CSV(Comma-Separated Values) 파일은 쉼표로 구분된 텍스트 파일입니다. 파이썬에서 CSV 파일을 읽으려면 csv 모듈을 사용합니다. import csv # CSV 파일 열기 with open('data.csv', 'r') as file: reader = csv.reader(file) # 각 행 읽기 for row in reader: print(row) 2. Excel 파일 읽기 Excel 파일을 읽으려면 pandas 라이브러리..

[전부 모음] PostgreSQL 날짜 관련된 함수

PostgreSQL에서 사용할 수 있는 주요 날짜 및 시간 관련 함수를 설명하겠습니다. CURRENT_DATE / CURRENT_TIME / CURRENT_TIMESTAMP: 각각 현재 날짜, 시간, 날짜와 시간을 반환합니다. DATE_TRUNC(unit, date): 날짜를 특정 단위로 자릅니다. 예를 들어, 'hour'로 지정하면 해당 날짜의 시간 부분을 제거합니다. DATE_PART(unit, date): 날짜에서 특정 단위의 값을 추출합니다. 연도, 월, 일 등의 값을 추출할 수 있습니다. TO_CHAR(timestamp, format): 날짜를 지정된 형식으로 변환합니다. AGE(end_date, start_date): 두 날짜 간의 차이를 계산합니다. start_date부터 end_date까지..

[전부 모음] Mysql 날짜 관련된 함수

NOW() / CURRENT_TIMESTAMP() / SYSDATE(): 현재 시간을 반환합니다. 이 함수들은 동일한 값을 반환합니다. CURDATE() / CURRENT_DATE(): 현재 날짜를 반환합니다. 이 또한 두 함수는 동일한 값을 반환합니다. CURTIME() / CURRENT_TIME(): 현재 시간을 반환합니다. 이 또한 두 함수는 동일한 값을 반환합니다. DATE_FORMAT(date, format): 날짜를 원하는 형식으로 포맷합니다. 첫 번째 매개변수로 날짜를, 두 번째 매개변수로 포맷을 지정합니다. DATEDIFF(date1, date2): 두 날짜 간의 일 수 차이를 계산합니다. date1에서 date2를 빼서 일 수를 반환합니다. DATE_ADD(date, INTERVAL ex..

PostgreSQL 과 MySQL 큰 차이

PostgreSQL과 MySQL은 동일한 기능을 많이 제공합니다. 하지만, 관계형 데이터베이스 관리 시스템 (RDBMS)에는 큰 차이점이 있습니다. 빠르게 정리해보겠습니다. 1. MySQL 은 읽기 전용 명령을 관리하는데 선호됩니다. 동시성이 필요한 경우에는 선호되지 않습니다. 2. PostgreSQL 읽기와 쓰기 작업 가능하며, 대규모 데이터 세트 및 복잡한 쿼리를 관리하는 경우에 선호됩니다. 하지만, 읽기 전용 작업에는 선호되지 않습니다. 3. MySQL 은 PostgreSQL 보다 기능이 적지만, 읽기 전용 쿼리에서 가볍고 안정적이기 때문에 빠른 처리 속도를 유지할 수 있습니다. 4. PostgreSQL은 처음부터 ACID를 준수하도록 구축되어있으며, 동시 트랜잭션이 필요한 경우에 최적이지만 읽기..

300x250
300x250