'빅데이터 관련 자료' 카테고리의 글 목록 (3 Page)
Data Analyst
300x250
300x250

빅데이터 관련 자료 313

윈도우 프레임 SQL : ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING

ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING 구문은 SQL의 윈도우 함수에서 사용되며, 윈도우 프레임을 정의합니다. 이것을 심화 버전으로 설명하면 다음과 같습니다: 윈도우 프레임 윈도우 프레임은 윈도우 함수가 작동할 데이터의 범위를 정의합니다. 윈도우 프레임을 설정함으로써 함수는 해당 프레임 내에서만 작동하게 됩니다. - UNBOUNDED PRECEDING UNBOUNDED PRECEDING은 윈도우 프레임의 시작을 나타냅니다. 이것은 현재 행을 포함한 윈도우의 가장 첫 번째 행을 지정합니다. - UNBOUNDED FOLLOWING UNBOUNDED FOLLOWING은 윈도우 프레임의 끝을 나타냅니다. 이것은 현재 행을 포함한 윈도우의 가장 마지막..

SQL에서의 FIRST_VALUE 함수: 활용과 예제

SQL에서 FIRST_VALUE 함수는 데이터 집합 내에서 첫 번째 값을 반환하는 유용한 함수입니다. 이 함수는 특히 윈도우 함수나 ORDER BY 절과 함께 사용될 때 더욱 강력한 기능을 발휘합니다. 이 블로그에서는 FIRST_VALUE 함수의 사용법과 몇 가지 예제를 살펴보겠습니다. FIRST_VALUE 함수 구문 sqlCopy code FIRST_VALUE(expression) OVER ( [PARTITION BY partition_expression, ... ] ORDER BY order_expression [ASC | DESC] ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING ) expression: 반환할 값입니다. PARTITION BY:..

초보자도 이해하기 쉬운 git 설명

Git은 소스 코드 버전 관리 시스템(VCS)으로, 여러 명의 개발자가 협업하고 소스 코드의 변화를 효과적으로 관리할 수 있도록 도와주는 도구입니다. Git은 Linus Torvalds에 의해 만들어졌으며, 가장 널리 사용되는 버전 관리 시스템 중 하나입니다. Git의 주요 특징: 분산 버전 관리 시스템(DVCS): Git은 분산 버전 관리 시스템으로, 모든 개발자가 전체 프로젝트의 히스토리를 가지고 있습니다. 이는 오프라인에서도 작업이 가능하고, 각자의 로컬에서 변경사항을 효과적으로 관리할 수 있게 합니다. 브랜치: Git은 가볍고 빠르게 브랜치를 생성하고 전환할 수 있습니다. 이를 통해 독립적으로 작업하거나 기능을 실험하는 데에 유용합니다. 병합(Merge): 브랜치에서의 작업이 완료되면, Git은 ..

[예시 Python 코딩] RFM 분석을 통한 고객을 세분화

실제 파이썬 코드를 통해 예시를 공부해봤습니다. # 원본 데이터셋 복사 rfm_online_sales = online_sales.copy() # 날짜 형식 변환 rfm_online_sales['거래날짜'] = pd.to_datetime(rfm_online_sales['거래날짜']) # 데이터 내 마지막 날짜 계산 last_date = rfm_online_sales['거래날짜'].max() # Recency 계산 recency_data = rfm_online_sales.groupby('고객ID')['거래날짜'].max().reset_index() recency_data['Recency'] = (last_date - recency_data['거래날짜']).dt.days # Frequency 계산 freque..

파이썬에서 데이터 읽는 방법

파이썬은 데이터를 읽고 처리하는 데 매우 효과적인 도구입니다. 다양한 데이터 소스에서 데이터를 읽을 수 있는 방법이 있습니다. 이 글에서는 CSV, Excel, JSON, SQL 데이터베이스 및 웹에서 데이터를 읽는 방법을 알아보겠습니다. 1. CSV 파일 읽기 CSV(Comma-Separated Values) 파일은 쉼표로 구분된 텍스트 파일입니다. 파이썬에서 CSV 파일을 읽으려면 csv 모듈을 사용합니다. import csv # CSV 파일 열기 with open('data.csv', 'r') as file: reader = csv.reader(file) # 각 행 읽기 for row in reader: print(row) 2. Excel 파일 읽기 Excel 파일을 읽으려면 pandas 라이브러리..

[전부 모음] PostgreSQL 날짜 관련된 함수

PostgreSQL에서 사용할 수 있는 주요 날짜 및 시간 관련 함수를 설명하겠습니다. CURRENT_DATE / CURRENT_TIME / CURRENT_TIMESTAMP: 각각 현재 날짜, 시간, 날짜와 시간을 반환합니다. DATE_TRUNC(unit, date): 날짜를 특정 단위로 자릅니다. 예를 들어, 'hour'로 지정하면 해당 날짜의 시간 부분을 제거합니다. DATE_PART(unit, date): 날짜에서 특정 단위의 값을 추출합니다. 연도, 월, 일 등의 값을 추출할 수 있습니다. TO_CHAR(timestamp, format): 날짜를 지정된 형식으로 변환합니다. AGE(end_date, start_date): 두 날짜 간의 차이를 계산합니다. start_date부터 end_date까지..

[전부 모음] Mysql 날짜 관련된 함수

NOW() / CURRENT_TIMESTAMP() / SYSDATE(): 현재 시간을 반환합니다. 이 함수들은 동일한 값을 반환합니다. CURDATE() / CURRENT_DATE(): 현재 날짜를 반환합니다. 이 또한 두 함수는 동일한 값을 반환합니다. CURTIME() / CURRENT_TIME(): 현재 시간을 반환합니다. 이 또한 두 함수는 동일한 값을 반환합니다. DATE_FORMAT(date, format): 날짜를 원하는 형식으로 포맷합니다. 첫 번째 매개변수로 날짜를, 두 번째 매개변수로 포맷을 지정합니다. DATEDIFF(date1, date2): 두 날짜 간의 일 수 차이를 계산합니다. date1에서 date2를 빼서 일 수를 반환합니다. DATE_ADD(date, INTERVAL ex..

PostgreSQL 과 MySQL 큰 차이

PostgreSQL과 MySQL은 동일한 기능을 많이 제공합니다. 하지만, 관계형 데이터베이스 관리 시스템 (RDBMS)에는 큰 차이점이 있습니다. 빠르게 정리해보겠습니다. 1. MySQL 은 읽기 전용 명령을 관리하는데 선호됩니다. 동시성이 필요한 경우에는 선호되지 않습니다. 2. PostgreSQL 읽기와 쓰기 작업 가능하며, 대규모 데이터 세트 및 복잡한 쿼리를 관리하는 경우에 선호됩니다. 하지만, 읽기 전용 작업에는 선호되지 않습니다. 3. MySQL 은 PostgreSQL 보다 기능이 적지만, 읽기 전용 쿼리에서 가볍고 안정적이기 때문에 빠른 처리 속도를 유지할 수 있습니다. 4. PostgreSQL은 처음부터 ACID를 준수하도록 구축되어있으며, 동시 트랜잭션이 필요한 경우에 최적이지만 읽기..

[추천 시스템] Cold Start

Cold Start 란? 추천 시스템에서의 "Cold Start"는 새로운 사용자나 항목에 대한 추천을 만드는 과정에서 발생하는 문제를 의미합니다. 이것은 새로운 사용자나 항목에 대한 충분한 정보가 없어서 발생하는 도전적인 문제입니다. 즉, 시스템이 해당 사용자나 항목에 대한 행동 기록을 충분히 수집하지 못했기 때문에 발생합니다. Cold Start 문제는 추천 시스템의 성능을 저하시킬 수 있으며, 사용자 경험에 영향을 미칠 수 있습니다. Cold Start 문제 발생 원인 추천 시스템에서의 Cold Start 문제는 크게 두 가지 측면에서 발생합니다: 사용자(Cold User)와 항목(Cold Item)에 관련된 문제입니다. Cold User (사용자): 새로운 사용자: 추천 시스템은 사용자의 과거 행..

generate_series 함수

generate_series는 PostgreSQL에서 제공하는 함수로, 특정 범위 내의 연속된 값을 생성합니다. 이 함수는 일반적으로 날짜, 시간 또는 숫자와 같은 연속적인 값들을 만들 때 사용됩니다. select date(generate_series(start_at, end_at,'1 day')), start_at, end_at, goodsno from table_a 예를 들어, generate_series('2024-02-01'::date, '2024-02-10'::date, '1 day')와 같이 사용하면 '2024-02-01'부터 '2024-02-20'까지의 날짜를 일일 단위로 생성합니다. 이를 통해 일련의 날짜 값을 가지고 있는 테이블을 만들거나, 특정 날짜 범위에 대한 집계 또는 분석을 수행할..

300x250
300x250