'빅데이터 관련 자료' 카테고리의 글 목록 (8 Page)
Data Analyst
300x250
300x250

빅데이터 관련 자료 314

Python 파이썬, 왜 다들 파이썬 파이썬 그러는가?

파이썬은 다양한 이유로 많은 사람들에게 인기가 있는 프로그래밍 언어입니다. 이런 이유 중 일부는 다음과 같습니다 읽기 쉬운 문법 파이썬은 간결하고 읽기 쉬운 문법을 가지고 있어 새로운 프로그래머들도 빠르게 배울 수 있으며, 코드를 이해하기 쉽습니다. 다양한 라이브러리와 프레임워크 파이썬은 다양한 라이브러리와 프레임워크를 지원하며, 데이터 분석, 인공지능, 웹 개발, 게임 개발, 과학 연구 등 다양한 분야에서 사용됩니다. 대표적으로 NumPy, pandas, TensorFlow, Django, Flask, 등이 있습니다. 크로스 플랫폼 지원 파이썬은 Windows, macOS, Linux와 같은 다양한 운영체제에서 동작합니다. 이는 다양한 환경에서 프로그램을 개발하고 실행할 수 있도록 도와줍니다. 커뮤니티..

NoSQL 도대체 뭘까?

데이터베이스 선택은 개발 프로젝트의 성격과 요구사항에 큰 영향을 미칩니다. 초보자들도 이해하기 쉽게 SQL과 NoSQL 데이터베이스 간의 차이점과 각각의 장단점을 살펴보며, 어떤 경우에 어떤 데이터베이스를 선택해야 할지에 대해 알아보겠습니다. SQL과 NoSQL의 기본 차이점 SQL 데이터베이스는 관계형 데이터베이스로, 데이터는 테이블에 구조화되어 저장됩니다. NoSQL 데이터베이스는 비관계형 데이터베이스로, 스키마가 유연하고 자유롭게 데이터를 저장합니다. SQL의 특징과 장단점 - 장점 데이터 일관성: ACID 트랜잭션을 통해 데이터 일관성을 보장합니다. 강력한 질의 언어: 복잡한 쿼리를 작성하기 위한 SQL 질의 언어를 지원합니다. 정형 데이터 처리: 구조화된 데이터를 처리하기에 적합합니다. - 단점..

고급 쿼리 최적화: 성능 향상을 위한 SQL 쿼리 최적화 기법

데이터베이스 성능은 개발 프로젝트의 성패를 좌우합니다. 초보자들도 이해하기 쉽게 이 글에서는 고급 쿼리 최적화 기법을 활용하여 SQL 쿼리의 실행 속도를 향상시키는 방법에 대해 알아보겠습니다. 실제 예제와 함께 고급 쿼리 최적화를 심도있게 다뤄보겠습니다. 인덱스 활용 인덱스는 데이터베이스 성능을 향상시키는 중요한 요소입니다. 적절한 컬럼에 인덱스를 생성하고, 복합 인덱스를 고려하여 쿼리의 WHERE 절을 빠르게 수행할 수 있도록 만들어봅시다. -- 단일 인덱스 생성 CREATE INDEX idx_customer_id ON orders (customer_id); -- 복합 인덱스 생성 CREATE INDEX idx_order_customer ON orders (customer_id, order_date);..

윈도우 함수 활용하기: SQL에서 데이터 분석을 위한 강력한 기능

데이터베이스에서 데이터를 분석하고 통계 정보를 추출할 때 윈도우 함수는 매우 유용한 도구입니다. 초보자들도 이해하기 쉽게 이 글에서는 윈도우 함수의 기본 개념부터 실제 예제를 통해 데이터 분석을 어떻게 수행하는지를 다루며, 윈도우 함수 활용의 중요성을 설명하겠습니다. 윈도우 함수 개요 윈도우 함수는 특정한 윈도우(또는 그룹) 내에서 계산되는 특별한 종류의 함수입니다. 각 행에 대해 별도로 결과를 반환하지만, 분석할 데이터를 윈도우로 지정하여 그룹에 대한 통계를 계산할 수 있습니다. 윈도우 함수 종류 ROW_NUMBER(): 결과 집합 내에서 행의 순서를 나타내는 번호를 반환합니다. RANK(), DENSE_RANK(): 행의 순위를 계산하며, 동일한 값이 있는 경우 RANK와 DENSE_RANK의 차이점..

CTE(Common Table Expressions) 활용: SQL 쿼리 간결화와 가독성 향상

SQL 쿼리를 작성하다 보면, 반복적인 서브쿼리나 중첩 쿼리로 인해 쿼리의 가독성이 떨어지는 경우가 있습니다. CTE(Common Table Expressions)는 이런 문제를 해결하고 쿼리를 더 간결하고 이해하기 쉽게 작성할 수 있는 강력한 기능입니다. 초보자도 이해하기 쉽게 CTE의 개념과 활용 방법을 다루며, 실제 예제를 통해 CTE를 활용한 SQL 쿼리를 살펴보겠습니다. CTE(Common Table Expressions)란? CTE는 임시적으로 정의되는 테이블로, 쿼리 안에서 서브쿼리처럼 사용되지만 중복 코드를 줄이고 가독성을 향상시키는 데 사용됩니다. WITH 키워드를 사용하여 CTE를 정의하며, 쿼리의 일부로 여러 번 참조할 수 있습니다. WITH cte_name (column1, colu..

초보 강사 SQL 과외 강의 자료 목차 소개

1회 - 데이터베이스와 SQL 소개 데이터베이스의 개념과 중요성 SQL (Structured Query Language) 소개 SQL 문의 기본 구조와 데이터 조작 기능 2회 - 데이터베이스 생성과 테이블 작성 데이터베이스 생성과 관리 테이블의 생성과 구조 설계 데이터 유형과 제약 조건 설정 3회 - 데이터 삽입, 조회, 수정, 삭제 (CRUD) 데이터 삽입: INSERT 문 활용 데이터 조회: SELECT 문의 활용과 조건 지정 데이터 수정: UPDATE 문을 사용한 레코드 수정 데이터 삭제: DELETE 문을 사용한 레코드 삭제 4회 - 데이터 필터링과 정렬 WHERE 절을 사용한 데이터 필터링 여러 조건을 활용한 복합 필터링 ORDER BY 절을 사용한 데이터 정렬 5회 - 데이터 그룹화와 집계 함..

Python 함수 group by, unstack() , transpose()

unstack() group by 를 사용하고 unstack() 을 이용하여 컬럼을 가져올 수 있다. group by 하는 컬럼 중 예를 들어, ["A","B"]라고 한다면, 끝에있는 index B를 컬럼으로 가지고 온다. 실제 데이터로 확인해보자 지역별 평당 분양가격 데이터이다. 여기서 지역명, 전용면적으로 평당분양가격의 평균을 구하고자 하면, 아래 코딩과 같다. df_last.groupby(["지역명","전용면적"])["평당분양가격"].mean() 하지만, 컬럼으로 된 데이터로 확인하고 싶을 때, unstack() 을 사용한다. df_last.groupby(["지역명","전용면적"])["평당분양가격"].mean().unstack() 더 깔끔하다. 아까 처음에 ["A","B"]라고 한다면, 끝에있는 i..

ValueError: invalid literal for int() with base 10: ' ' 주피터 파이썬 에러

ValueError: invalid literal for int() with base 10: ' ' df_last["컬럼명"].astype(int) 보통 특정 컬럼의 object (문자형) 타입을 변경하고자 할 때, astype 을 통해 수치형으로 변경할 수 있는데 해당 컬럼 안에 ' ' 공백 문자가 들어있으면 수치형으로 변경할 수 없다. 이를 해결하기 위해서는 pd.to_numeric 을 사용한다. import pandas as pd pd.to_numeric(df_last["~"]) 하지만 아래와 같이 에러가 발생한다. ValueError: Unable to parse string " " 이러면 강제적으로 빈공간을 무시해주기 위해 errors = 'corece' 를 사용한다. pd.to_numeric(..

Jupyter 주피터 파이썬 에러 Unicode Decode Error

간혹 주피터 노트북에서 코드를 실행하다가 Unicode Decode Error 에러가 발생하게 된다. 이 오류는 한글인코딩이 깨져서 읽어오지 못해서 발생한것인데요. import pandas as pd pd.read_csv("파일명.csv", encoding = "cp949") pd.read_csv("파일명.csv", encoding = "euc-kr") encoding 파라미터를 cp949 또는 euc-kr로 설정하면 오류가 해결된다. 관련 기사 한글인코딩 : ‘설믜를 설믜라 못 부르는’ 김설믜씨 “제 이름을 지켜주세요” : 사회일반 : 사회 : 뉴스 : 한겨레

300x250
300x250