이서
Data Analyst
300x250
300x250

전체 글 347

쉽게 접근하자! IT 용어 정리 - 행 열 지향 데이터베이스

행지향 데이터베이스 행 기반 저장방식: A1 B1 C1 A2 B2 C2 A3 B3 C3 보통 데이터베이스(Oracle, MYSQL)는 레코드 단위로 읽고 쓰기에 최적화 되어있다. 테이블의 각 행을 하나의 덩어리로 디스크로 저장한다. 새 레코드를 추가할때는 파일 밑에 데이터를 넣기 때문에 추가하는 속도가 빠르다. 또한, 인덱스를 통해 검색을 빠르게 할 수 있다. 인덱스가 없으면 저장된 모든 데이터를 로드하여 원하는 레코드를 찾을 수 있어서 디스크 IO가 발생하기 떄문이다. 데이터 분석에서는 어떠한 컬럼이 사용되는 미리 알 수 없기때문에 인덱스로 통해 검색 속도를 향상시키는데 도움이 크게 되지 않는다. 열지향 데이터베이스 컬럼 기반 저장방식: A1 A2 A3 B1 B2 B3 C1 C2 C3 AWS Redsh..

쉽게 접근하자! IT 용어 정리 - 파케이 형식 parquet

.parquet 컬럼기반 저장포맷으로, 데이터를 저장하는 방식 중 하나이다. 하둡 생태계에서 많이 사용하는 저장 방식으로, 영어 본 의미는 나무조각들을 차곡차곡 모아 붙여넣는 마룻바닥 형태이다. 따라서, 데이터를 차곡차곡 정리한다는 뜻으로 압축률이 좋고, 디스크IO 가 적으며 컬럼별로 적합한 인코딩을 할 수 있다.

쉽게 접근하자! IT 용어 정리 - API 개념 예시 설명

API 의 개념을 설명하기 위해 쉽게 예시를 통해 알아보곘다. 어느 한 레스토랑에 들어간 손님 A가 직원 B에게 음식 메뉴를 시킨다. 직원 B는 주문받은 메뉴를 요리사 C에게 디바이스를 통해 요청한다. 요리사C 는 전달받은 메뉴를 완성하여 직원 B에게 전달하고 직원 B는 손님 A 에게 전달한다. ​이러한 시스템은 API 와 같다. 손님: 프로그램 메뉴: 명령 리스트 직원: API 주문: 명령 요리사: 응용프로그램 완성된 음식: 상호작용 프로그램이 작동할 수 있게 명령 리스트를 정리하여 API에게 명령하면 API는 응용프로그램이 상호작용을 하여 요청한 명령 값을 전달받는것이다. 이러한 예시를 통해 API는 프로그램이 상호작용할 수 있도록 하는 매개체임을 알 수 있다. 다음 글에서는 API의 역할을 알아보겠다.

쉽게 접근하자! IT 용어 정리 - 앤드포인트, Endpoint

Endpoint는 "one end of a communication channel" 뜻으로, 해석하면 커뮤니케이션 채널의 한 쪽 끝이다. - 어떠한 서비스를 이용할 때 커뮤니케이션 채널의 한쪽 끝에 해당하는 URL - API가 서버에서 리소스(resource)에 접근할 수 있도록 하는 URL API 가 뭐지? https://carpe08.tistory.com/286 Stack Overflow : https://stackoverflow.com/questions/2122604/what-is-an-endpoint What is an Endpoint? I have been reading about OAuth and it keeps talking about endpoints. What is exactly an e..

쉽게 접근하자! IT 용어 정리 - DM(Data Mart), Data Lake 정의

DM(Data Mart) 정의 금융, 마케팅 또는 영업과 같은 특정 팀 또는 사업 단위의 요구를 충족시키는 DW이다. DW의 일부이며, 규모가 더 작고, 집중적이며 사용자 커뮤니티에 가장 잘 맞는 데이터 요약을 포함 Data Lake 정의 정형, 비정형 및 반정형 데이터를 비롯한 모든 가공되지 않은 다양한 종류의 데이터를 한 곳에 모아둔 중앙 레퍼지토리. 빅데이터를 효율적으로 분석하고 사용하고자 다양한 영역의 Raw 데이터를 한 곳에 모아 관리

쉽게 접근하자! IT 용어 정리 - 데이터 웨어하우스(Data Warehouse)

정의 사용자의 의사 결정에 도움을 주기 위하여 분석 가능한 형태로 정보들이 저장되어 있는 중앙 저장소 목적 기존 정보를 활용해 더 나은 정보를 제공 데이터의 품질 향상 조직의 변화를 지원하고 비용과 자원 관리의 효율성을 향상 이점 정보에 기반한 의사 결정 가능 여러 소스의 데이터를 통합 가능 과거 데이터 분석 데이터 품질, 일관성, 정확성을 보장 트랜잭션 데이터베이스와 분석 처리를 분리하여 두 시스템의 성능을 향상 특성 고객, 거래처, 공급자, 상품 등과 같은 '주제' 중심으로 구성된다. 즉, 이용자에게 이해하기 쉬운 형태로 제공 주제지향 통합 시계열 비휘발성 DW 벤더 CDP(클라우드 데이터 플랫폼)는 아마존, 마이크로소프트, 구글과 같은 클라우드 서비스 제공자와 기업의 프로그램 사이에 가상의 데이터 ..

실제 Data Analyst 업무

실제 Data Analyst 업무는 아래와 같다. 정량적 분석을 수행하여 발생하는 이슈의 근본 원인을 발견하고 데이터를 기반으로 한 솔루션 제공 프로덕트 오너, 데이터 엔지니어, 데이터 사이언티스트, 개발자를 비롯한 각종 유관 부서와 협업하여 개선 기회 모색 및 운영 생산성 최적화 비즈니스 핵심 지표 설계 및 비즈니스 인사이트 제공을 위한 대시보드 개발

쉽게 접근하자! 마케팅 용어 정리 - ADID , IDFA

정확한 분석을 하기 위해 고유성을 가진 최소 식별 단위가 필요하다. 모바일 앱 환경에서 Google과 Apple 의 디바이스 단위로 고유성을 갖는 광고 ID, 즉 광고 식별 값을 제공한다. 광고 ID는 고유한 식별값을 기준으로 고유한 역사를 형성한다. (설치부터 로그인, 구매까지) 앱 이용자들의 행동을 디바이스 단위로 분석을 할 수 있는 수단으로 모바일 앱 환경에서 신뢰할 수 있는 광고 ID 는 매우 중요하다. Google의 Play Store가 제공하는 광고 식별 값 : ADID Apple 의 Apple Store가 제공하는 광고 식별 값 : IDFA 서로 이름은 다르지만 제공하는 목적과 기능은 동일하다.

쉽게 접근하자! IT 용어 정리 - 증분 적재(incremental)

증분 적재 대량의 데이터베이스 소스의 데이터가 지속적으로 업데이트 되는 경우 원본 데이터의 전체 복사본을 다시 로드하게 된다면 시간이 오래 걸리며 실용성이 떨어지게 됩니다. 이러한 경우에 들어오는 데이터의 변경 사항을 찾아 새 레코드 또는 변경된 레코드를 로드할 수 있게 됩니다. 전체 적재보다 증분 적재는 관리하기 쉽지만, 시스템에 이슈가 생기게 된다면 데이터 불일치가 발생합니다.

쉽게 접근하자! IT 용어 정리 - 레거시 시스템(legacy System)

레거시이란? 레거시는 영어로 legacy 이다. Legacy는 유산이라는 뜻으로 현재까지 남아 사용되고 있거나 현재의 체계에 영향을 미치는 과거의 체계를 뜻합니다. 즉, 오래된 시스템이 기반이 되거나 현재까지 남아 쓰이는 시스템은 레거시 시스템이라고 합니다. 참고로, 사라지는 시스템은 as-is 시스템이라 합니다.

쉽게 접근하자! 마케팅 용어 정리 - UTM

UTM이란? UTM(Urchin Tracking Module)는 트래킹 코드 중 하나로 링크 주소 뒤에 붙게 됩니다. 주로 마케팅 담당자가 트온라인 마케팅 캠페인의 효과를 추적하는 데 사용할 수 있으며, 이에 대한 정보를 Google Analytics에 전달하는 역할도 합니다. UTM 4가지 구성 요소 1. utm_source 어디에서 해당 유입이 발생하였는가? 즉, 유입이 발생된 매체 (ex. utm_source = naver) 2. utm_medium 어떻게 해당 유입이 발생하였는가? 즉, 유입을 발생시킨 방법 (ex. utm_medium = cpc, banner, social etc.) 3. utm_campaign 무엇의 광고 캠페인으로 유입이 발생하였는가? name, term, content으로 ..

이해하기 쉽게 설명 UNION, INTERSECT, EXCEPT in Athena query

Athena query 에서 무한 개수의 쿼리들을 포함하는 쿼리를 생성하고 임의의 조합으로 UNION, INTERSECT, EXCEPT 연산자와 연결할 수 있다. 1. UNION (A와 B 합집합) 행이 한 표현식이나 두 표현식 모두 상관없이 두 쿼리 표현식에서 행을 반환하는 작업을 진행한다. 2. INTERSECT (A와 B 교집합) 두 쿼리 표현식에서 반환되지 않는 행은 모두 삭제된다. 3. EXCEPT (A와 B 차집합) 두 쿼리 표현식 중 하나에서 파생하는 행을 반환하는 작업을 진행한다. 첫 번째 결과 테이블에는 있지만 두 번째 결과 테이블에는 없는 행에 대한 결과가 반환된다. MINUS 및 EXCEPT는 정확히 동의어이지만, Redash에서는 MINUS가 적용되지 않는다는 점 참고하면 되겠다. ..

[신입이 이해 못해던 직장용어] bulk 로 뽑고싶다. 벌크

벌크로 뽑고 싶다! 무슨 말이죠..? Bulk(벌크)의 뜻? 더보기 something very large, or a large amount, not divided into smaller parts 더 작은 단위로 나누어 포장되지 않은 굉장히 많은 수량 이라는 사전적인 의미로, 대량으로 쌓여있는 제품을 뜻합니다. 마케팅에서 주로 사용되는 언어로 간단히 말하자면, 많은걸 한번에 뽑고 싶다.

[신입이 이해 못해던 직장용어] R&D 시간, 알앤디 시간

직장에서 알앤디 시간 이라고 들었다. 처음에는 무슨 말인지 몰라 그대로 검색을 했는데 아무것도 안나왔다. 알고보니 R&D 시간! Research and Development으로 Research는 기초연구하는 시간, development 는 연구성과를 기초로 진행하는 개발업무를 뜻한다. 즉, 간단하게 말하자면 공부하고 개발하는 시간이라고 생각하면 될 것 같다.

Airflow 관련 용어 정리

Scheduler : 모든 DAG와 Task에 대하여 모니터링 및 관리하고 실행해야 할 Task를 스케줄링 Task : 하나의 작업 단위를 Task라고 하며 하나 또는 여러 개의 Task를 이용해 하나의 DAG를 생성 DAG : Directed Acyclic Graph로 개발자가 Python으로 작성한 워크플로우. Task들의 dependency를 정의 Database : DAG와 Task들의 메타데이터를 저장하는 데이터베이스 Worker : 실제 Task를 실행하는 주체. Executor 종류에 따라 다양한 동작 방식 Web server : Airflow의 웹 UI 서버 Operator : Task를 생성 위해 사용되는 Airflow class, BashOperator, PythonOperator 등 ..

초보자들 이해하기 쉽게 AWS Amazon Athena 소개

Amazon Athena 란? S3에 저장된 데이터를 SQL로 분석을 하는 서비스 특징 - 서버리스 분석 서비스 - 표준 SQL을 사용하여 S3에 저장된 데이터를 손쉽게 분석이 가능하다. - JDBC / ODBC connector 지원한다. - 다양한 데이터 유형에 대해서 분석 수행이 가능하다. (Text, CSV, TSV, JSON, 웹 로그 등) - 실행한 쿼리에 대해서만 비용이 지불되며, 실패한 쿼리에 대해서는 요금이 청구되지 않는다. Athena 가 분석할 때 편리할 것 같은데 아테나보다 Redshift 가 더 적합한 경우는 언제일까? 두개 전부 SQL로 분석하시기 좋은데 Athena는 서버리스라서 데이터를 읽어서 처리할 때 사용한 만큼만 비용이 지불됩니다. 클러스터 운영 없이 비용이 저렴하고 사..

크롬에서 앱뷰 모바일 창 보기(Mobile Simulator)

1. 크롬 오른쪽 상단에 점 3개를 누르시고 설정을 클릭합니다. 2. 확장 프로그램를 클릭합니다. 3. 왼쪽 상단 짝대기 3개 누르시면 Chrome 웹 스토어 열기를 클릭합니다. 4. Mobile Simulator를 입력하시면 아래와 같이 프로그램이 나옵니다. 5. 확장 프로그램 추가 해줍니다. 6. 확장 프로그램에서 Mobile Simulator를 고정시키시고, 홈화면에서 클릭 시 모바일로 변경됩니다. - 오른쪽 부분에 Android와 IOS에 맞춰 여러가지 종류가 다양하게 있습니다.

github remote: Permission to 403 에러, CLI에서 인증 사용자 변경하기

github remote: Permission to 403 상황 A github로 '최초' 유저 등록을 하고, 후에 B github로 다시 유저등록해서 B github로 push를 진행하려 할 때, 그 push의 시점은 여전히 A 라는 github 아이디를 찾고 있습니다. ※ 여기서 원하는건 B 라는 github 아이디로 push를 진행하고 싶을 때 해결방법 1 1. spolight 검색을 통해 키체인 접근을 실행 2. 오른쪽 상단에 검색창에 github.com 을 검색 3. 리스트에 보이는 github.com 더블클릭 후 계정과 암호를 현재 사용할 깃허브의 계정과 암호로 입력 4. 변경사항 저장을 누르고 창닫기 해결방법 2 terminal에서 다음과 같이 입력해준다. git remote set-url ..

git 소스 트리 설치 및 클론

이전에는 아틀라시안 계정을 생성할 필요했지만 이제는 없어졌고, 기본 계정은 웹으로 로그인 권장합니다. 추가적인 계정은 Basic으로 로그인을 권장합니다. 소스 트리 접속하여 다운로드 합니다. https://www.sourcetreeapp.com/ Sourcetree | Free Git GUI for Mac and Windows A Git GUI that offers a visual representation of your repositories. Sourcetree is a free Git client for Windows and Mac. www.sourcetreeapp.com 1. Bitbucket 계정은 가입없이 패스 가능 2. Mercurial 설치도 패스! 3. ssh 키 등록도 패스 가능 -> ..

Git CLI 설치 및 첫 번째 저장소 클론하기

CLI(Command-line interface)란? 커맨드 라인 인터페이스로, 명령 줄 인터페이스 또는 명령어 인터페이스는 가상 터미널 또는 터미널을 통해 사용자와 컴퓨터가 상호 작용하는 방식 클론: 저장소를 복제 과정 1. Vim 이 익숙하지 않을 경우 VS CODE(visualstudio,https://code.visualstudio.com/)를 설치한다. 2. GIT CLI 설치(https://git-scm.com/) - Vim이 익숙하지 않다면 VS CODE를 기본 에디터로 설정합니다. 3. 토큰을 이용한 인증 4. 첫 번째 깃헙 저장소 생성하고 클론하기 주소를 저장하여 terminal 에서 documents로 이동하여(cd documents) git clone 주소를 입력합니다. 문서에 저장된..

카테고리 없음 2022.02.28

Github 토큰 생성

2020년 7월 이후 깃헙 정택 변경으로 토큰 인증이 필수적입니다. 토큰을 만들 때, 권한 지정을 해주고 생성한 토큰은 안전한 곳에 보관 하여야 됩니다. 특히, 비밀번호 압축하고 클라우드 업로드는 금지하기를 권장합니다. 토큰 생성 이후에는 권한은 변경이 가능합니다. 토큰 생성 방법 settings > Developer settings > Personal access tokens 에서 Generate new token 을 클릭합니다. Note는 임의로 Test로 하였고, Expiration은 보통 90일정도로 설정합니다. Select scopes에서 왕초보 일경우 모든 것을 다 체크해도 좋지만, 저는 주로 사용하는 reop, workflow, gist, user(꼭 체크! 소스트리 로그인할 때 없으면 에러..

WARNING: Python 2.7 is not recommended 해결, 맥에 파이썬 설치하기

이런 에러가 발생하면? WARNING: Python 2.7 is not recommended. This version is included in macOS for compatibility with legacy software. Future versions of macOS will not include Python 2.7. Instead, it is recommended that you transition to using 'python3' from within Terminal. 해결방법 1. 파이썬을 다운받습니다. https://www.python.org/downloads/ Download Python The official home of the Python Programming Language www.p..

300x250
300x250