'분류 전체보기' 카테고리의 글 목록 (38 Page)

파이썬 데이터 분석을 위한 수학 & 통계 - 2회차 - 1

확률변수와 확률분포 1. 확률변수와 확률분포의 개념 확률변수: 표본공간의 각 원소를 실수 값으로 바꾸는 함수, 확률분포를 가짐 이산표본공간: 유한개 또는 셀 수 있는 무한개의 원소로 구성된 표본공간 이산확률변수: ex) 동전의 앞면이 나올 떄까지의 시행 횟수 연속표본공간: 실직선 상의 임의의 구간으로 나타낼 수 있는 표본 공간 연속확률변수: ex) 사람의 키와 몸무게, 제품의 수명 이산확률분포: 이산표본공간의 확률변수로부터 생성된 확률분포 확률질량함수(probability mass function) 연속확률분포(continuous probability distrubution) -연속적인 값을 갖는 확률변수의 확률분포 -확률분포함수 f(x)는 확률 P(a

빅데이터 관련 자료/수학&x통계 2021.08.11

Lv3 | EDA | 결측치 유무 확인하기 isnull().sum()

결측치를 확인해보자 EDA 과정에서는 우선적으로 결측치의 유무에 대해 반드시 파악을 해야한다. 결측치가 없다면 다음과정으로 넘어가도 되지만, 결측치가 존재한다면 이에 대한 조치를 취해야한다. df.isnull().sum()

빅데이터 관련 자료/Dacon 2021.08.11

Higher Than 75 Marks

Query the Name of any student in STUDENTS who scored higher than Marks. Order your output by the last three characters of each name. If two or more students both have names ending in the same last three characters (i.e.: Bobby, Robby, etc.), secondary sort them by ascending ID. # 나의 해답 SELECT NAME FROM STUDENTS WHERE MARKS > 75 ORDER BY SUBSTR(NAME,-3), ID ASC;

빅데이터 관련 자료/[SQL] Basic 2021.08.11

Weather Observation Station 12

Query the list of CITY names from STATION that do not start with vowels and do not end with vowels. Your result cannot contain duplicates. Input Format The STATION table is described as follows: # 나의 해답 SELECT DISTINCT CITY FROM STATION WHERE SUBSTR(CITY,1,1) NOT IN ('A','E','I','O','U') AND SUBSTR(CITY,-1,1) NOT IN ('a','e','i','o','u') ;

빅데이터 관련 자료/[SQL] Basic 2021.08.10

Lv3 | EDA | read_csv(), info(), shape, head()

EDA의 첫 번쨰 순서로 가장 기본적인 데이터 불러오기, 데이터 정보 관측하기, 데이터 크기 파악하기, 데이터 피쳐 알아보기를 진행한다. CSV 파일을 pandas DataFrame class로 불러오기 위해 read_csv() 메서드를 활용할 수 있다. df = pd.read_csv(‘경로') info() 메서드를 활용하여 데이터의 피쳐수와 컬럼명, 결측치여부, dtype에 대한 정보를 알 수 있다. df.info() shape attribute를 쓰면 데이터의 행갯수, 열갯수를 출력하여 데이터의 크기를 파악할 수 있다. df.shape head() 메서드를 통해 데이터의 대략적인 정보를 알 수 있다. df.head()

빅데이터 관련 자료/Dacon 2021.08.10

Weather Observation Station 11

Query the list of CITY names from STATION that either do not start with vowels or do not end with vowels. Your result cannot contain duplicates. Input Format The STATION table is described as follows: # 나의 해답 SELECT DISTINCT CITY FROM STATION WHERE SUBSTR(CITY,1,1) NOT IN ('A','E','I','O','U') OR SUBSTR(CITY,-1,1) NOT IN ('a','e','i','o','u') ;

빅데이터 관련 자료/[SQL] Basic 2021.08.09

Lv2 | 튜닝 | 하이퍼파라미터, GridSearch 개념 (정지규칙)

하이퍼 파라미터 튜닝은 정지규칙 값들을 설정하는 것을 의미한다. 의사결정나무에는 정지 규칙이라는 개념이 있다. 1. 최대깊이 최대깊이는 최대로 내려갈 수 있는 depth 이다. 뿌리 노드로부터 내려갈 수 있는 깊이를 지정하며 작을수록 트리는 작아지게 된다. 2. 최소노드크기 최소노드크기는 노드를 분할하기 위한 데이터 수이다. 해당 노드에 이 값보다 적은 확률변수 수가 있다면 stop 작을수록 트리는 커지게 된다. 3.최소향상도 최소향상도는 노드를 분할하기 위한 최소 향상도이다. 향상도가 설정값 이하라면 더 이상 분할하지 않는다. 작을수록 트리는 커진다. 4.비용 복잡도 트리가 커지는 것에 대해 패널티 계수를 설정해서 불순도와 트리가 커지는 것에 대해 복잡도를 계산하는 것이다. 이와 같은 정지규칙들을 종합..

빅데이터 관련 자료/Dacon 2021.08.09

파이썬 데이터 분석을 위한 수학 & 통계 - 1회차

모집단과 표본 정의 1) 모집단 통계분석의 연구대상이 되는 모든 개체들의 집합, 올바른 의사결정을 하기 위해 관심을 갖고 연구해야 할 대상 2) 모수 모집단의 특성을 나타내는 수치로서, 올바른 의사결정을 위해 특별히 관심을 갖는 모ㅜ만이 연구의 대상이 된다. ex) 평균, 분산, 표준편차, 비율 등 3) 표본 모집단의 특성을 파악하기 위해 모집단으로부터 일정한 규칙에 의해 추출한 모집단의 부분집합 4) 통계적 추론 모집단의 특성(평균, 분산, 비율 등)을 추측하는 것 ex) 추정(estimation), 가설검정(hypothesis test)-> 귀무가설: 반드시 보편적인 사실, 대립가설: 연구자가 원하는 바 5) 통계량 모집단의 특성(평균, 분산, 비율 등)을 추측하기 위해 사용하는 표본의 함수 6) 추..

빅데이터 관련 자료/수학&x통계 2021.08.09

Lv2 | 튜닝 | 변수 제거 (drop())

변수 중요도가 낮은 피쳐를 파악하고 나면 차례대로 하나씩 피쳐를 제거하면서 모델을 새로 훈련할 수 있다. 각 모델로 예측하여 성능을 비교한다. 우선 id 피쳐는 예측에 의미가 없는 피쳐이다. id 와 count 를 drop 한 X_train_1 훈련 df 을 새로 생성한다. 예측을 할 때 test 는 훈련 셋과 동일한 피쳐를 가져야 한다. 따라서 동일하게 피쳐를 drop 한 test_1 df 를 생성한다. hour_bef_windspeed 와 hour_bef_pm2.5 피쳐에 관하여도 추가로 drop 을 수행하면서 위의 과정을 반복해한다. 그럼 총 3 쌍의 X_train 셋과 test 셋이 생성된다. 이에 따라 각 모델로 예측한 예측값들을 submission 에 저장한 후, 리더보드에 제출해 점수를 비교..

빅데이터 관련 자료/Dacon 2021.08.08

Weather Observation Station 10

Query the list of CITY names from STATION that do not end with vowels. Your result cannot contain duplicates. Input Format The STATION table is described as follows: # 나의 해답 SELECT DISTINCT CITY FROM STATION WHERE (CITY NOT LIKE '%a' AND CITY NOT LIKE '%e' AND CITY NOT LIKE '%i' AND CITY NOT LIKE '%o' AND CITY NOT LIKE '%u');

빅데이터 관련 자료/[SQL] Basic 2021.08.08

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

이서's 잡학다식

분류 전체보기 420

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역