'분류 전체보기' 카테고리의 글 목록 (21 Page)
Data Analyst
300x250
300x250

분류 전체보기 368

TF-IDF(Term Frequency - Inverse Document Frequency) - (2)

이번 시간에는 TF-IDF를 이용하여 청와대 청원 데이터를 벡터화 시켜 보도록 하겠습니다. 실습 순서는 다음과 같습니다. train 데이터를 이용해 TF-IDF 학습(fit) 학습(fit) 된 TF-IDF를 이용해 train 데이터 변환(transform) train 데이터로 학습(fit) 된 TF-IDF를 이용해 test 데이터 변환(transform) 그럼 바로 실습을 진행해보도록 하겠습니다 #라이브러리 로딩 from sklearn.feature_extraction.text import TfidVectorizer #TF-IDF으로 train 데이터를 피처 벡터화 변환 수행 vect = TfidfVectorizer() vect = TfidfVectorizer() vext.fit(train['data']..

TF-IDF(Term Frequency - Inverse Document Frequency) - (1)

이번시간에는 BOW의 TF-IDF(Term Frequency - Inverse Document Frequency)에 대해 알아 보겠습니다. 이전에 설명한 카운트 기반 벡터화는 숫자가 높을수록 중요한 단어로 인식합니다. 하지만, 단순히 단어의 빈도만 고려한다면 모든 문서에서 자주 쓰일 수 밖에 없는 단어들이 중요하다고 인식 될 수 있습니다. 이런 문제를 보완하기 위해 TF-IDF 벡터화를 사용합니다. TF-IDF는 개별 문서에서 자주 등장하는 단어에는 높은 가중치를, 모든 문서에서 자주 등장하는 단어에 대해서는 패널티를 주는 방식으로 값을 부여합니다. 예를 들어 총 5개의 문서가 있다고 가정하면, 딥러닝이라는 단어는 5개 문서에서 모두 등장하고, 머신러닝이라는 단어는 1번 문서에서만 빈번히 등장한다고 했을..

테이블 결합(JOIN)

테이블 결합(JOIN) 관계는 1:1, 1:N, N:N 세가지 형태로, 테이블 간의 연결이 가능하다는 것을 의미합니다. 테이블 결합(JOIN)은 두 테이블 관계를 활용하여 테이블을 결합하는 명령어입니다. 테이블 결합을 통해 여러 테이블을 활용하여 분석이 가능합니다. ERM은 개체 관계 모델링이며, 관계형 데ㅣ터 베이스에 텡블을 모델링할 때 사용됩니다. 개체: 하나 이상의 속성으로 구성된 객체 관계: 속서들 간의 관계 ERD은 개체 간의 관계를 도표로 표현할 때 사용됩니다. INNER JOIN: 두 테이블의 공통 값이 매칭되는 데이터 결합 LEFT JOIN: 두 테이블의 공통 값이 매칭되는 데이터만 결합 + 왼쪽 테이블의 매칭되지 않는 데이터는 NULL RIGHT JOIN: 두 테이블의 공통 값이 매칭되는..

데이터 조회(SELECT)

데이터 조회(SELECT) 데이터 조회는 데이터 조작어(DML)이며, 가장 많이 사용됩니다. 데이터 조회는 여러 절들과 함께 사용되어 분석에 필요한 데이터를 조회합니다. 실습 코드 USE PRACTICE; /***************FROM***************/ /* Customer 테이블 모든 열 조회 */ SELECT * FROM CUSTOMER; /***************WHERE***************/ /* 성별이 남성 조건으로 필터링 */ SELECT * FROM CUSTOMER WHERE GENDER = 'MAN'; /***************GROUP BY***************/ /* 지역별로 회원수 집계 */ SELECT ADDR ,COUNT(MEM_NO) AS 회..

CountVectorizer - (2)

이번 시간에는 CountVectorizer를 이용하여 청와대 청원 데이터를 벡터화 시켜 보도록 하겠습니다. 실습 순서는 다음과 같습니다. train 데이터를 이용해 CountVectorizer 학습(fit) 학습(fit) 된 CountVectorizer를 이용해 train 데이터 변환(transform) train 데이터로 학습(fit) 된 CountVectorizer를 이용해 test 데이터 변환(transform) 그럼 바로 실습을 진행해보도록 하겠습니다 from sklearn.featrue_extraction.text import CounterVectorizer #Count Vectorization으로 train 데이터를 피처 벡터화 변환 수행 vect = CounterVector() vect.fi..

CountVectorizer - (1)

이번시간에는 BOW의 카운트 기반 벡터화(CountVectorizer)에 대해 알아 보겠습니다. 카운트 기반 벡터화 Bag of Words를 설명하면서 텍스트 데이터를 숫자형 데이터로 변환하는 방법에 대해 알아보았습니다. 그와 마찬가지로, 단어에 값을 부여할 때 각 문장에서 해당 단어가 나타나는 횟수 즉, Count를 부여하는 경우를 카운트 벡터화라고 합니다. 카운트 벡터화에서는 값이 높을수록 중요한 단어로 인식됩니다. 카운트 기박 벡터화 실습 카운트 기반 벡터화는 사이킷런의 CountVectorizer 클래스를 활용하여 적용할 수 있습니다. 아래 코드 CountVectorzier를 활용하여 한 문장을 BOW로 만드는 코드입니다. from sklearn.feature_extraction.text impo..

300x250
300x250