'빅데이터 관련 자료' 카테고리의 글 목록 (17 Page)
Data Analyst
300x250
300x250

빅데이터 관련 자료 314

CountVectorizer - (2)

이번 시간에는 CountVectorizer를 이용하여 청와대 청원 데이터를 벡터화 시켜 보도록 하겠습니다. 실습 순서는 다음과 같습니다. train 데이터를 이용해 CountVectorizer 학습(fit) 학습(fit) 된 CountVectorizer를 이용해 train 데이터 변환(transform) train 데이터로 학습(fit) 된 CountVectorizer를 이용해 test 데이터 변환(transform) 그럼 바로 실습을 진행해보도록 하겠습니다 from sklearn.featrue_extraction.text import CounterVectorizer #Count Vectorization으로 train 데이터를 피처 벡터화 변환 수행 vect = CounterVector() vect.fi..

CountVectorizer - (1)

이번시간에는 BOW의 카운트 기반 벡터화(CountVectorizer)에 대해 알아 보겠습니다. 카운트 기반 벡터화 Bag of Words를 설명하면서 텍스트 데이터를 숫자형 데이터로 변환하는 방법에 대해 알아보았습니다. 그와 마찬가지로, 단어에 값을 부여할 때 각 문장에서 해당 단어가 나타나는 횟수 즉, Count를 부여하는 경우를 카운트 벡터화라고 합니다. 카운트 벡터화에서는 값이 높을수록 중요한 단어로 인식됩니다. 카운트 기박 벡터화 실습 카운트 기반 벡터화는 사이킷런의 CountVectorizer 클래스를 활용하여 적용할 수 있습니다. 아래 코드 CountVectorzier를 활용하여 한 문장을 BOW로 만드는 코드입니다. from sklearn.feature_extraction.text impo..

Bag of Words

오늘은 Bag of Words의 개념에 대해 알아보겠습니다. 머신러닝 모델은 텍스트로 된 변수를 바로 사용할 수 없습니다. 텍스트를 특정 의미가 있는 숫자형 값인 벡터 값으로 변환해야 되는데 이를 피처 벡터화라고 합니다. 텍스트 데이터를 벡터화하는 방법은 여러가지가 있지만, 그중 단순한 방법인 Bag of Words에 대해 알아 보겠습니다. Bag of Words(BOW) ? ? Bag of Words란 단어들의 문맥이나 순서를 무시하고, 단어들에 대한 빈도 값을 부여해 변수를 만드는 방법입니다. BOW 를 이용하여 텍스트 데이터를 숫자형 값으로 변환해 보겠습니다. 문장1: 나는 축구하는 것을 좋아합니다. 문장2: 나는 주말에 친구들을 만나 함께 축구하는 것을 좋아합니다. 그리고 나는 친구들을 만나 축구..

형태소 분석기 - (3)

이번 시간과 다음 시간에는 형태소 분석기를 이용해 청와대 청원 데이터의 형태소를 분석하고 데이터의 형태소 중 조사를 제거하는 실습을 진행 해보도록 하겠습니다. 데이터에서 조사를 제거하는 이유는 조사는 큰 의미를 가지고 있지 않기 때문에 오히려 분석에 방해가 될 수 있습니다. 실습 순서는 다음과 같습니다. 텍스트 데이터의 형태소 별로 분리 형태소가 조사인 글자를 제외 하여 새로운 텍스트 생성 기존의 텍스트 데이터를 새로운 텍스트로 변경 # 조사를 제거하기 위함 함수 정의 def func(text): #형태소 분석 okt_pos = okt.pos(str(text),norm=True,stem=True) #조사를 제거한 새로운 문자열 정의 new_word='' for word, pos in okt_pos: #품..

형태소 분석기 - (2)

이번시간에는 형태소 분석기의 종류에 대해 알아보고 실습을 통해 어떤식으로 형태소를 분리해 주는지 차이점에 대해 알아보겠습니다. 형태소 분석기의 종류를 여러개 알아야 하는 이유는 각각의 텍스트마다 성능이 좋은 형태소 분석기는 다르기 때문입니다. 오늘 실습 할 형태소 분석기는 Okt, Komoran, Kkma 총 3개 입니다. 형태소 분석기를 이용해 형태소를 분석하는 방법은 다음과 같습니다. 라이브러리 설치 형태소 분석기 정의 형태소 분석 순서에 맞게 실습을 진행해 보겠습니다. # 라이브러리 설치 # Okt, Komoran, Kkma 은 모두 konlpy 라이브러리에서 불러올 수 있습니다. from konlpy.tag import Kkma,Komoran,Okt #형태소분석기 정의 okt=Okt() kkm=K..

형태소 분석기 - (1)

- 형태소 분석기 우선 형태소 분석이란 '형태소를 비롯하여, 어근, 접두사/접미사, 품사 등 다양한 언어적 속성의 구조를 파악하는 것입니다. 형태소분석은 왜 필요한 걸까요? 그것은 언어의 '모호성' 때문입니다. 예시를 살펴보며 알아보겠습니다. 아래 문장의 띄어쓰기를 고쳐야 한다고 가정해봅시다. "아버지가방에들어가신다." 위 문장은 띄어쓰기 경계가 모호합니다. "아버지가 방에 들어가신다."로 해석 될 수도 있고 "아버지 가방에 들어가신다."로 해석 될 수도 있기 때문입니다. 이 차이를 구분하기 위해서는 문장 뿐만이 아니라, 추가적인 정보가 필요합니다. 일반적으로, "가방에 들어가신다" 라는 표현보다는 "방에 들어가신다"라는 표현을 훨씬 더 많이 사용합니다. 그렇다면, 띄어쓰기는 "아버지가 방에 들어가신다...

특정 텍스트 제거 - (5)

이번시간에는 이전에 배웠던 특정 텍스트를 제거하는 방법을 이용해 청와대 청원 데이터에서 불필요한 텍스트를 제거해 보겠습니다. 청와대 청원 데이터를 살펴보면 아래 사진 처럼 \\n 와 같은 문자열이 많이 보입니다. 해당 문자열은 줄바꿈을 나타내는 의미이며, 텍스트에서 불필요한 문자열이기 때문에 데이터 분석에 방해가 되지 않게 제거해주도록 하겠습니다. train_data[0] 모든 train데이터에 한번에 replace 함수를 적용하기 위해서는 apply() 함수, lambda() 함수를 함께 사용하면 됩니다. 사용방법은 아래와 같습니다. import pandas as pd train=pd.read_csv('data/train.csv') test=pd.read_csv('data/test.csv') train..

300x250
300x250