'빅데이터 관련 자료/Dacon' 카테고리의 글 목록 (3 Page)
Data Analyst
300x250
300x250

빅데이터 관련 자료/Dacon 104

형태소 분석기 - (3)

이번 시간과 다음 시간에는 형태소 분석기를 이용해 청와대 청원 데이터의 형태소를 분석하고 데이터의 형태소 중 조사를 제거하는 실습을 진행 해보도록 하겠습니다. 데이터에서 조사를 제거하는 이유는 조사는 큰 의미를 가지고 있지 않기 때문에 오히려 분석에 방해가 될 수 있습니다. 실습 순서는 다음과 같습니다. 텍스트 데이터의 형태소 별로 분리 형태소가 조사인 글자를 제외 하여 새로운 텍스트 생성 기존의 텍스트 데이터를 새로운 텍스트로 변경 # 조사를 제거하기 위함 함수 정의 def func(text): #형태소 분석 okt_pos = okt.pos(str(text),norm=True,stem=True) #조사를 제거한 새로운 문자열 정의 new_word='' for word, pos in okt_pos: #품..

형태소 분석기 - (2)

이번시간에는 형태소 분석기의 종류에 대해 알아보고 실습을 통해 어떤식으로 형태소를 분리해 주는지 차이점에 대해 알아보겠습니다. 형태소 분석기의 종류를 여러개 알아야 하는 이유는 각각의 텍스트마다 성능이 좋은 형태소 분석기는 다르기 때문입니다. 오늘 실습 할 형태소 분석기는 Okt, Komoran, Kkma 총 3개 입니다. 형태소 분석기를 이용해 형태소를 분석하는 방법은 다음과 같습니다. 라이브러리 설치 형태소 분석기 정의 형태소 분석 순서에 맞게 실습을 진행해 보겠습니다. # 라이브러리 설치 # Okt, Komoran, Kkma 은 모두 konlpy 라이브러리에서 불러올 수 있습니다. from konlpy.tag import Kkma,Komoran,Okt #형태소분석기 정의 okt=Okt() kkm=K..

형태소 분석기 - (1)

- 형태소 분석기 우선 형태소 분석이란 '형태소를 비롯하여, 어근, 접두사/접미사, 품사 등 다양한 언어적 속성의 구조를 파악하는 것입니다. 형태소분석은 왜 필요한 걸까요? 그것은 언어의 '모호성' 때문입니다. 예시를 살펴보며 알아보겠습니다. 아래 문장의 띄어쓰기를 고쳐야 한다고 가정해봅시다. "아버지가방에들어가신다." 위 문장은 띄어쓰기 경계가 모호합니다. "아버지가 방에 들어가신다."로 해석 될 수도 있고 "아버지 가방에 들어가신다."로 해석 될 수도 있기 때문입니다. 이 차이를 구분하기 위해서는 문장 뿐만이 아니라, 추가적인 정보가 필요합니다. 일반적으로, "가방에 들어가신다" 라는 표현보다는 "방에 들어가신다"라는 표현을 훨씬 더 많이 사용합니다. 그렇다면, 띄어쓰기는 "아버지가 방에 들어가신다...

특정 텍스트 제거 - (5)

이번시간에는 이전에 배웠던 특정 텍스트를 제거하는 방법을 이용해 청와대 청원 데이터에서 불필요한 텍스트를 제거해 보겠습니다. 청와대 청원 데이터를 살펴보면 아래 사진 처럼 \\n 와 같은 문자열이 많이 보입니다. 해당 문자열은 줄바꿈을 나타내는 의미이며, 텍스트에서 불필요한 문자열이기 때문에 데이터 분석에 방해가 되지 않게 제거해주도록 하겠습니다. train_data[0] 모든 train데이터에 한번에 replace 함수를 적용하기 위해서는 apply() 함수, lambda() 함수를 함께 사용하면 됩니다. 사용방법은 아래와 같습니다. import pandas as pd train=pd.read_csv('data/train.csv') test=pd.read_csv('data/test.csv') train..

특정 텍스트 제거 - (4)

이전 시간에 이어 특정 텍스트를 제거하는 방법에 대해 알아보겠습니다. 이번 시간에 알아 볼 방법은 'isdecimal()' 메소드를 사용하는 방법입니다. -isdecimal() isdecimal()는 해당 문자열이 0~9까지의 수로 이루어진 것인지 검사합니다. 다시 말해, int로 바로 변환할 수 있는 수 인지를 검사합니다. 따라서 문자열이 0~9까지의 수로 이뤄졌을 경우 True를 변환하고, 그렇지 않으면 False를 반환합니다. 사용방법은 저번 시간에 배운 isalnum()과 동일합니다. # isdecimal 메소드를 이용해 output에 해당하는 값이 출력 되도록 특정 문자열을 제거 해보세요. string = "1-2$3%4 5a" # output : 12345 #isdecimal를 이용해 알파벳값..

특정 텍스트 제거 - (3)

이전 시간에 이어 특정 텍스트를 제거하는 방법에 대해 알아보겠습니다. 이번 시간에 알아 볼 방법은 'isalnum()' 메소드를 사용하는 방법입니다. - isalnum() isalnum() 메소드는 문자열의 문자가 알파벳(A to z) 및 숫자(0~9)인지 확인하는데 사용됩니다. 문자열에 알파벳 혹은 숫자가 포함된 경우 True 값이 반환됩니다. 사용방법은 저번 시간에 배운 isalpha()와 동일합니다. # isalnum 메소드를 이용해 output에 해당하는 값이 출력 되도록 특정 문자열을 제거 해보세요. string="year : 2021, month : 09, day : 24" # output : year2021month09day24 #isalnum를 이용해 알파벳값만 담을 리스트 isalnum_..

특정 텍스트 제거 - (2)

저번 시간에 이어 특정 텍스트를 제거하는 방법에 대해 알아보겠습니다. 이번 시간에 알아 볼 방법은 'isalpha()' 메소드를 사용하는 방법입니다. - isalpha() isalpha() 메소드는 문자열에 알파벳이 포함되어 있는지 여부를 확인할 때 사용됩니다. 문자열에 알파벳만 포함된 경우 True 값이 반환됩니다. # isalpha 메소드를 이용해 해당 하는 출력값이 나오도록 문자열을 변경해 보세요. string = "Hello$@Python3&" #isalpha를 이용해 알파벳값만 담을 리스트 isalpha = [] #isalpha를 이용해 알파벳값인지 판별 for c in string: if c.isalpha(): isaplha_list.append(c) # join() 메소드를 이용해 알파벳값 ..

특정 텍스트 제거 - (1)

이번 시간 부터 텍스트 데이터에서 특정 텍스트를 제거하는 4가지 방법에 대해 알아 보겠습니다. 특정 텍스트를 제거하는 작업은 텍스트 데이터를 다룰 때 꼭 필요한 작업입니다. 예를 들어 ★,<,※ 와 같은 특수 기호나, , & 와 같은 html,xml 태그 등 몇몇 텍스트는 오히려 모델의 성능에 방해가 되는 요소이기 때문에 제거해주는 것이 좋습니다. - replace() 첫 번째로 알아 볼 방법은 replace() 메소드를 사용하는 방법입니다. replace() 메소드는 특정 문자를 새로운 문자로 변경(제거)하는 기능을 가지고 있습니다. 사용방법은 문자열. replace(old,new,[count]) 형식으로 사용할 수 있습니다. - old: 현재 문자열에서 변경하고 싶은 문자 - new: 새로 바꿀 문자..

텍스트 데이터 전처리 개요

이번 시간부터는 텍스트 데이터를 전처리하는 과정에 대해 배워보겠습니다. 우선, 텍스트 데이터 전처리에는 정해진 정답은 없으며 데이터와 목적에 따라 달라집니다. 이 과정은 주로 모델의 입력인 단어, 문장, 문서의 vector를 만들기 전에 진행됩니다. 1. 클렌징 텍스트 데이터에서 분석에 오히려 방해가 되는 불필요한 문자나 기호 등을 분석 전에 제거하는 방법입니다. 예를 들어, ★,<,※ 와 같은 특수 기호나, , & 와 같은 html,xml 태그 등을 제거 합니다. 2. 필터링/ STOPWORD 지정 대회의 목적과 분석자의 재량에 따라 불필요한 단어나 분석에 큰 의미가 없는 단어를 STOPWORD(불용어)로 설정 후 데이터에서 제거해주는 과정입니다. 3. 토큰화(Tokenization) 형태소 분석을 통..

300x250
300x250