전국 신규 민간 아파트 분양가격 동향 데이터 분석

IT/Python

전국 신규 민간 아파트 분양가격 동향 데이터 분석 - (3)

carpe08 2022. 1. 16. 23:50

이상치 보기

서울의 평당분양가격이 특히 높은 데이터가 있습니다. 해당 데이터를 가져옵니다.

df_last[df_last["평당분양가격"]>40000]

수치 데이터 히스토그램 그리기

df_last.hist(figsize=(10,6))

pairplot 그리기

sns.pairplot(data=df_last,hue="지역명") #hue를 안넣으면 히스토그램으로 작성됨

melt로 Tidy data 만들기

pandas의 melt를 사용하면 데이터의 형태를 변경할 수 있습니다. df_first 변수에 담긴 데이터프레임은 df_last에 담겨있는 데이터프레임의 모습과 다릅니다. 같은 형태로 만들어주어야 데이터를 합칠 수 있습니다. 데이터를 병합하기 위해 melt를 사용해 열에 있는 데이터를 행으로 녹여봅니다.

df_first_melt=pd.melt(df_first,id_vars="지역")
df_first_melt.head()

df_first_melt 변수에 담겨진 컬럼의 이름을 ["지역명", "기간", "평당분양가격"] 으로 변경합니다.

df_first_melt.columns=["지역명","기간","평당분양가격"]
df_first_melt.head()  #연도와 월 나눠야된다.

연도와 월을 분리하기

parse_year라는 함수를 만듭니다. 연도만 반환하도록 하며, 반환하는 데이터는 int 타입이 되도록 합니다.

def parse_year(date):
    year=date.split("년")[0]
    year=int(year)
    return year

parse_month 라는 함수를 만듭니다. 월만 반환하도록 하며, 반환하는 데이터는 int 타입이 되도록 합니다.

def parse_month(date):
    month=date.split("년")[1].replace("월","")
    month=int(month)
    return month

df_first_melt 변수에 담긴 데이터프레임에서 apply를 활용해 연도만 추출해서 새로운 컬럼에 담습니다.

df_first_melt["연도"]=df_first_melt["기간"].apply(parse_year)

df_first_melt
# map시리즈
# apply 시리즈 데이터 프레임 사용 가능

df_first_melt 변수에 담긴 데이터프레임에서 apply를 활용해 월만 추출해서 새로운 컬럼에 담습니다.

df_first_melt["월"]=df_first_melt["기간"].apply(parse_month)
df_first_melt

최근 데이터가 담긴 df_last 에는 전용면적이 있습니다. 이전 데이터에는 전용면적이 없기 때문에 "전체"만 사용하도록 합니다. loc를 사용해서 전체에 해당하는 면적만 copy로 복사해서 df_last_prepare 변수에 담습니다.

cols = ['지역명', '연도', '월', '평당분양가격']

df_last_prepare=df_last.loc[df_last["전용면적"]=="전체",cols]
df_last_prepare

df_first_melt에서 공통된 컬럼만 가져온 뒤 copy로 복사해서 df_first_prepare 변수에 담습니다.

df_first_prepare=df_first_melt[cols]
df_first_prepare

320x100

저작자표시 비영리 변경금지 (새창열림)

'빅데이터 관련 자료 > Python' 카테고리의 다른 글

FinanceDataReader 파이썬 실습 - 2 (0)	2022.02.18
전국 신규 민간 아파트 분양가격 동향 데이터 분석 - (4) (0)	2022.01.18
전국 신규 민간 아파트 분양가격 동향 데이터 분석 - (2) (0)	2022.01.15
전국 신규 민간 아파트 분양가격 동향 데이터 분석 - (1) (0)	2022.01.14
파이썬 기초용어 정리 - 제어문, 입출력 etc (0)	2022.01.05

현재글전국 신규 민간 아파트 분양가격 동향 데이터 분석 - (3)

자주 소통해요~!

250x250

관세음보살, 자비, 불교 수행, 불교, 머신러닝, hackerrank, 데이터 분석, 불교 명언, 부처님 가르침, 사경, 불교 철학, Python, 무상, 파이썬, SQL, 해커랭크, Athena, 마음 수행, 부처님 말씀, 명상,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

하미's 블로그

전국 신규 민간 아파트 분양가격 동향 데이터 분석 - (3)

이상치 보기

서울의 평당분양가격이 특히 높은 데이터가 있습니다. 해당 데이터를 가져옵니다.

수치 데이터 히스토그램 그리기

pairplot 그리기

melt로 Tidy data 만들기

df_first_melt 변수에 담겨진 컬럼의 이름을 ["지역명", "기간", "평당분양가격"] 으로 변경합니다.

연도와 월을 분리하기

parse_year라는 함수를 만듭니다. 연도만 반환하도록 하며, 반환하는 데이터는 int 타입이 되도록 합니다.

parse_month 라는 함수를 만듭니다. 월만 반환하도록 하며, 반환하는 데이터는 int 타입이 되도록 합니다.

df_first_melt 변수에 담긴 데이터프레임에서 apply를 활용해 연도만 추출해서 새로운 컬럼에 담습니다.

df_first_melt 변수에 담긴 데이터프레임에서 apply를 활용해 월만 추출해서 새로운 컬럼에 담습니다.

최근 데이터가 담긴 df_last 에는 전용면적이 있습니다. 이전 데이터에는 전용면적이 없기 때문에 "전체"만 사용하도록 합니다. loc를 사용해서 전체에 해당하는 면적만 copy로 복사해서 df_last_prepare 변수에 담습니다.

df_first_melt에서 공통된 컬럼만 가져온 뒤 copy로 복사해서 df_first_prepare 변수에 담습니다.

'빅데이터 관련 자료 > Python' 카테고리의 다른 글

'IT/Python'의 다른글

티스토리툴바

전국 신규 민간 아파트 분양가격 동향 데이터 분석 - (3)

이상치 보기

서울의 평당분양가격이 특히 높은 데이터가 있습니다. 해당 데이터를 가져옵니다.

수치 데이터 히스토그램 그리기

pairplot 그리기

melt로 Tidy data 만들기

df_first_melt 변수에 담겨진 컬럼의 이름을 ["지역명", "기간", "평당분양가격"] 으로 변경합니다.

연도와 월을 분리하기

parse_year라는 함수를 만듭니다. 연도만 반환하도록 하며, 반환하는 데이터는 int 타입이 되도록 합니다.

parse_month 라는 함수를 만듭니다. 월만 반환하도록 하며, 반환하는 데이터는 int 타입이 되도록 합니다.

df_first_melt 변수에 담긴 데이터프레임에서 apply를 활용해 연도만 추출해서 새로운 컬럼에 담습니다.

df_first_melt 변수에 담긴 데이터프레임에서 apply를 활용해 월만 추출해서 새로운 컬럼에 담습니다.

최근 데이터가 담긴 df_last 에는 전용면적이 있습니다. 이전 데이터에는 전용면적이 없기 때문에 "전체"만 사용하도록 합니다. loc를 사용해서 전체에 해당하는 면적만 copy로 복사해서 df_last_prepare 변수에 담습니다.

df_first_melt에서 공통된 컬럼만 가져온 뒤 copy로 복사해서 df_first_prepare 변수에 담습니다.

'빅데이터 관련 자료 > Python' 카테고리의 다른 글

'IT/Python'의 다른글

관련글

티스토리툴바