국비 교육/데이터26 [데이터 분석] Pandas 문제 실습 - 4 서울시 공공자전거 대여소 정보 분석 대여소 정보 데이터 읽기import pandas as pdplace_df= pd.read_excel('서울특별시 공공자전거 대여소 정보(19.12.9).xlsx', skiprows= 0, engine='openpyxl')place_df.head()NA 값이 몇 개인지 확인하기import numpy as np place_df.isna().sum()place_df.shapeisna().sum() 을 통해 na값이 존재 한다는 것을 알게 되었다.place_df[place_df['대여소ID'].isna()] # 불린인덱싱 통해불린 인덱싱을 이용하여 해당 컬럼이 어디에 존재해 있는지 확인한 결과 가장 마지막 행에 합계로 들어가 있었다.place_df = place_df.drop(1540)# place_df.dro.. 2023. 11. 16. [데이터 분석] Pandas 문제 실습 - 3 품목별 수출입실적 분석 엑셀을 읽기 위해서는 따로 다운 받을 패키지가 존재한다."!pip install openpyxl 데이터 읽어오기import pandas as pddf = pd.read_excel('import_export.xls', skiprows= [0,1,2,3], engine='openpyxl')df.head()skiprow() 의 이유: 표를 만들기 위해 사용된 행 서식을 제거불필요한 행 삭제 및 인덱스 초기화0 , 485 행 : '총계', '설명' 에 해당하는 row 삭제df = df.drop(0) # 0행만# df.drop(len(df), inplace= True) # 마지막행import numpy as npdf.index = np.arange(485)df.head()# df = df.reset_index(d.. 2023. 11. 16. [데이터 분석] Pandas 문제 실습 - 2 국가별 알콜 섭취량 데이터 분석 데이터 분석에 필요한 패키지 다운import pandas as pdimport numpy as nppd.set_option('display.max_columns',None) # 출력셀에 표시될 수를 지정 # 출력 셀에 모든 열 출력pd.set_option('display.max_rows',None) # 출력셀에 표시될 수를 지정 # 출력 셀에 모든 행 출력0-1.데이터 읽어오기df = pd.read_csv('drinks.csv',na_filter=False)data = pd.read_csv('drinks.csv')교수님의 코드와 내 코드가 섞여 있을 예정. 내가 읽은 데이터는 df로, 교수님의 예시를 data로 구분 컬럼명 한글로 변경data.columns = ['국가','맥주','증류주','와인','알.. 2023. 11. 16. [데이터 분석] Pandas 실습 문제 - 1 (시애틀 강수량 데이터 분석) 데이터 로딩import pandas as pdimport numpy as np필요한 패키지 로딩df = pd.read_csv('Seattle2014.csv')pd.read_* 을 통해 csv 파일을 읽어온다.1-1. 데이터 모양 및 정보 확인df.shape(365,17) # 365행 17열로 구성되어 있다.(1년간의 시애틀 분석이므로 365행이다.)df.head()df.info()df.isna().sum()결측치 행이 존재하는지 확인한다. isna() 는 논리형의 값으로 나오므로 sum() 을 하여 True 의 값을 합한다. 필요하지 않은 컬럼 삭제 (STATION, STATION_NAME)df.drop(['STATION','STATION_NAME'],axis=1,inplace=True) # axis=1.. 2023. 11. 15. [데이터 분석] Padas - 4 그룹핑특정 값을 기준으로 몇 개의 그룹으로 분할하여 처리하는 방식df = pd.DataFrame({'A': ['chol','young']*3 +['chol'], 'B': [ 'one','one','two','one','two', 'two','one'], 'C': np.random.randn(7), 'D': np.random.randn(7)})df새로운 데이터프레임 생성 grouped = df.groupby('B')print(grouped) for key,group in grouped: print('key:',key) print(group.head()) print('-'*30) 그룹 객체 만들기.. 2023. 11. 11. [데이터 분석] Pandas - 3 df = pd.DataFrame([[1,2],[3,4]], index= ['A','B'], columns= ['a','b'])df새로운 데이터 프레임 생성(인덱스가 A,B , 컬럼명이 a,b 인 1행이 1,2, 2행이 3,4 로 채워진 2행 2열의 데이터 프레임) 데이터프레임 간의 조합pd.concat()두 개 이상의 데이터 프레임을 행 또는 열 방향으로 연결한다. 열 방향으로 연결하고자 할 경우 axis = 1 인자를 전달한다.(default: axis = 0) 행 방향으로 연결하고자 할 때는 열 이름이 같아야 하고, 열 방향으로 연결하고자 할 때는 행 이름이 같아야 하다.df2 = pd.concat([df,df])df2concat()의 축 기본값이 axis = 0 이기 때문에 열에 방향(아래쪽으로).. 2023. 11. 11. 이전 1 2 3 4 5 다음