- [ Data Analystics/visualization ][matplotlib] 시각화 기초(선 그래프)2024-01-07 16:58:46안녕하세요 이번 글에서는 matplotlib 라이브러리를 이용해서 간단한 시각화를 하는 방법을 다뤄보겠습니다 먼저 필요한 라이브러리를 불러오도록 하겠습니다 import matplotlib.pyplot as plt data1 변수에 임의로 데이터를 넣은 후 그래프를 그려보았습니다. x축은 data1의 인덱스 값을, y축은 data1의 인덱스에 해당하는 값을 나타내며 그래프는 직선형태임을 알 수 있습니다. 그러나, 해당 방식은 OOP(객체지향프로그래밍) 방식의 코드가 아닙니다. 파이썬은 객체지향언어이므로 저는 계속해서 위의 방식이 아닌 객체지향방식의 코드를 통해 시각화를 해보겠습니다. 시각화를 할 때 가장 먼저 작성해주셔야 하는 코드는 아래 코드입니다. 그림을 그릴때 사용하는 흰 도화지라고 이해해주시면 됩니..
- [ Data Analystics/pandas ][Pandas] manipulate textual data(문자형 데이터 다루기)2024-01-06 11:18:50안녕하세요 이번 글에서는 pandas library를 활용하여 문자형 데이터를 다루는 것을 알아보겠습니다 먼저 필요한 라이브러리를 불러옵니다. pandas 라이브러리만 사용할 것이므로 import pandas as pd 코드를 상단에 작성 후 컴파일 해줍니다. 이후 pandas 라이브러리의 read_csv 메소드를 사용하여 데이터셋을 불러옵니다. 데이터셋을 URL 혹은 웹주소로 가져올 수 있는데요, 아래와 같이 "" 안에 URL or 웹 주소를 작성해주신 후 컴파일 해주시면 됩니다 이후, 불러온 titanic 데이터를 출력하여 데이터가 잘 불러와졌는지 확인합니다 .str.lower() 메소드 Series.str.lower() 메소드는 특정 칼럼의 데이터 값을 소문자로 바꿉니다 .str.upper() 메소..
- [ Data Analystics/pandas ][Pandas] File Handling2024-01-05 17:46:55이번 글에서는 pandas 라이브러리의 File Handling에 대해서 다뤄보겠습니다. 파일 불러오기 Excel 파일 불러오기 가장 많이 사용하는 방법 Excel 파일 → 데이터프레임: pandas.read_excel(”파일 경로(이름)”) import pandas as pd # read_excel() 함수로 데이터프레임 변환 # 파일 경로(이름)을 string(문자열)로 받아들임 df1 = pd.read_excel('./남북한발전전력량.xlsx') # header=0 (default 옵션) df2 = pd.read_excel('./남북한발전전력량.xlsx', header=None) # header = None 옵션 # 데이터프레임 출력 print(df1) print('\n') print(df2) cs..
- [ Data Analystics/pandas ][Pandas] library DataFrame .loc condition(조건문)2024-01-05 00:58:07이번 글에서는 pandas 라이브러리의 DataFrame 객체의 .loc attrribute의 조건문을 처리하는 방법을 알아보겠습니다. 필요한 라이브러리 불러오기 seaborn 라이브러리 : dataset을 불러옵니다 pandas 라이브러리 : data를 Series(1차원 데이터), 혹은 DataFrame(2차원 데이터 이상)으로 핸들링합니다 저는 타이타닉 데이터를 불러왔는데요, 다양한 데이터를 불러올 수 있는데 불러오는 방법은 seaborn 라이브러리를 코드 상단에 import 하여 불러온 후 load_dataset('불러오고 싶은 데이터셋') 메소드를 사용하면 됩니다 :) 타이타닉 데이터셋의 경우 891개의 row(행)와 15개의 column(열)으로 구성된 것을 알 수 있습니다 .shape을 사용..
- [ Data Analystics/pandas ][Python] pandas library DataFrame .loc vs .iloc2024-01-04 23:42:17.loc .loc: is primarily label based 주로 "레이블"과 관련된 처리를 하며 부울 타입의 배열(데이터)도 처리가 가능 DataFrame .loc 예시 딕셔너리 형태의 DataFrame 생성하기 아래 코드 결과와 같이 DataFrame(2차원 이상) 형태로 반환하고 싶은 경우 [[]]로 처리 첫번째 코드는 column을 지정하지 않고 row(행)만 선택한 예시이다 column을 지정하지 않았으므로 모든 칼럼이 선택된 것을 확인할 수 있다 두번째 코드는 row('E', 'F')와 column('team', 'assists')을 모두 지정하여 선택한 예시이다 세번째 코드는 slicing(슬라이싱)을 사용하여 row와 column을 선택한 예시이다 numpy array와 시퀀스 타입의 ..
- [ Data Analystics ][Jupyter lab] 주석(comment) 색상 변경2024-01-03 20:16:23노트북 화면을 오래 보다보니 눈에 피로가 많이가서 다크 모드를 주로 사용하는데요 주피터 랩의 경우 주석 색상이 default로 회색이어서 잘 보이지 않는 불편함이 있었습니다 해당 글에서 Jupyter lab의 주석(글씨) 색상을 변경하는 내용을 다뤄보겠습니다 :) 필자는 conda 환경에서 가상환경을 설치하여 가상환경의 주석(comment) 색상을 변경하였습니다. 1. JupyterLab 경로 찾기 jupyter lab이 설치된 경로를 찾습니다 명령어 which jupyter 2. JupyterLab 데이터 디렉토리 찾기 명령어 jupyter lab path 3. index.css 파일 수정하기 jupyter lab path를 통해 jupyter lab이 설치되어있는 디렉토리를 찾습니다. jupyt..
- [ Data Analystics/numpy ][Python] Numpy 라이브러리2024-01-02 18:25:30데이터 분석을 위한 파이썬 철저 입문 교재를 참고하여 작성하였습니다 Numpy 라이브러리? Python을 이용한 과학 연산을 쉽고 빠르게 할 수 있도록 지원하는 패키지 라이브러리는 "import 라이브러리명"을 통해 사용할 수 있다 코드 상단에 import numpy as np 실행 import ... as ... 문은 모듈을 별칭으로 가져오기 위해 사용하며 'numpy' 라이브러리의 함수에 접근할 때마다 전체 이름 'numpy'를 사용하는 대신 'np'를 사용하여 코드를 간결하고 쉽게 작성하는데 도움을 준다 Ex) numpy.array() -> np.array() 공식 홈페이지 : https://www.numpy.org 시퀀스 데이터(튜플, 리스트)로부터 배열 생성 arr_obj = np.array(s..
- [ Data Analystics/pandas ][Pandas] 라이브러리2023-12-30 11:49:16Pandas 라이브러리 ? Python에서 데이터 분석 및 조작을 위한 가장 인기 있는 라이브러리 중 하나로 데이터 과학, 금융 분석, 통계 등의 분야에서 사용 사용법 코드 상단에 import pandas as pd 작성 Series 1차원 데이터 정수, 실수, 문자열 등의 다양한 데이터 타입의 데이터 저장 가능 index는 행의 레이블을 의미하며 index를 지정하지 않은 경우 0부터 시작하는 인덱스 자동 생성 Series 객체를 생성하는 방법 pd.Series([]) 인덱스를 지정하지 않고 Series 객체 생성 인덱스를 지정하여 Series 객체 생성 지정한 인덱스를 수정할 수도 있다