[Pandas 핵심] 6. 시계열데이터 다루기 (Datetime, Timedelta)
- 본 게시물에서는 시간과 관련된 데이터셋을 다루는 방법에 대해 알아본다. Pandas에는 특정 시점의 날짜와 시간을 다루는 Datetime 함수와 두 시점의 차이를 다루는 Timedelta 함수 등이 있다.- 실습환경 : colab 실습에 활용할 데이터프레임 df 생성 import pandas as pddata = { 'Date1': ['2024-02-17', '2024-02-18', '2024-02-19'], 'Date2': ['2024:02:17', '2024:02:18', '2024:02:19'], 'Date3': ['24/02/17', '24/02/18', '24/02/19'], 'Date4': ['02/17/2024', '02/18/2024', '02/19/2024'], ..
[Pandas 핵심] 5. 조건필터, 결측치 확인, 값 변경, 내장함수, 그룹핑, apply함수(w. lambda)
- 엑셀의 필터처럼 데이터프레임내에서 특정 조건을 만족하는 데이터만 필터링을 할 수 있는 조건필터 기능과, 컬럼별 결측치를 확인하는 기능, 값을 변경하는 기능을 알아본다.- 실습환경 : colab 실습에 필요한 데이터프레임 생성하기 import pandas as pdimport numpy as npdata = { "메뉴":['아메리카노','카페라떼','카페모카', '바닐라라떼', '녹차', '초코라떼', '바닐라콜드브루'], "가격":[4100, 4600, 4600, 5100, 4100, 5000, 5100], "할인율":[0.5, 0.1, 0.2, 0.3, 0, 0, 0], "칼로리":[10, 180, 420, 320, 20, 500, 400], "원두":['콜롬비아', ..
[Pandas 핵심] 4. 인덱싱/슬라이싱, 정렬
- 데이터프레임 중 특정한 행/열만 뽑아서 일부분의 데이터프레임만을 출력하는 인덱싱/슬라이싱과 이를 이용한 데이터 추가, 그리고 정렬에 대해 알아본다.- 실습환경 : colab 본 절에서 사용할 데이터프레임 생성하기 # 학습 전 실행: csv파일 (data.csv) 생성import pandas as pddata = { "메뉴":['아메리카노','카페라떼','카페모카', '바닐라라떼', '녹차', '초코라떼', '바닐라콜드브루'], "가격":[4100, 4600, 4600, 5100, 4100, 5000, 5100], "할인율":[0.5, 0.1, 0.2, 0.3, 0, 0, 0], "칼로리":[10, 180, 420, 320, 20, 500, 400],}data = pd.DataF..
[Pandas 핵심] 3. 데이터프레임 변경/삭제, csv로 저장하기/불러오기
- 데이터 핸들링을 할 때 가장 기본적으로 사용해야 하는 자료형 변환, 새로운 컬럼 추가, 데이터 삭제와 같은 데이터프레임 변경/삭제 API들에 대해 알아본다. - 실습환경 : colab #1 자료형 변환 데이터프레임 만들기 # 데이터 프레임 만들기 (할인율과 칼로리 : 문자열)data = { "메뉴":['아메리카노', '카페라떼', '카페모카', '바닐라콜드브루'], "가격":[4100, 4600, 4600, 5100], "할인율":['0.5', '0.1', '0.2', '0.3'], "칼로리":[10,180,420,320],}df = pd.DataFrame(data)df.info() 자료형 변환 # 자료형 변환 / astype / object -> floatdf['할인율']..
[Pandas 핵심] 2. 탐색적 데이터 분석 (EDA) 시 활용 함수들
- 데이터분석 과정에서 흔히 사전 진행되는 탐색적 데이터 분석(EDA, Exploratory Data Analysis) 시 자주 활용되는 Pandas의 주요 API들에 대해 알아본다.- 실습환경 : colab 실습용 데이터프레임 생성하기 import pandas as pddata = { "메뉴":['아메리카노','카페라떼','카페모카', '바닐라라떼', '녹차', '초코라떼', '바닐라콜드브루'], "가격":[4100, 4600, 4600, 5100, 4100, 5000, 5100], "할인율":[0.5, 0.1, 0.2, 0.3, 0, 0, 0], "칼로리":[10, 180, 420, 320, 20, 500, 400],}df = pd.DataFrame(data)df 데이터프레..