Data Science Fellowship 8

[Airflow] 처음 뵙겠습니다. Airflow!

이 바람개비는 도움이 많이 된다고 소문이 났습니다. 바로, 에어플로우입니다.     에어플로우, 뭔가 바람개비같은 로고가 마음에 드는 친구입니다. 이 도구는 어디에 쓰는 것일까요? 검색을 해보았습니다. Chat GPT를 사용해보았습니다. 에어플로우(Airflow)는 복잡한 워크플로우 관리를 위해 만들어진 오픈 소스 플랫폼입니다. Apache Software Foundation이 관리하는 이 툴은 데이터 엔지니어링 및 데이터 사이언스 작업에서 특히 유용하게 사용됩니다. 에어플로우의 주요 목적은 예약된 작업의 실행, 종속성 관리, 모니터링을 자동화하여 워크플로우의 정의, 스케줄링 및 모니터링을 단순화하는 것입니다.  다음은 주요 특징입니다. 아래와 같이 DAGs, 스케줄러, 실행기(Executors), 웹 ..

[Pandas] 판다스로 배우는 DataFrame (1)

판다스는 안해보면 까먹는 도구입니다. 데이터캠프로 공부한 내용을 다시 정리해봤습니다. 판다스로 특정 열(column)의 평균과 중앙값 찾기 가령, sales라는 데이터프레임이 있습니다. 내부를 확인해보고, 평균과 중앙값을 볼 수 있습니다. 특정 컬럼을 기준으로 볼 수 있죠. # Print the head of the sales DataFrame print(sales.head()) # Print the info about the sales DataFrame print(sales.info()) # Print the mean of weekly_sales print(sales["weekly_sales"].mean()) # Print the median of weekly_sales def pct50(column)..

[Pandas] DataFrame index 추출해보기

몰라도 하나씩 배워갑니다. 다 알아도 까먹기 쉬워서, 늘 기록합니다. 데이터프레임이 있습니다. 값을 추출할 때는 values, 컬럼(열) 인덱스는 .columns, 행의 인덱스는 .index 사용하면 됩니다. # pandas를 pd로 명명합니다. import pandas as pd # 데이터 값을 출력합니다. print(homelessness.values) # 컬럼 인덱스 print(homelessness.columns) # 행 인덱스 print(homelessness.index) 출력하면 대략 아래와 같습니다. ['Mountain' 'Wyoming' 434.0 205.0 577601]] Index(['region', 'state', 'individuals', 'family_members', 'state..

[Python] if-else 조건문과 elif 이야기

Python에는 멋진 조건문이 있습니다. if 조건문입니다. 대부분 언어가 if를 많이 사용합니다. if-else 는 거의 대부분 사용합니다. 조금 생소한 용어가 elif 일텐데요. 알아보겠습니다. 가장 단순한 if문은 이렇습니다. if 조건문 if 조건문 : 사실이면 실행할 문장 간단한 예제를 살펴보겠습니다. # Define variables room = "kit" area = 14.0 # 방 이름 조건 if room == "kit" : print("부엌은 이 정도 크기야.") # 크기 조건 if area > 15 : print("매우 크구나!") 실행되는 문장은 "부엌은 이 정도 크기야."입니다. 감이 옵니다. 이번에는 조건이 거짓일 때 생각해봅시다. if-else # if-else construct..

[Python] Boolean 연산자와 넘파이 이야기

넘파이는 훌륭한 파이썬의 연산 도구입니다. Boolean 자료형과 결합해볼까요? # 배열 만들기 import numpy as np my_house = np.array([18.0, 20.0, 10.75, 9.50]) your_house = np.array([14.0, 24.0, 14.25, 9.0]) # my_house는 18.5 or 10보다 작거나, 18.5보다 큰지 확인하라. print(np.logical_or(my_house > 18.5, your_house 11, your_house > 11)) 결과를 보겠습니다. [False True False True]..

[Python] Built-in Data Type: 기본과 집합 자료형

내장된 데이터 타입 빌트인 데이터 타입이라는 말은 어색합니다. 내장된 자료형이죠. 언어 자체가 제공하는 자료형(기본 자료형), 컬렉션 자료형(집합 자료형)으로 나눕니다. 기본 자료형은 정수형, 부동소수형, 문자열 타입이 있고, 집합 자료형은 리스트, 튜플, 셋, 딕셔너리가 있습니다. 정수형 int 기호 정도만 알면 됩니다. +, -, *, /, //, %, 부호(-), abs()이렇게 있습니다. 부동소수형 float 정수형과 동일합니다. 차이가 있다면, 오차가 발생한다는 점입니다. 즉, 앱실론(epsilon)이라는 오차가 있습니다. 파이썬이 부동소수형 데이터를 이진법으로 표현할 때, 그 과정에서 발생하는 오차를 말합니다. 앱실론 epsilon 부동소수형 데이터는 오차 허용 범위를 명시할 수 있습니다. 문..

[Python] Dictionary 구조

Dictionary Python 언어에는 딕셔너리(Dictionary)라는 구조가 있습니다. 간단한 코드로 살펴보겠습니다. europe = {'spain':'madrid', 'france':'paris', 'germany':'berlin', 'norway':'oslo' } # europe 딕셔너리의 키값을 출력합니다. print(europe.keys()) # 'norway' 키 값에 해당하는 value를 출력합니다. print(europe['norway']) 파이썬에서 딕셔너리는 일종의 JSON과 비슷하게 키와 값의 한 쌍으로 이루어집니다. 여러개로 나열할 수도 있고, 중요한 점은 중괄호를 사용한다는 것입니다. 구조를 살펴보면 아래와 같습니다. {'키(key)':'값(value)','키(key)':'값(..