파이썬에서 데이터프레임을 다루기 위해 주로 사용되는 라이브러리는 Pandas입니다.
Pandas는 데이터 조작과 분석을 위한 강력한 도구로, 데이터프레임을 다루는 데 매우 유용합니다.
Pandas의 데이터프레임은 2차원 구조로, 열과 행으로 구성됩니다.
열은 데이터의 변수 또는 속성을 나타내며, 각 열은 해당 변수의 이름인 레이블로 식별됩니다.
행은 개별 데이터 인스턴스 또는 관측치를 나타내며, 각 행은 고유한 인덱스로 식별됩니다.
이러한 구조는 테이블 형태의 데이터를 다루기에 적합하며, 데이터 조작 및 분석 작업에 용이합니다.
Pandas 데이터프레임의 주요 특징
Pandas 데이터프레임은 다양한 작업을 수행할 수 있는 많은 함수와 메서드를 제공합니다.
데이터프레임에서는 열 단위로 데이터 선택, 필터링, 정렬, 그룹화 등 다양한 연산을 수행할 수 있습니다.
또한 행 단위로 데이터를 선택하거나 특정 조건을 만족하는 행을 필터링할수도 있습니다.
데이터프레임은 또한 결측치 처리, 열 추가 또는 삭제, 데이터 정렬, 병합, 피벗 등 다양한 데이터 변형 작업을 수행할 수 있는 유연성을 제공합니다.
Pandas는 데이터프레임을 조작하고 분석하는 데 필요한 다양한 함수와 도구를 제공하므로, 데이터 분석 및 데이터 과학작업에 매우 유용한 라이브러리입니다.
구조화된 데이터
데이터프레임은 행과 열로 구성된 2차원 테이블 형태의 데이터 구조입니다.
각 열은 특정 데이터 유형을 나타내며, 각 행은 해당 열에 대한 값들을 포함합니다.
유연한 데이터 조작
판다스는 데이터프레임을 다루기 위한 다양한 함수와 메서드를 제공합니다.
이를 사용하여 데이터를 선택, 필터링, 정렬, 그룹화, 변환, 합치기 등 다양한 조작을 할 수 있습니다.
누락된 데이터 처리
판다스는 누락된 데이터(결측치)를 쉽게 처리할 수 있는 기능을 제공합니다.
이를 통해 데이터의 일관성을 유지하면서 분석을 수행할 수 있습니다.
데이터 인덱싱과 슬라이싱
데이터프레임은 각 열과 행에 고유한 라벨을 가지며, 이를 활용하여 데이터를 선택하고 조작할 수 있습니다.
라벨, 인덱스, 불리언 인덱싱, 위치 인덱싱 등 다양한 방법으로 데이터에 접근할 수 있습니다.
데이터 입출력
판다스는 다양한 데이터 소스와의 상호작용을 지원합니다.
CSV, Excel, SQL 데이터베이스, JSON, HTML 등 다양한 형식의 데이터를 읽고 쓸 수 있습니다.
데이터 입출력에 대한 상세 내용은 아래 글을 참고하세요.
시각화
판다스는 Matplotlib과 함께 사용되어 데이터프레임을 시각화할 수 있는 기능을 제공합니다.
이를 통해 데이터의 분포, 패턴, 관계 등을 시각적으로 확인할 수 있습니다.
Pandas 데이터프레임 생성하기
간단한 예제로 데이터프레임을 구성하는 방법을 보여드리겠습니다.
아래 예제는 학생들의 이름, 나이, 성별, 성적에 관한 정보를 담고 있는 데이터프레임입니다.
import pandas as pd
# 데이터프레임을 구성할 데이터<br>data = {
'이름': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
'나이': [25, 32, 18, 47, 31],
'성별': ['여성', '남성', '남성', '남성', '여성'],
'성적': [85.5, 92.3, 78.9, 88.2, 95.1]<br>}
# 데이터프레임 생성
df = pd.DataFrame(data)
# 데이터프레임 출력
print(df)
위 예제 코드를 실행하면 다음과 같은 결과가 출력됩니다.
이름 나이 성별 성적
0 Alice 25 여성 85.5
1 Bob 32 남성 92.3
2 Charlie 18 남성 78.9
3 David 47 남성 88.2
4 Eve 31 여성 95.1
위 예제에서는 pd.DataFrame() 함수를 사용하여 데이터프레임을 생성했습니다.
데이터는 Python 사전(dictionary) 형태로 구성되어 있으며, 각 키(key)는 열(column)의 이름을 나타내고, 값(value)은 해당 열에 대한 데이터를 나타냅니다.
생성된 데이터프레임은 df 변수에 저장되며, print(df)를 사용하여 데이터프레임을 출력할 수 있습니다.
이와 같이 데이터프레임은 행과 열로 구성된 표 형식의 데이터 구조로, 다양한 유형의 데이터를 저장하고 조작할 수 있습니다.
다양한 방법으로 pandas 데이터프레임 생성하기
파일을 읽어와서 데이터프레임을 생성하는 다양한 방법을 소개해드리겠습니다.
pandas는 다양한 파일 형식을 지원하며, 이를 활용하여 데이터프레임을 생성할 수 있습니다.
주요 파일 형식으로는 CSV, Excel, JSON, SQL, HTML 등이 있습니다.
각 파일 형식에 따른 데이터프레임 생성 방법을 살펴보겠습니다.
CSV 파일
import pandas as pd
# CSV 파일 경로
csv_file = 'data.csv'
# CSV 파일로부터 데이터프레임 생성
df = pd.read_csv(csv_file)
Excel 파일
import pandas as pd
# Excel 파일 경로
excel_file = 'data.xlsx'
# Excel 파일로부터 데이터프레임 생성
df = pd.read_excel(excel_file)
JSON 파일
import pandas as pd
# JSON 파일 경로
json_file = 'data.json'
# JSON 파일로부터 데이터프레임 생성
df = pd.read_json(json_file)
SQL 데이터베이스
import pandas as pd
import sqlite3
# SQLite 데이터베이스 연결
conn = sqlite3.connect('database.db')
# SQL 쿼리 실행하여 데이터프레임 생성
query = 'SELECT * FROM table_name'
df = pd.read_sql(query, conn)
HTML 웹 페이지
import pandas as pd
# HTML 웹 페이지 URL
url = 'https://www.example.com/data.html'
# HTML 웹 페이지로부터 데이터프레임 생성
df_list = pd.read_html(url)
df = df_list[0] # 원하는 테이블 선택
위 예제 코드에서 파일 경로나 URL을 적절하게 수정하여 사용하시면 됩니다.
각 파일 형식에 따라 사용되는 함수 이름이 다를 수 있으므로, 원하는 파일 형식에 맞는 pandas 함수를 사용하시면 됩니다.
또한, 필요에 따라 추가적인 인수를 설정하여 데이터를 읽어올 수 있습니다.