本文共 2032 字,大约阅读时间需要 6 分钟。
Series是Pandas库的核心数据结构,代表一维标记数组。它可以存储多种数据类型(如整数、浮点数、字符串等),并通过索引提供灵活的数据访问功能。
创建示例:
import pandas as pds = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
常用操作:
s['a'] 或 s[0]s.mean(), s.sum()s[s > 2]DataFrame是Pandas库中表示二维数据的核心数据结构,类似于Excel表格,支持多种数据类型和灵活的行、列操作。
创建示例:
data = { 'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35], 'City': ['New York', 'Los Angeles', 'Chicago']}df = pd.DataFrame(data) 常用操作:
df.head(), df.tail()df['Age']df.loc[0](按标签)或 df.iloc[0](按位置)Pandas支持从多种数据源读取和写入数据,包括CSV、Excel、JSON等格式。
读取示例:
df = pd.read_csv('data.csv') 写入示例:
df.to_csv('output.csv', index=False) 数据清洗是数据分析的重要环节,Pandas提供了丰富的工具来处理缺失值、去重和数据类型转换等问题。
df.dropna(inplace=True) 或 df.fillna(0, inplace=True)df.drop_duplicates(inplace=True)df['Age'] = df['Age'].astype(int)df[['Name', 'City']] 或 df.loc[1]adults = df[df['Age'] > 18]grouped = df.groupby('City').mean()agg_data = df.groupby('City').agg({'Age': ['mean', 'max'], 'Name': 'count'})Pandas对时间序列数据处理支持强大,支持日期范围创建、索引设置和频率转换等操作。
创建时间序列:
dates = pd.date_range('2023-01-01', periods=5)ts = pd.Series(range(5), index=dates) 时间索引设置:
df.set_index('Date', inplace=True) 频率转换:
ts.resample('D').sum() pd.merge(df1, df2, on='key')pd.concat([df1, df2], axis=0)通过pivot_table函数可以快速创建数据透视表。
pivot = df.pivot_table(index='City', values='Age', aggfunc='mean')
df['City'] = df['City'].astype('category')sales_df = pd.read_csv('sales_data.csv')sales_df.dropna(inplace=True)total_sales = sales_df['Sales'].sum()import matplotlib.pyplot as plt; sales_df['Sales'].hist(); plt.title('Sales Distribution'); plt.show()}Pandas是一个功能强大且灵活的数据分析库,适用于多种数据处理任务。它的高效性和易用性使得数据科学家能够快速完成数据清洗、分析和可视化工作。在商业分析、机器学习等领域,Pandas是不可或缺的工具。通过掌握Pandas的核心功能和高级功能,您可以在数据分析中高效解决问题,提升工作效率。
转载地址:http://mpvfk.baihongyu.com/