常用
.describe()
返回 : 长度,平均值 标准差 百分比 最大最小值
时间处理
日期格式化
传统
import datetime
datetime.datetime.strptime("2010-10-01","%Y-%m-%d")
更好的方法
import dateutil
dateutil.parser.parse("2010-10-01")
dateutil.parser.parse("2010-JAN-01")
生成时间
pd.date_range('2020-01-01','2020-05-01')
pd.date_range('2020-01-01',periods=60)
//freq的参数 D天(默认) H 小时 W 是周 W-MON 周一 B 工作日 S秒 A年
pd.date_range('2020-01-01',periods=60,freq='H')
pd.date_range('2020-01-01',periods=60,freq='1H20min')
// 每周的数据相加
.resample('W').sum()
csv日期 转成时间格式
pd.read_csv('asd.csv',index_col='data',parse_date['data'])
- index_col 指定那个列是索引
- parse_date 指定那个列是时间格式,True是所有解释成时间格式的都转换为时间格式
- header=None 不指定列名
- names=[''] 指定列名
- na_values 指定某些字符串表示缺失值
保存成csv第一列的头
file_path = "xxx.csv"
data.index.names =['data']
data.to_csv(file_path)
增量形式更新数据
csv中获取最后一天日期
start_date = pd.read_csv(file_root,usecols=['date'])['date'].iloc[-1])
增量追加
df.to_csv('fileName.csv',mode='a',hearder=False)
去除重复数据
df.drop_duplicates(subset=['date'],keep='last') # 针对date进行去重,保留最后一个参数