Skip to main content

常用

.describe()

返回 : 长度,平均值 标准差 百分比 最大最小值

时间处理

日期格式化

传统

import datetime
datetime.datetime.strptime("2010-10-01","%Y-%m-%d")

更好的方法

import dateutil
dateutil.parser.parse("2010-10-01")

dateutil.parser.parse("2010-JAN-01")

生成时间

pd.date_range('2020-01-01','2020-05-01')

pd.date_range('2020-01-01',periods=60)

//freq的参数 D天(默认) H 小时 W 是周 W-MON 周一 B 工作日 S秒 A年
pd.date_range('2020-01-01',periods=60,freq='H')

pd.date_range('2020-01-01',periods=60,freq='1H20min')
// 每周的数据相加
.resample('W').sum()

csv日期 转成时间格式

pd.read_csv('asd.csv',index_col='data',parse_date['data'])

  • index_col 指定那个列是索引
  • parse_date 指定那个列是时间格式,True是所有解释成时间格式的都转换为时间格式
  • header=None 不指定列名
  • names=[''] 指定列名
  • na_values 指定某些字符串表示缺失值

保存成csv第一列的头

file_path = "xxx.csv"
data.index.names =['data']
data.to_csv(file_path)
增量形式更新数据

csv中获取最后一天日期

start_date = pd.read_csv(file_root,usecols=['date'])['date'].iloc[-1])

增量追加

df.to_csv('fileName.csv',mode='a',hearder=False)

去除重复数据

df.drop_duplicates(subset=['date'],keep='last') # 针对date进行去重,保留最后一个参数