# `Pandas` - 3
<div>
<img src='https://pandas.pydata.org/static/img/pandas.svg' width='400'/>
</div>

-----------------
主讲人：李显祥

大气科学学院

In [1]:
import pandas as pd
import numpy as np

## 7. 时间序列

### 7.1 `Python` 时间相关模块

时间是一个很重要的物理量。`Python` 中提供了多个关于时间的模块。

- `time`

- `datetime`

- `calendar`

- ...

#### `time` 模块

- `time` 模块是 `Python` 标准库的一部分，它提供了对 Unix 的时间戳（timestamp）的封装，是操作系统平台相关的。

- 时间戳是从协调世界时（UTC, Universal Time Coordinated）1970年1月1日0时0分0秒开始到现在的总秒数，不考虑闰秒。只能表示1970-2038年。

- 该模块主要包括一个类 `struct_time`，另外其他几个函数及相关常量。

- `struct_time` 形式为 `(tm_year, tm_mon, tm_mday, tm_hour, tm_min, tm_sec, tm_wday, tm_yday, tm_isdst1)`

In [2]:
import time

In [3]:
time.time()   #返回的是时间戳

1607069947.557355

In [4]:
time.ctime()  #返回字符串形式的时间，可以传入时间戳格式时间，用来做转化

'Fri Dec  4 16:19:07 2020'

In [5]:
time.localtime()  #返回当前时间的struct_time形式，可传入时间戳格式时间，用来做转化

time.struct_time(tm_year=2020, tm_mon=12, tm_mday=4, tm_hour=16, tm_min=19, tm_sec=7, tm_wday=4, tm_yday=339, tm_isdst=0)

In [6]:
time.gmtime()  #返回当前时间的 struct_time 形式，对应 UTC时区(0时区， GMT+0) ，可传入时间戳格式时间，用来做转化

time.struct_time(tm_year=2020, tm_mon=12, tm_mday=4, tm_hour=8, tm_min=19, tm_sec=7, tm_wday=4, tm_yday=339, tm_isdst=0)

时间格式的相互转化

- `time.mktime()` 将一个以 `struct_time` 格式转换为时间戳

In [7]:
time.mktime(time.localtime())

1607069947.0

- `time.strftime(format[,t])` 把一个 `struct_time` 时间转化为格式化的时间字符串。如果 `t` 未指定，将传入 `time.localtime()`。

In [8]:
time.strftime("%a %Y-%m-%d %H:%M:%S", time.localtime())

'Fri 2020-12-04 16:19:07'

时间转换的 `format` 参数：

- %c 本地相应的日期和时间表示
- %x 本地相应日期
- %X 本地相应时间
- %y 去掉世纪的年份（00 – 99）
- **%Y 完整的年份**
- **%m 月份（01 – 12）**
- %b 本地简化月份名称
- %B 本地完整月份名称
- **%d 一个月中的第几天（01 – 31）**
- **%j 一年中的第几天（001 – 366）**
- %U 一年中的星期数。（00 – 53，星期天是一个星期的开始）第一个星期天之前的所有天数都放在第0周。
- %W 和 %U 基本相同，不同的是 %W 以星期一为一个星期的开始。
- %w 一个星期中的第几天（0 – 6，0是星期天）
- %a 本地（locale）简化星期名称
- %A 本地完整星期名称
- **%H 一天中的第几个小时（24小时制，00 – 23）**
- %I 第几个小时（12小时制，01 – 12）
- %p 本地 am 或者 pm 的相应符，“%p” 只有与 “%I” 配合使用才有效果。
- **%M 分钟数（00 – 59）**
- **%S 秒（01 – 61），文档中强调确实是0 – 61，而不是59，闰秒占两秒**
- %Z 时区的名字（如果不存在为空字符）
- %% ‘%’字符

- `time.strptime(string[,format])` 把一个格式化时间字符串转化为 `struct_time`，是 `strftime()` 的逆操作。

In [9]:
time.strptime('20201203T162000','%Y%m%dT%H%M%S')

time.struct_time(tm_year=2020, tm_mon=12, tm_mday=3, tm_hour=16, tm_min=20, tm_sec=0, tm_wday=3, tm_yday=338, tm_isdst=-1)

计时器功能

- `time.sleep(secs)`: 线程推迟指定的时间运行，单位为秒。
    
- `time.clock()`: 在不同的系统上含义不同。
    - 在 UNIX 系统上，它返回的是“进程时间”，它是用秒表示的浮点数（时间戳）。
    - 在 WINDOWS 中，第一次调用，返回的是进程运行的实际时间。而第二次之后的调用是自第一次调用以后到现在的运行时间。

-  因此，从 Python 3.3 开始，time.clock 就不建议使用了，并且在 Python 3.8 里删除了；建议使用 `time.perf_counter` 
或者`time.process_time`。
-  两者返回值都以秒为单位，需要连续两次调用用来获得一个操作所消耗的时间。区别是 `time.perf_counter` 
包括 `time.sleep` 的时间，而 `time.process_time` 则不包括。

In [10]:
time.sleep(1)
print("clock1: %s" % time.clock())
time.sleep(1)
print("clock2: %s" % time.clock())
print("clock2_perf: %s" % time.perf_counter())
print("clock2_process: %s" % time.process_time())
time.sleep(1)
print("clock3_perf: %s" % time.perf_counter())
print("clock3_process: %s" % time.process_time())

  


clock1: 0.909534


  after removing the cwd from sys.path.


clock2: 0.911514
clock2_perf: 3.247228194
clock2_process: 0.911712
clock3_perf: 4.247562468
clock3_process: 0.913932


#### `datetime` 模块

- `datetime` 模块是 `time` 模块的高级包装，提供了更多实用的函数。

- `Pandas` 的时间相关功能基本上来自 `datetime` 模块

- `datetime` 模块定义了下面这几个类：

  - `date`：表示日期的类。常用的属性有 `year`, `month`, `day`
  - `time`：表示时间的类。常用的属性有 `hour`, `minute`, `second`, `microsecond`
  - `datetime`：表示日期时间
  - `timedelta`：表示时间间隔，即两个时间点之间的长度
  - `tzinfo`：与时区有关的相关信息
  
注：上面这些类型的对象都是不可变（immutable）的。

In [11]:
import datetime as dt
dt.date.today(), dt.date(2020,12,1).year, dt.date(2020,12,1).month, dt.date(2020,12,1).day

(datetime.date(2020, 12, 4), 2020, 12, 1)

In [12]:
dt.date(2020,12,1).weekday(), dt.date(2020,12,1).isoweekday()

(1, 2)

In [13]:
day1 = dt.date(2020,12,1)
day2 = dt.date.today()
day1 > day2

False

In [14]:
dt.datetime.today() #datetime.datetime(year, month, day[, hour[, minute[, second[, microsecond[, tzinfo]]]]])

datetime.datetime(2020, 12, 4, 16, 19, 10, 645095)

In [15]:
dt.datetime.utcnow()

datetime.datetime(2020, 12, 4, 8, 19, 10, 649922)

In [16]:
day2 - day1

datetime.timedelta(days=3)

`timedelta` 类

`class datetime.timedelta([days[, seconds[, microseconds[, milliseconds[, minutes[, hours[, weeks]]]]]]])`

In [17]:
dt.timedelta(10)

datetime.timedelta(days=10)

In [18]:
dt.date.today() + dt.timedelta(days=30)

datetime.date(2021, 1, 3)

In [19]:
dt.datetime.now() + dt.timedelta(hours=100)

datetime.datetime(2020, 12, 8, 20, 19, 10, 668980)

### 7.2 `Pandas` 时间相关功能

### 7.2.1 时序的创建
####  四类时间变量

名称 | 描述 | 元素类型 | 创建方式  
:-|:-|:-|:-
① Date times（时间点/时刻） | 描述特定日期或时间点 | Timestamp | `to_datetime` 或 `date_range`
② Time spans（时间段/时期） | 由时间点定义的一段时期 | Period | `Period` 或 `period_range`
③ Date offsets（相对时间差） | 一段时间的相对大小（与夏/冬令时无关） | DateOffset | `DateOffset`
④ Time deltas（绝对时间差） | 一段时间的绝对大小（与夏/冬令时有关） | Timedelta | `to_timedelta` 或 `timedelta_range`

我们重点讲 ① 和 ②，③ 和 ④ 有些令人困惑，留给感兴趣的同学自学。

#### 时间点的创建

- `to_datetime` 方法

Pandas在时间点建立的输入格式规定上给了很大的自由度

In [20]:
pd.to_datetime('2020.1.1')
pd.to_datetime('2020 1.1')
pd.to_datetime('2020 1 1')
pd.to_datetime('2020 1-1')
pd.to_datetime('2020-1 1')
pd.to_datetime('2020-1-1')
pd.to_datetime('2020/1/1')
pd.to_datetime('1.1.2020')
pd.to_datetime('1.1 2020')
pd.to_datetime('1 1 2020')
pd.to_datetime('1 1-2020')
pd.to_datetime('1-1 2020')
pd.to_datetime('1-1-2020')
pd.to_datetime('1/1/2020')
pd.to_datetime('20200101')
pd.to_datetime('2020.0101')

Timestamp('2020-01-01 00:00:00')

下面的语句都会报错

In [21]:
#pd.to_datetime('2020\\1\\1')
#pd.to_datetime('2020`1`1')
#pd.to_datetime('2020.1 1')
#pd.to_datetime('1 1.2020')

此时可利用`format`参数来指导匹配

In [22]:
pd.to_datetime('2020\\1\\1',format='%Y\\%m\\%d')
pd.to_datetime('2020`1`1',format='%Y`%m`%d')
pd.to_datetime('2020.1 1',format='%Y.%m %d')
pd.to_datetime('1 1.2020',format='%d %m.%Y')

Timestamp('2020-01-01 00:00:00')

`Pandas` 自动推断时间格式的能力很强

In [23]:
pd.to_datetime('20200101T120000')    # 这个时间格式 time.strptime 无法自动识别 

Timestamp('2020-01-01 12:00:00')

`to_datetime` 可以将列表转为时间点索引

In [24]:
pd.Series(range(2),index=pd.to_datetime(['2020/12/1','2020/12/2']))

2020-12-01    0
2020-12-02    1
dtype: int64

In [25]:
type(pd.to_datetime(['2020/12/1','2020/12/2']))

pandas.core.indexes.datetimes.DatetimeIndex

如果 `DataFrame` 的列已经按照时间顺序排好，则利用 `to_datetime` 可自动转换

In [26]:
df = pd.DataFrame({'year': [2020, 2020],'month': [1, 1], 'day': [1, 2]})
pd.to_datetime(df)

0   2020-01-01
1   2020-01-02
dtype: datetime64[ns]

- `date_range` 方法: 生成一个时间段

一般来说，`start`/`end`/`periods`（时间点个数）/`freq`（间隔方法）是该方法最重要的参数，给定了其中的 3 个，剩下的一个就会被确定.

In [27]:
pd.date_range(start='2020/12/1',end='2020/12/10',periods=3)

DatetimeIndex(['2020-12-01 00:00:00', '2020-12-05 12:00:00',
               '2020-12-10 00:00:00'],
              dtype='datetime64[ns]', freq=None)

In [28]:
pd.date_range(start='2020/12/1',end='2020/12/10',freq='D')

DatetimeIndex(['2020-12-01', '2020-12-02', '2020-12-03', '2020-12-04',
               '2020-12-05', '2020-12-06', '2020-12-07', '2020-12-08',
               '2020-12-09', '2020-12-10'],
              dtype='datetime64[ns]', freq='D')

In [29]:
pd.date_range(start='2020/12/1',periods=3,freq='D')

DatetimeIndex(['2020-12-01', '2020-12-02', '2020-12-03'], dtype='datetime64[ns]', freq='D')

In [30]:
pd.date_range(end='2020/12/3',periods=3,freq='D')

DatetimeIndex(['2020-12-01', '2020-12-02', '2020-12-03'], dtype='datetime64[ns]', freq='D')

其中 `freq` 参数有许多选项，下面将常用部分罗列如下，更多选项可参考 https://pandas.pydata.org/docs/user_guide/timeseries.html#offset-aliases

符号 | D/B | W | M/Q/Y | BM/BQ/BY | MS/QS/YS | BMS/BQS/BYS | H | T | S
:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:
描述 | 日/工作日 | 周 | 月/季/年末日 | 月/季/年末工作日 | 月/季/年初日 | 月/季/年初工作日 | 小时 | 分钟 | 秒

In [31]:
pd.date_range(start='2020/12/1',periods=3,freq='T')

DatetimeIndex(['2020-12-01 00:00:00', '2020-12-01 00:01:00',
               '2020-12-01 00:02:00'],
              dtype='datetime64[ns]', freq='T')

In [32]:
pd.date_range(start='2020/12/1',periods=3,freq='BYS')

DatetimeIndex(['2021-01-01', '2022-01-03', '2023-01-02'], dtype='datetime64[ns]', freq='BAS-JAN')

In [33]:
pd.date_range(start='2020/12/1',periods=4,freq='QS-DEC') # 以 12 月至次年 2 月为冬季

DatetimeIndex(['2020-12-01', '2021-03-01', '2021-06-01', '2021-09-01'], dtype='datetime64[ns]', freq='QS-DEC')

### 7.2.2 时序的索引及属性

- 索引切片

时间序列的索引规则基本和前面讲过的规则一致

In [34]:
rng = pd.date_range('2020','2021', freq='W')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts.head()

2020-01-05    0.579006
2020-01-12    0.576976
2020-01-19    0.650519
2020-01-26    1.240073
2020-02-02   -0.075282
Freq: W-SUN, dtype: float64

In [35]:
ts['2020-12-06']

0.232193878494604

合法的字符串会自动转换为时间点

In [36]:
ts['2020-12-20':'20201227']

2020-12-20    0.016541
2020-12-27    0.662643
Freq: W-SUN, dtype: float64

- 子集索引

我们可以直接索引一个月、一年的数据

In [37]:
ts['2020-12']

2020-12-06    0.232194
2020-12-13    1.484445
2020-12-20    0.016541
2020-12-27    0.662643
Freq: W-SUN, dtype: float64

In [38]:
ts['2020-01':'2020-03'].tail()

2020-03-01   -1.583350
2020-03-08   -0.438848
2020-03-15   -1.180489
2020-03-22   -0.617260
2020-03-29   -0.590880
Freq: W-SUN, dtype: float64

`Pandas` 也支持混合式索引

In [39]:
ts['2011-11':'20201207'].head()

2020-01-05    0.579006
2020-01-12    0.576976
2020-01-19    0.650519
2020-01-26    1.240073
2020-02-02   -0.075282
Freq: W-SUN, dtype: float64

- 时间点的属性

时间序列有一个 `dt` 属性，可以轻松获得关于时间的信息

In [40]:
pd.Series(ts.index).dt.isocalendar().week.head()

0    1
1    2
2    3
3    4
4    5
Name: week, dtype: UInt32

In [41]:
pd.Series(ts.index).dt.day.head() 

0     5
1    12
2    19
3    26
4     2
dtype: int64

In [42]:
pd.Series(ts.index).dt.dayofyear.head()

0     5
1    12
2    19
3    26
4    33
dtype: int64

利用 `strftime` 可重新修改时间格式

In [43]:
pd.Series(ts.index).dt.strftime('%Y 年 %m 月 %d 日').head()

0    2020 年 01 月 05 日
1    2020 年 01 月 12 日
2    2020 年 01 月 19 日
3    2020 年 01 月 26 日
4    2020 年 02 月 02 日
dtype: object

对于 `datetime` 对象 (即时间序列的 `index`）可以直接通过属性获取信息

In [44]:
ts.index.month

Int64Index([ 1,  1,  1,  1,  2,  2,  2,  2,  3,  3,  3,  3,  3,  4,  4,  4,  4,
             5,  5,  5,  5,  5,  6,  6,  6,  6,  7,  7,  7,  7,  8,  8,  8,  8,
             8,  9,  9,  9,  9, 10, 10, 10, 10, 11, 11, 11, 11, 11, 12, 12, 12,
            12],
           dtype='int64')

In [45]:
pd.Int64Index(ts.index.isocalendar().week)

Int64Index([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
            18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
            35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
            52],
           dtype='int64', name='week')

利用这个属性，我们可以对数据进行更多的分组-聚合操作，比如求取多年数据的月均值：

In [46]:
monthly_rng = pd.date_range('2010','2019-12-31', freq='MS')
monthly_ts = pd.Series(np.random.randn(len(monthly_rng)), index=monthly_rng)

monthly_ts

2010-01-01   -0.660812
2010-02-01   -1.447948
2010-03-01    0.963589
2010-04-01   -0.631808
2010-05-01    1.156081
                ...   
2019-08-01   -0.415263
2019-09-01    1.621794
2019-10-01   -0.805848
2019-11-01   -0.831177
2019-12-01    0.268582
Freq: MS, Length: 120, dtype: float64

In [47]:
monthly_ts.groupby(monthly_ts.index.month).mean()

1    -0.171714
2    -0.316403
3     0.164060
4    -0.238607
5     0.516712
6    -0.269550
7    -0.137871
8    -0.210131
9    -0.108979
10   -0.580769
11   -0.255828
12   -0.028837
dtype: float64

### 7.2.3 读取文件时的时间处理

读取文件时，可以指定是否让 `pandas` 自己来尝试读取某列或某些列作为时间（`parse_dates` 参数）。

对于规范的时间格式，指定 `parse_dates = True` 即可。

否则，我们还应该指定时间所在的列 `parse_dates = [col_name]`，并提供一个 `date_parser` 参数，指定读取时间的函数。

In [48]:
from io import StringIO

f = StringIO("""
2016 06 10 20:30:00,foo
2016 07 11 19:45:30,bar
2013 10 12 4:30:00,foo
""")

pd.read_csv(f,header=None,parse_dates=True)

Unnamed: 0,0,1
0,2016 06 10 20:30:00,foo
1,2016 07 11 19:45:30,bar
2,2013 10 12 4:30:00,foo


In [49]:
f.seek(0)
date_func = lambda x: dt.datetime.strptime(x,'%Y %m %d %H:%M:%S')
pd.read_csv(f,header=None,names=['date','foobar'],parse_dates=['date'],
            date_parser=date_func)

Unnamed: 0,date,foobar
0,2016-06-10 20:30:00,foo
1,2016-07-11 19:45:30,bar
2,2013-10-12 04:30:00,foo


In [50]:
f = StringIO("""
year,month,day,hour,foobar
2016, 6, 10, 20,foo
2016, 7, 10, 23,bar
2013,10, 12, 4,foo
""")

In [51]:
parse_datetime = lambda x: dt.datetime.strptime(x,'%Y %m %d %H')

pd.read_csv(f,parse_dates={'Time':['year','month','day','hour']},
            date_parser=parse_datetime)

Unnamed: 0,Time,foobar
0,2016-06-10 20:00:00,foo
1,2016-07-10 23:00:00,bar
2,2013-10-12 04:00:00,foo


### 7.2.4 重采样和窗口

- 重采样（`resample`）函数

可以看做时间序列的 `groupby` 函数。

`resample` 的重要参数 `freq` 和上面的`date_range` 的 `freq` 参数取值一样。

In [52]:
df_r = pd.DataFrame(np.random.randn(1000, 3),index=pd.date_range('2020-12-01', freq='S', periods=1000),
                  columns=['A', 'B', 'C'])

In [53]:
r = df_r.resample('3min')
r

<pandas.core.resample.DatetimeIndexResampler object at 0x7f8bbc659ad0>

和 `groupby` 类似，我们可以看看每一个组的内容

In [54]:
for name, group in r:
    print("Group: ", name)
    print("-" * 27)
    print(group, end="\n\n")

Group:  2020-12-01 00:00:00
---------------------------
                            A         B         C
2020-12-01 00:00:00  0.763473 -0.338158 -0.722521
2020-12-01 00:00:01  0.841628  0.028710  0.708028
2020-12-01 00:00:02 -1.211087  0.633618  0.153627
2020-12-01 00:00:03 -0.775453 -1.090826 -0.235668
2020-12-01 00:00:04 -0.171009  1.566804 -0.435649
...                       ...       ...       ...
2020-12-01 00:02:55 -1.173288 -0.343769  1.140563
2020-12-01 00:02:56 -0.362325 -0.736252 -0.979299
2020-12-01 00:02:57 -0.552434  0.853930  0.443712
2020-12-01 00:02:58  0.275657  0.858310  1.488445
2020-12-01 00:02:59 -0.440487  1.050126 -0.754411

[180 rows x 3 columns]

Group:  2020-12-01 00:03:00
---------------------------
                            A         B         C
2020-12-01 00:03:00 -0.938622 -0.554250  1.212903
2020-12-01 00:03:01 -0.401425 -1.213626 -0.256982
2020-12-01 00:03:02 -0.341316 -0.289388 -1.379280
2020-12-01 00:03:03 -1.892283  0.640738 -0.556014
2020-12-01 00

之后，也可以进行聚合、转换或者过滤运算

In [55]:
r.sum()

Unnamed: 0,A,B,C
2020-12-01 00:00:00,14.379044,3.119114,-6.636201
2020-12-01 00:03:00,11.479161,-14.600112,-0.624105
2020-12-01 00:06:00,0.43975,-16.791126,11.439146
2020-12-01 00:09:00,-8.209491,13.576705,-9.535224
2020-12-01 00:12:00,-3.085955,23.117959,-15.69925
2020-12-01 00:15:00,-11.540492,3.409618,-7.612492


In [56]:
r.agg({'A': np.sum,'B': lambda x: max(x)-min(x)})

Unnamed: 0,A,B
2020-12-01 00:00:00,14.379044,5.624687
2020-12-01 00:03:00,11.479161,5.084825
2020-12-01 00:06:00,0.43975,5.322318
2020-12-01 00:09:00,-8.209491,4.536065
2020-12-01 00:12:00,-3.085955,4.454747
2020-12-01 00:15:00,-11.540492,4.512005


In [57]:
r.transform(lambda x: (x-x.mean())/x.std())

Unnamed: 0,A,B,C
2020-12-01 00:00:00,0.706147,-0.364482,-0.689811
2020-12-01 00:00:01,0.786880,0.011669,0.749412
2020-12-01 00:00:02,-1.333569,0.631886,0.191650
2020-12-01 00:00:03,-0.883561,-1.136198,-0.200006
2020-12-01 00:00:04,-0.259171,1.588687,-0.401199
...,...,...,...
2020-12-01 00:16:35,0.235311,1.179697,-0.602181
2020-12-01 00:16:36,0.062930,-0.944535,2.877144
2020-12-01 00:16:37,-0.903833,-0.331350,0.501090
2020-12-01 00:16:38,0.258905,0.367653,-1.053390


- 窗口函数

`Pandas` 中有两类主要的窗口 (window) 函数: `rolling` 和 `expanding`，这里只讲 `rolling`，`expanding` 留给大家自学。

`rolling` 方法，就是规定一个窗口（指定长度），将相邻的数据组合在一起，它和 `groupby` 对象一样，本身不会进行操作，需要配合聚合函数才能计算结果

In [58]:
s = pd.Series(np.random.randn(100),index=pd.date_range('2020-01-01', periods=100))
s.rolling(window=50)

Rolling [window=50,center=False,axis=0]

In [59]:
for grp in s.rolling(window=50):
    print("Group: ")
    print(grp)
    print("-" * 27,end="\n\n")

Group: 
2020-01-01    0.116149
Freq: D, dtype: float64
---------------------------

Group: 
2020-01-01    0.116149
2020-01-02    1.285305
Freq: D, dtype: float64
---------------------------

Group: 
2020-01-01    0.116149
2020-01-02    1.285305
2020-01-03   -0.070235
Freq: D, dtype: float64
---------------------------

Group: 
2020-01-01    0.116149
2020-01-02    1.285305
2020-01-03   -0.070235
2020-01-04   -1.123750
Freq: D, dtype: float64
---------------------------

Group: 
2020-01-01    0.116149
2020-01-02    1.285305
2020-01-03   -0.070235
2020-01-04   -1.123750
2020-01-05   -1.085226
Freq: D, dtype: float64
---------------------------

Group: 
2020-01-01    0.116149
2020-01-02    1.285305
2020-01-03   -0.070235
2020-01-04   -1.123750
2020-01-05   -1.085226
2020-01-06    1.052273
Freq: D, dtype: float64
---------------------------

Group: 
2020-01-01    0.116149
2020-01-02    1.285305
2020-01-03   -0.070235
2020-01-04   -1.123750
2020-01-05   -1.085226
2020-01-06    1.052273
2020-

`min_periods` 参数是指需要的非缺失数据点数量阈值，低于这个阈值则聚合结果为 NaN。

In [60]:
s.rolling(window=50,min_periods=3).mean().head()

2020-01-01         NaN
2020-01-02         NaN
2020-01-03    0.443740
2020-01-04    0.051867
2020-01-05   -0.175551
Freq: D, dtype: float64

In [61]:
s.rolling(window=50).mean().head()

2020-01-01   NaN
2020-01-02   NaN
2020-01-03   NaN
2020-01-04   NaN
2020-01-05   NaN
Freq: D, dtype: float64

常用聚合函数

`count` / `sum` / `mean` / `median` / `min` / `max` / `std` / `var` / `skew` / `kurt` / `quantile` / `cov` / `corr`

此外，可以使用 `apply` 函数来进行其它自定义聚合操作，需注意传入的是 `window` 大小的 `Series`，输出的必须是标量，比如如下计算变异系数

In [62]:
s.rolling(window=50,min_periods=3).apply(lambda x:x.std()/x.mean()).head()

2020-01-01          NaN
2020-01-02          NaN
2020-01-03     1.655815
2020-01-04    19.029272
2020-01-05    -5.665547
Freq: D, dtype: float64

`window` 也可以是时间单位（类似 `freq`），即按照时间长度来分组，而非按照元素个数。

In [63]:
s.rolling(window='15D').mean().head()

2020-01-01    0.116149
2020-01-02    0.700727
2020-01-03    0.443740
2020-01-04    0.051867
2020-01-05   -0.175551
Freq: D, dtype: float64

在这种情况下，分组的元素个数可以是不同的（比如时间段不连续的情况）

In [64]:
df = pd.DataFrame({'A': [0, 1, 2, np.nan, 4]},
                  index = [pd.Timestamp('20130101 09:00:00'),
                           pd.Timestamp('20130101 09:00:02'),
                           pd.Timestamp('20130101 09:00:03'),
                           pd.Timestamp('20130101 09:00:05'),
                           pd.Timestamp('20130101 09:00:06')])
df

Unnamed: 0,A
2013-01-01 09:00:00,0.0
2013-01-01 09:00:02,1.0
2013-01-01 09:00:03,2.0
2013-01-01 09:00:05,
2013-01-01 09:00:06,4.0


In [65]:
df.rolling('2s').sum()

Unnamed: 0,A
2013-01-01 09:00:00,0.0
2013-01-01 09:00:02,1.0
2013-01-01 09:00:03,3.0
2013-01-01 09:00:05,
2013-01-01 09:00:06,4.0


针对这种不规则的时间序列，我们可以用 `date_range` 来构造一个规则的时间索引，并用 `reindex` 方法来生成规则的时间序列：

In [66]:
idx = pd.date_range(start='20130101 09:00:00',end='20130101 09:00:06',freq='s')
df.reindex(idx)

Unnamed: 0,A
2013-01-01 09:00:00,0.0
2013-01-01 09:00:01,
2013-01-01 09:00:02,1.0
2013-01-01 09:00:03,2.0
2013-01-01 09:00:04,
2013-01-01 09:00:05,
2013-01-01 09:00:06,4.0


## References

1.[https://www.biaodianfu.com/python-datetime.html](https://www.biaodianfu.com/python-datetime.html)

2.[https://pandas.pydata.org/pandas-docs/stable/user_guide](https://pandas.pydata.org/pandas-docs/stable/user_guide)

3.[https://github.com/datawhalechina/joyful-pandas](https://github.com/datawhalechina/joyful-pandas/tree/master/data)

4.[https://github.com/hangsz/pandas-tutorial](https://github.com/hangsz/pandas-tutorial)