以及 c t − 1 c_{t-1}ct−1 就是t之前序列的時(shí)間信息,得益于記憶狀態(tài)c cc,ConvLSTM具有長(zhǎng)期記憶的能力, 而利用Conv來(lái)捕捉t時(shí)刻的特征與其之前狀態(tài)的一個(gè)運(yùn)動(dòng)信息,但是由于卷積時(shí)的感受野比較小,所以ConvLSTM處理大幅運(yùn)動(dòng)的能力有限,而這會(huì)導(dǎo)致錯(cuò)誤信息的不斷傳播和累積。
為了更好處理大幅運(yùn)動(dòng)的視頻,這篇工作在ConvLSTM中嵌入了可變形卷積操作,利用可變形卷積分別捕捉[ h t − 1 , F t L ] [h_{t-1},F^L_t][ht−1,FtL]和c t − 1 , F t L ] c_{t-1},F^L_t]ct−1,FtL]之間的運(yùn)行信息并實(shí)現(xiàn)時(shí)間上的對(duì)齊,得到[ h t − 1 a , c t − 1 a ] [h^a_{t-1},c^a_{t-1}][ht−1a,ct−1a] ,然后再利用ConvLSTM繼續(xù)進(jìn)行時(shí)間信息的聚集和特征融合,并向下傳播,過(guò)程的示意圖如下所示:
圖3 嵌入可變形卷積的ConvLSTM
同時(shí),為了更好利用全局的時(shí)間信息,實(shí)際上使用了雙向的可變形 ConvLSTM(Bidirectional Deformable ConvLSTM),生成融合了過(guò)去和未來(lái)信息的特征序列{ h t } t 2 n + 1 \{h_t\}^{2n+1}_t{ht}t2n+1。
2.3 幀重建模塊
幀重建模塊則是使用了一個(gè)時(shí)間共享的合成網(wǎng)絡(luò),輸入當(dāng)個(gè)時(shí)間步的隱藏狀態(tài)h t h_tht,然后輸出對(duì)應(yīng)的HR frame,具體來(lái)說(shuō)就是使用了k 2 k_2k2個(gè)殘差塊提取深度特征信息,然后通過(guò)亞像素卷積(sub-pixel)+PixelShuffle重建出HR frames { I t t } t = 1 2 n + 1 \{I^t_t\}^{2n+1}_{t=1}{Itt}t=12n+1。重建損失函數(shù)如下: l r e c = ∣ ∣ I G T t − I t H ∣ ∣ 2 + ϵ 2 l_{rec}=\sqrt {||I^GT_t-I^H_t||^2+\epsilon^2}lrec=∣∣IGTt−ItH∣∣2+ϵ2
ϵ 2 \epsilon^2ϵ2是一個(gè)經(jīng)驗(yàn)值,設(shè)置為1e-3,為了保證訓(xùn)練的穩(wěn)定性(我認(rèn)為:數(shù)值穩(wěn)定---->訓(xùn)練穩(wěn)定)