我們在上一篇深度學習用于動態系統建模(點擊跳轉)的文章中針對動態系統的特性與數據驅動的動機進行了論述。我們介紹了動態系統當前輸出不僅依賴于當前的輸入,還依賴于系統過去的行為(歷史輸入和歷史輸出)。我們也介紹了什么場景下使用深度學習/系統辨識來進行系統建模。本文我們主要介紹數據驅動的另一個主題:系統辨識。 為了更好地理解,我們可以設計一個簡單的線性系統[鏈接1],更具體的是一個連續時間狀態空間模型,來解釋系統辨識的適用場景:
? 我們創建一個旋轉體的狀態空間模型,包括轉動慣量J,阻尼力F和三個旋轉軸:
系統輸入 T 為驅動扭矩。輸出 y 是旋轉體的角速度向量。將系統描述成狀態空間形式:變成
對應的狀態空間矩陣為:
J = [8 -3 -3; -3 8 -3; -3 -3 8];
F = 0.2*eye(3);
A = -JF;
B = inv(J);
C = eye(3);
D = 0;
sys_mimo = ss(A,B,C,D);
?我們隨機生成控制輸入向量u的時間序列,作用于這個系統上,得到系統的輸出y。[鏈接2]
(滑動窗口查看完整代碼)
% 構建隨機步長的二值三維序列,N采樣數,Nu是控制量的維度
u = idinput([N,Nu],'prbs',frequency,Range);
for i = 1:Nu
% 為二值序列隨機賦值,得到不同幅值的序列
idx = find(diff(u(:,i))) + 1;
idx = [1;idx];
for j = 1:length(idx) - 1
u(idx(j):idx(j+1)-1,i) = randn*u(idx(j));
end
end
t = (1:N)*dt;
% 將控制輸入序列u作用系統上得到系統輸出
[y,t] = lsim(sys_mimo,u,t);
輸入 u=[u1 u2 u3] 應三個維度的扭矩輸入,輸出對應 y=[y1 y2 y3] 三個維度的。如下:我們現在有系統的輸入 u,也有系統的輸出 y,這不就是數據科學的菜嗎,即使不知道系統模型,是不是也能“擬合”出來 y 和 u 的一個機器學習代理模型 (surrogate model)?我們工程中碰到的動態系統通常也是可以獲取系統輸入和輸出,當然比這個線性系統復雜多了,那能不能也用這種思路得到 y 和 u 的數據模型?接下來,是不是我們只需要把 y 和 u 作為輸出(真值)和輸入(特征)給到機器學習/深度學習算法,我們就能得到這樣一個動態系統的數據模型呢?并非那么簡單。原因我們上一篇文章也解釋過,動態系統的特殊性,狀態在時間維度上是有依賴的,并非某時刻有相同的控制輸入就有相同的狀態輸出,輸出也取決于當前系統的狀態。我們不妨就用剛才的數據 y 的第一個維度 y1 和 u,直接用幾種靜態機器學習算法對比動態系統辨識算法來說明這種現象:a)使用高斯過程回歸進行建模[鏈接3]
% 訓練回歸模型
regressionGP = fitrgp(...
predictors,...
response,...
'BasisFunction','constant',...
'KernelFunction','rationalquadratic',...
'Standardize',true);
圖表 1高斯過程回歸RMSE(Validation):0.7953a) 梯度提升集成回歸[鏈接4]% 訓練回歸模型
template = templateTree(...
'MinLeafSize',11, ...
'NumVariablesToSample',3);
regressionEnsemble = fitrensemble(...
predictors, ...
response, ...
'Method','LSBoost', ...
'NumLearningCycles',465, ...
'Learners', template,...
'LearnRate',0.2277131533235215);
圖表 2 梯度提升集成RMSE(Validation):0.5279從上面的高斯過程和梯度提升樹表現結果來看,雖然可以捕捉一些系統的特性,尤其梯度提升算法在精度上比高斯過程也有一定的提升,但誤差還是較大,系統瞬態特征被“平均”了。上述方式訓練的機器學習靜態模型,在某瞬時只要輸入 u 是相同的,那么輸出 y 也是相同的,這與我們提到的動態系統當前時刻的輸出不止取決于輸入,還依賴于當前系統狀態(換句話說即使在某個時刻相同的輸入,系統也可以有不同的輸出)的特性是不相符合的。當然,可以通過一些特征衍生(例如不同尺度滑窗作用在輸入序列上生成新的特征等)的手段得到能夠反映狀態變化的多尺度特征用于模型訓練,這樣的方式也使一些統計方法或機器學習模型或前饋神經網絡等靜態模型可以用于動態系統建模(上篇文章我們也介紹了電池、電機的使用示例)。b) 如果我們換個思路(系統辨識),假使我們提前已經清楚這個系統可以用一個狀態空間模型表達,我們直接用動態模型來“擬合”這個動態系統,我們看看效果:nx = 3;sys = ssest(result,nx,'Ts',dt); % 進行狀態空間模型系統辨識compare(result,sys) % 查看訓練結果其實不必看結果我們也已經估摸到結果可以達到100% 的準確度,如下圖。當然這個例子并非嚴謹,我們只看了訓練過程,也沒有準備測試數據,數據本身也沒有噪聲,但對于說明系統辨識的應用場景還是比較直觀的。系統辨識利用測量得到的系統輸入和輸出信號來給那些不容易通過第一原理建模的動態系統構建數學模型。可以通過采集系統的輸入 - 輸出的時域和頻域數據來辨識連續時間或離散時間模型: 包括線性系統辨識,例如傳遞函數,過程模型,狀態空間模型,以及非線性系統動態特性辨識,Hammerstein-Weiner 模型和 NARX(帶外部輸入的非線性自回歸,包含小波網絡,樹分類,sigmoid 網絡等)模型。另外,如果我們對系統結構比較熟悉,也可以利用已有的理論定義含參的模型框架(微分方程),然后通過 Grey-Box 進行模型參數辨識。辨識計算的過程就是模型參數迭代的過程(類似優化算法),方法包括最大似然、預測誤差最小化 (PEM) 和子空間系統辨識。最后可以使用辨識好的模型進行響應預測與系統仿真。總結下來整個流程即:接下來我們通過 MATLAB 自帶文檔示例([鏈接5],示例中提到了數據來源和參考文獻[1],Dr. Jiandong Wang 和 Dr. Akira Sano)來介紹上述提到的不同的模型。也鼓勵大家多多查閱幫助文檔。通過該示例,我們展示如何使用阻尼器的速度和阻尼力的測量數據來對系統創建線性、非線性 ARX 和 Hammerstein-Wiener 模型。
示例背景介紹和數據準備
磁流變阻尼器是一種半主動控制裝置,用于降低動態結構的振動。磁流變液的粘度取決于輸入電壓/電流,因此可提供可控的阻尼力。為了研究這個系統的動態性能,將磁流變阻尼器一端固定在地面上,另一端連接到振動臺。每 0.005s 采樣一次阻尼力 f(t)。每 0.001s 采樣一次位移,用于在 0.005s 的采樣周期內估計速度 v(t)。系統單輸入單輸出。輸入 v(t)為阻尼器的速度 [cm/s],輸出為阻尼力 [N]。% F, V, Ts是load mrdamper.mat后加載的數據,將 F (output force), V (input% velocity) 和 Ts (sample time)封裝到iddata對象中.z = iddata(F, V, Ts,'Name', 'MR damper', ... 'InputName', 'v', 'OutputName', 'f',... 'InputUnit', 'cm/s', 'OutputUnit', 'N'); 將這個數據集 z 分成兩個子集,前 2000 個樣本 (ze) 用于估計/訓練,其余的 (zv) 用于驗證結果。幾種線性系統模型
首先嘗試從簡單的線性模型開始。如果線性模型不能提供令人滿意的結果,那它也可以作為探索非線性模型的初值。ARX(Autoregressive with Extra Input) 模型ARX模型全稱帶外部輸入的自回歸(Autoregressive with Extra Input)。模型結構方程:模型中 y(t) 是系統 t 時刻的輸出,自回歸是指模型中含有 y 自身的項 y(t-1)···y(t-na),na 對應系統極點的個數,也就是 y(t) 和自身的 na 階有依賴,外部輸入項 u(t-nk)+···+(t-nb-nk+1)是對 y(t)產生影響的歷史輸入。其中 nk 是系統的延遲數,也就是 u(t)···u(t-nk+1) 這些項因為系統延遲還不會對 y(t)產生影響,因此這些項不存在模型中。nb 是系統的零點個數,也就是輸入有 nb 階影響輸出。e(t) 是白噪音。模型一種更簡潔的寫法:
其中,q是單位延遲算子, ?我們首先利用 ARX 模型來進行模型階數推薦。階數的定義取決于模型的類型。通常模型最優階數是通過試錯得到的。但是線性 ARX 模型的階數可以通過 arxstruc 和 selstruc 等函數自動計算出來。由此得到的階數也可以作為非線性模型嘗試使用的階數。我們先試著確定線性 ARX 模型的最優階數。V = arxstruc(ze,zv,struc(1:5, 1:5,1:5));% 嘗試讓na, nb, nk在[1:5]取值Order = selstruc(V,'aic') % 根據Akaike's Information Criterion 選擇階數Order =2 4 1AIC 準則選擇 Order = [na nb nk]=[2 4 1],即在選擇的 ARX 模型結構中,阻尼力 f(t) 使用 f(t-1)、f(t-2)、v(t-1)、v(t-2)、v(t-3)和v(t-4) 6 個回歸量 (regressor) 進行預測。我們先按前面 selstruc 推薦的階數對應的 ARX 模型進行估計:LinMod1 = arx(ze, [2 4 1]);% ARX 模型 Ay = Bu + e, 形式同上面方程(4)OE 模型
這里先簡單介紹一下OE模型,它和傳遞函數相同,用多項式的比描述系統的輸入和輸出之間的關系。
模型階數等于分母多項式的階數。分母多項式的根稱為模型極點。分子多項式的根稱為模型零點。傳遞函數模型的參數是它的極點(階數 nf)、零點(階數 nb)和傳輸延遲(階數 nk)。離散時間模型形式為:
對應的階數:
連續時間 OE 或傳遞函數模型形式為:
式中,Y(s)、U(s)、E(s) 分別表示輸出、輸入、噪聲的拉普拉斯變換。num(s)和 den(s)表示分子和分母多項式,定義了輸入和輸出之間的關系。
同樣我們用上面推薦的階數進行輸出誤差模型(OE)估計。LinMod2 = oe(ze, [4 2 1]); % OE 模型 y = B/F u + e,形式同方程(5)狀態空間模型
狀態空間模型用一組狀態變量的一階微分(連續時間)或差分(離散時間)方程來描述系統,而不是用一個或多個 n 階微分或差分方程來描述系統。狀態變量 x(t) 可以從測量的輸入-輸出數據中抽象出來的,但在實驗中它們本身不存在或不可測量的。狀態方程模型只需要你指定一個輸入,即這個模型階數 n。模型階數等于 x(t) 的維數,它和對應的線性差分方程中輸入輸出的延遲數相關,但不一定相等。定義參數化狀態空間模型時,連續時間形式通常比離散時間形式容易,因為連續時間就跟你寫物理常微分方程類似。連續時間狀態空間模型有如下形式:矩陣 F、G、H 和 D 具有一定的物理意義,例如和材料有關。K 包含擾動矩陣。X0 代表初始狀態。可以使用時域和頻域數據來估計連續時間狀態空間模型。離散時間形式我們就不寫了,連續時間頻域數據不能用于估計離散時間狀態空間模型。回到問題本身,我們可以創建一個線性狀態空間模型,其階數(=狀態數)將自動確定:LinMod3 = ssest(ze);% 創建一個 3 階狀態空間模型 state-space model我們可以看一下這三個模型訓練集和驗證集上效果比較:
從驗證集的結果看最好的模型擬合有 51% 的擬合度(擬合度即 NRMSE值,100(1-),其中y是真實值,?是模型預測值)。幾種非線性系統模型非線性 ARX 模型
前面的嘗試看上去線性模型精度還有待提高,我們嘗試用 Nonlinear ARX (IDNLARX)模型。我們也可以用 advice 函數來查看系統的輸入輸出數據的非線性程度。
advice(ze, 'nonlinearity') % 查看系統的非線性建議There is an indication of nonlinearity in the data.A nonlinear ARX model of order [4 4 1] and idTreePartition function performs better prediction of output than the corresponding ARX model of the same order. Consider using nonlinear models, such as IDNLARX, or IDNLHW. You may also use the "isnlarx" command to test for nonlinearity with more options.非線性ARX模型對 ARX 做了一些擴展。它在結構中添加了非線性函數,如小波和 sigmoid 網絡,可以模擬復雜的非線性行為。對比線性 ARX 模型,見方程 (3),我們重新組織一下方程 (3),把當前輸出 y(t)寫成過去輸出 + 當前輸入 + 過去輸入之前權重和的形式, 我們把延遲數 nk 先設置成 0,噪聲也不考慮,模型結構簡化為:u(t),y(t),e(t)分別是輸入,輸出和噪聲。y(t-1),y(t-2),···,y(t-na),u(t),u(t-1),···,u(t-nb-1) 是歷史輸出和延遲的輸入,他們看作 y(t) 的回歸量 (regressors,類似機器學習中的特征量,predictors)。系數矩陣 -a1,···bnb是作用在這些回歸量上的權重。線性 ARX 的輸出 y(t) 是這些回歸量的線性權重加和。對比線性 ARX,非線性 ARX 模型:
- 與方程 (6)不同處在于輸出 y(t)與回歸量之間的關系不是線性映射,而是一個非線性的映射 F。
F可以選擇不同的非線性函數,如小波網絡,多層前饋神經網絡,樹分類。
- F 的輸入也就是模型的回歸量 (regressors),這些回歸量對于線性 ARX 來說都是原始輸入和輸出的一些延遲項,非線性 ARX 則可以更復雜,可以是各種輸入輸出的非線性組合,例如:y(t-1)2,y(t-2)*u(t-1),abs(u(t-1)),max(y(t-3)*u(t-1),-10)。
式中 x 對應著回歸量(regressor)向量,r 是 x 的均值。LT(x-r)輸出函數的線性部分,g(Q(x-r))代表函數的非線性部分,Q 是一個投影矩。d 是一個補償偏置。F(x) 可以是任意非線性函數(小波網絡,多層感知機網絡,樹分類網絡),當使用數據進行模型辨識時,主要是通過迭代優化來估計模型的參數值,例如 L,r,d,Q 以及網絡 g 中的參數。接下來我們回到示例本身,嘗試創建非線性 ARX 模型,按我們上面提到的兩個步驟,我們首先來創建回歸量 (regressor)。簡化起見,我們主要使用 linearRegressor 來創建線性回歸量,可以通過階數矩陣 [na nb nk] 來方便創建,至于多階多項式回歸量(可以使用 polynomialRegressor 創建)或者自定義回歸量(可以試用 customRegressor 來創建)我們暫不探索。本示例我們主要通過探索不同的模型階數(上面介紹的階數矩陣 [na nb nk])和不同的非線性映射函數(小波、sigmoid 網絡、樹分類等等)。
-
估計一個默認的非線性 ARX 模型
Options = nlarxOptions('SearchMethod','lm');% 使用
LevenbergMarquardt作為估計算法
Options.SearchOptions.MaxIterations = 50;
Narx1 = nlarx(ze, [2 4 1], idSigmoidNetwork,Options)% 模型階數設置為 [2 4 1],映射函數選擇 sigmoid 網絡,這個網絡用了一個 sigmoid 函數和一個回歸量的線性權重和來計算輸出,nlarx 函數用來估計非線性 ARX 模型
disp(Narx1.OutputFcn)
Sigmoid NetworkInputs: f(t-1), f(t-2), v(t-1), v(t-2), v(t-3), v(t-4)Output: fNonlinear Function: Sigmoid network with 10 unitsLinear Function: initialized to [48.3 -3.38 -3.34 -2.7 -1.38 2.15]Output Offset: initialized to -18.9因為階數[na nb nk] = [2 4 1],所以模型回歸量包含 f(t-1),f(t-2),v(t-1),v(t-2),v(t-3),v(t-4)。此處 f 代表輸出,v 代表輸入。分別在訓練集 ze 和驗證集 zv 上進行模型準確度驗證。通過結果可以看到,同樣的階數情況下,非線性 ARX 比線性模型的結果還是有提升。我們有很多可以嘗試的方向來測試不同的模型參數。
-
嘗試不同的模型階數
-
嘗試修改 Sigmoid 網絡函數的隱含單元數
-
特征選擇:給非線性映射函數選擇回歸量子集
-
嘗試不同的非線性映射函數
-
分析估計出來的 IDNLARX 模型得到直觀解釋
其中,j = 1,2,……,ny和I = 1,2,…,nu 。h 是一個非線性函數,它將 x(t) 的輸出映射到(靜態變換)系統輸出 y(t),即 y(t) = h (x(t))。我們使用和最開始 OE 模型 LinMod2 相同的階數 (nb = 4, nf = 2, nk = 1) 來估計一個 IDNLHW(Hammerstein-Wiener) 模型。使用 sigmoid 網絡作為 HW 模型非線性輸入和輸出。nlhw函數和其他估計函數(如 oe, nlarx 等函數)一樣。Opt = nlhwOptions('SearchMethod','lm');UNL = idSigmoidNetwork;YNL = idSigmoidNetwork;Nhw1 = nlhw(ze, [4 2 1], UNL, YNL, Opt)Nhw1 =Hammerstein-Wiener modelwith 1 output and 1 inputLinear transfer function corresponding to the orders nb = 4, nf = 2, nk = 1Input nonlinearity: Sigmoid network with 10 units Output nonlinearity: Sigmoid network with 10 unitsSample time: 0.005 secondsnhw1 模型在驗證數據上有約 70% 的擬合度。
-
分析估計的 IDNLHW 模型
Conclusions 總結
我們探索了各種非線性模型來表達輸入電壓和輸出阻尼力之間的動態關系。結果表明,在非線性 ARX 模型中,Narx2{6} 和 Narx5 表現最好,而在 Hammerstein-Wiener 模型中,Nhw1 表現最好。非線性ARX模型最好的描述了 MR 阻尼器的動態特性 (擬合度最好)。通過示例我們看到每種模型類型都有多個可用調項。例如對于非線性 ARX 模型,我們不僅可以指定模型的階數和非線性函數的類型,還可以修改和設置回歸量以及調整對應函數的屬性。對于 Hammerstein-Wiener 模型,我們可以選擇輸入輸出非線性函數的類型,以及線性傳函的階數。因此使用數據辨識模型可以在對模型結構或動力學缺乏明確原理的情況下,嘗試各種選項,并分析它們對結果模型質量的影響。當然這個示例本身是單輸入單輸出(SISO,Single Input Single Output)的系統, 對于多輸入多輸出(MIMO, Multi-Input Multi-Output)的系統上述大部分模型也都支持。具體的MIMO也可以查看文檔中更多的示例[鏈接6]。附言:
系統辨識還有很多內容文中示例沒有涉及,例如Grey-Box 模型估計,在線估計。附言中簡單介紹一下,也歡迎查閱相關詳細鏈接。
Grey-Box 模型
對于 Grey-Box 模型估計[鏈接7],總體思想是說你已經有了系統的微分/差分方程(線性,非線性)、狀態空間方程等等,但方程的系數是未知的,可以使用數據進行方程系數的估計。這種估計的難點通產是構建這個含參數的線性或非線性的系統方程。可以參考示例:包括車輛模型、電機模型、飛行器模型等等。
在線估計
在線估計[鏈接8]顧名思義就是說在物理系統(被控對象)運行過程中,利用實時流數據不斷地對模型的參數和狀態進行估計。- 針對在線參數估計,主要使用迭代算法,利用當前的實時測量數據和歷史的參數估計值來估計當前模型(文章前面提到的模型)的參數值,算法迭代效率比較高,也可以支持嵌入式。
- 針對在線狀態估計,主要包含幾種狀態估計器,Kalman Filter(線性系統),Extended Kalman Filter(可線性化的非線性系統),Unscented Kalman Filter(非線性系統), Particle Filter (類似 UKF)等。
原文標題:數據驅動的動態系統(Dynamical System)建模(二):系統辨識
文章出處:【微信公眾號:MATLAB】歡迎添加關注!文章轉載請注明出處。
-
數據驅動
+關注
關注
0文章
124瀏覽量
12319 -
系統辨識
+關注
關注
0文章
11瀏覽量
7279 -
動態系統
+關注
關注
0文章
3瀏覽量
5234
原文標題:數據驅動的動態系統(Dynamical System)建模(二):系統辨識
文章出處:【微信號:MATLAB,微信公眾號:MATLAB】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論