Linear Regression

Linear Regression 討論的問題在於 output 是屬於 實數空間

Linear Regression 的 Hypothesis (這僅是其中一種 H 的設計方式)

問題可以想像成是在求出一條/高維平面, 當 x 代入時可以與 愈接近。 (紅色標出的距離稱作 residuals 餘數)

這邊 Error Measure 是使用這個問題傳統上常用的 Squared 我們可以得到 in-sample How to minize ? 目標找到一個 w 使得 可以是 minimum, 此函數可以推導 (課程中未證) 是連續(continuous)、可微(differentiable)、開口向上的凸函數(convex), 而這個函數的最低點出現在梯度 = 0 (極值出現在往每個方向斜率 = 0), 此 w 稱作

做展開後 再對 w 做偏微分 (這部分的推導也需要再翻翻線性代數、向量分析的資料才行) 如果今天的 存在反矩陣, 令梯度 = 0 移項之後, 可求得 當反矩陣不存在時, 會有存在多組解, 有其他方式可以求出其 psedu-inverse (需參考線性代數裡的定義)。

最後要預測 時, 代入 這裡又稱 為 Hat Matrix , 將 y 戴帽子

如何衡量

前半段的證明在於我們可以透過矩陣運算 (內含求反矩陣的迭代), 可以求出最小的 , 而關於 Linear Regression 後半部分的證明, 主要在於如何保證

  • 第一種方式, 是建立在之前 VC dimension 哲學上的意涵, 我們今天的演算法也只存在 D 個維度的變量, 所以理論上我們的 會是 finite, 只要是 finite 則會保證當 N 夠大時,
  • 第二種方式, 是求出 的關係

首先先觀察

從幾何上的意義, , 在求出 之前, 我們可能會代入任意的 , 也就是對 X 的 column (相當於 D+1 筆 的 N+1 維 向量)做任意的線性組合, 這些組合的結果會 ∈ span of X, 而這中間最小的就是

Claim: trace(I-H) = N - (d+1) Trace Definition

理想的 target function f 存在的話, f(x) ∈ span of X, 則 y = f(X) + noise, 則 可以表示如下 底下是用上面的假設導出的式子, 筆者時間有限, 先用相信我之術帶過...

最後對這兩個函數可以畫出一張圖稱做 Learning Curve

如圖所示也如同 VC bound 所要告訴我們的事, 當資料量夠大時, 會愈來愈近, 往 noise level () 靠近, 所以只要 N 愈大 且 愈小我們就能讓機器學習。

results matching ""

    No results matching ""