Linear regression (μ„ ν˜• νšŒκ·€) 2


Wikipedia
이 ν¬μŠ€νŠΈλŠ” Wikipedia의 λ‚΄μš©μ„ μš”μ•½/λ³΄μΆ©ν•œ κΈ€μž…λ‹ˆλ‹€.

μ„ ν˜•νšŒκ·€(Linear regression)은 쒅속 λ³€μˆ˜ y와 ν•œ 개 μ΄μƒμ˜ 독립 λ³€μˆ˜ (λ˜λŠ” μ„€λͺ… λ³€μˆ˜) xμ™€μ˜ μ„ ν˜• 상관 관계λ₯Ό λͺ¨λΈλ§ν•˜λŠ” νšŒκ·€ 뢄석 기법이닀. ν•œ 개의 μ„€λͺ… λ³€μˆ˜λ₯Ό κΈ°λ°˜ν•œ κ²½μš°λŠ” λ‹¨μˆœ μ„ ν˜• νšŒκ·€(Simple linear regression), λ‘˜ μ΄μƒμ˜ μ„€λͺ… λ³€μˆ˜μ— κΈ°λ°˜ν•œ κ²½μš°λŠ” 닀쀑 μ„ ν˜• νšŒκ·€(Multiple linear regression)라 ν•œλ‹€.

μ„ ν˜• νšŒκ·€λŠ” μ„ ν˜• 예츑 ν•¨μˆ˜λ₯Ό μ‚¬μš©ν•΄ νšŒκ·€μ‹μ„ λͺ¨λΈλ§ν•˜λ©°, μ•Œλ €μ§€μ§€ μ•Šμ€ νŒŒλΌλ―Έν„°λŠ” λ°μ΄ν„°λ‘œλΆ€ν„° μΆ”μ •ν•œλ‹€. μ΄λ ‡κ²Œ λ§Œλ“€μ–΄μ§„ νšŒκ·€μ‹μ„ μ„ ν˜• λͺ¨λΈμ΄λΌκ³  ν•œλ‹€.

μ•Œλ €μ§€μ§€ μ•Šμ€ νŒŒλΌλ―Έν„°μ— λŒ€ν•΄ μ„ ν˜• 관계λ₯Ό κ°–λŠ” λͺ¨λΈμ„ μ„Έμš°λŠ” 것이 λΉ„μ„ ν˜• 관계λ₯Ό κ°–λŠ” λͺ¨λΈμ„ μ„Έμš°λŠ” 것보닀 μš©μ΄ν•˜κΈ°μ— 많이 μ΄μš©λœλ‹€.

μ„ ν˜•νšŒκ·€λŠ” λ‹€μŒκ³Ό 같이 이용될 수 μžˆλ‹€.

  • 값을 μ˜ˆμΈ‘ν•˜λŠ” 것이 λͺ©μ μΌ 경우, μ„ ν˜• νšŒκ·€λ₯Ό 톡해 데이터에 μ ν•©ν•œ 예츑 λͺ¨ν˜•μ„ κ°œλ°œν•œλ‹€. κ°œλ°œν•œ μ„ ν˜• νšŒκ·€μ‹μ„ μ‚¬μš©ν•΄ yκ°€ μ—†λŠ” x값에 λŒ€ν•΄ yλ₯Ό μ˜ˆμΈ‘ν•˜κΈ° μœ„ν•΄ μ‚¬μš©.
  • 쒅속 λ³€μˆ˜ y와 이것과 κ΄€λ ¨λœ 독립 λ³€μˆ˜ \(X_1,...,X_p\)κ°€ μ‘΄μž¬ν•˜λŠ” κ²½μš°μ— μ„ ν˜• νšŒκ·€ 뢄석을 톡해 \(X_j\)와 y의 관계λ₯Ό μ •λŸ‰ν™”ν•  수 μžˆλ‹€. \(X_j\)λŠ” y와 무관할 μˆ˜λ„ 있고 정보λ₯Ό μ œκ³΅ν•˜λŠ” λ³€μˆ˜μΌ μˆ˜λ„ μžˆλ‹€.

보톡 μ΅œμ†Œμ œκ³±λ²•(μ΅œμ†ŒμžμŠΉλ²•)을 μ‚¬μš©ν•΄ μ„ ν˜• νšŒκ·€ λͺ¨λΈμ„ μ„Έμš΄λ‹€. 또 손싀 ν•¨μˆ˜(loss function)을 μ΅œμ†Œν™”ν•˜λŠ” λ°©λ²•μœΌλ‘œλ„ μ„ ν˜• νšŒκ·€ λͺ¨λΈμ„ μ„ΈμšΈ 수 μžˆλ‹€. μ΅œμ†Œμ œκ³±λ²•μ€ μ„ ν˜• νšŒκ·€ λͺ¨λΈ 뿐 μ•„λ‹ˆλΌ, λΉ„μ„ ν˜• νšŒκ·€ λͺ¨λΈμ—λ„ μ μš©ν•  수 μžˆλ‹€.

μ„ ν˜• νšŒκ·€λŠ” 주어진 데이터 집합 \(\left\{y_i, x_{i1},...,x_{ip}\right\}_{i=1}^n\)에 λŒ€ν•΄, 쒅속 λ³€μˆ˜ \(y_i\)와 p개의 μ„€λͺ… λ³€μˆ˜ \(x_i\) μ‚¬μ΄μ˜ μ„ ν˜• 관계λ₯Ό λͺ¨λΈλ§ν•œλ‹€.

\[y_i = \beta_1 x_{i1} + \cdots + \beta_p x_{ip} + \varepsilon_i = \mathbf{x}^{\rm T}_i\boldsymbol\beta + \varepsilon_i, \qquad i = 1, \ldots, n,\]

주어진 μ‹μ—μ„œ \(\beta_i\)λŠ” λ…λ¦½λ³€μˆ˜μ˜ κ³„μˆ˜μ΄λ©°, pλŠ” μ„ ν˜• νšŒκ·€λ‘œ μΆ”μ •λ˜λŠ” λͺ¨μˆ˜μ˜ κ°œμˆ˜μ΄λ‹€. TλŠ” μ „μΉ˜λ₯Ό μ˜λ―Έν•œλ‹€. \(x_i^T \beta\)λŠ” \(x_i\)와 \(\beta\)의 내적을 λœ»ν•œλ‹€. \(\epsilon_i\)λŠ” μ˜€μ°¨ν•­, 였차 λ³€μˆ˜(error)둜, κ΄€μ°°λ˜μ§€ μ•Šμ€ ν™•λ₯  λ³€μˆ˜μ΄λ©°, 쒅속 λ³€μˆ˜(κ²°κ³Όλ¬Όμ΄λ‚˜ 효과)와 독립 λ³€μˆ˜(μž…λ ₯κ°’μ΄λ‚˜ 원인) 사이에 였차λ₯Ό μ˜λ―Έν•œλ‹€.
이것이 μ„ ν˜• νšŒκ·€λΌ λΆˆλ¦¬λŠ” 것은 μ’…μ†λ³€μˆ˜κ°€ λ…λ¦½λ³€μˆ˜μ— λŒ€ν•œ μ„ ν˜• ν•¨μˆ˜(1μ°¨ ν•¨μˆ˜)의 관계에 μžˆμ„ 것이라 κ°€μ •ν•˜κΈ° λ•Œλ¬Έμ΄λ‹€. κ·ΈλŸ¬λ‚˜, λͺ¨λΈμ— λŒ€ν•œ κ·Έλž˜ν”„κ°€ 직선상에 μžˆμ§€ μ•Šλ”λΌλ„ β€˜μ„ ν˜•β€™ νšŒκ·€μΌ 수 μžˆλ‹€.

μ„ ν˜• νšŒκ·€μ—μ„œμ˜ κ°€μ •

ν‘œμ€€ μ„ ν˜• νšŒκ·€ 뢄석 λͺ¨λΈμ—μ„œλŠ” 예츑 λ³€μˆ˜, 응닡 λ³€μˆ˜ 그리고 κ·Έ μ‚¬μ΄μ˜ 관계에 λŒ€ν•΄ λ‹€μ–‘ν•œ 가정을 ν•œλ‹€. ν™•μž₯된 μ„ ν˜• νšŒκ·€ λΆ„μ„μ—μ„œλŠ” 이런 가정을 μ™„ν™”ν•˜κΈ°λ„, μ œκ±°ν•˜κΈ°λ„ ν•œλ‹€. 보톡 ν™•μž₯ μ„ ν˜• νšŒκ·€λŠ” μΆ”μ • 과정을 더 λ³΅μž‘ν•˜κ²Œ ν•˜κ±°λ‚˜ μ‹œκ°„μ„ 더 μ†Œλͺ¨ν•œλ‹€. μ •ν™•ν•œ λͺ¨λΈμ„ μ„Έμš°κΈ° μœ„ν•΄ 더 λ§Žμ€ 데이터가 μš”κ΅¬λ  μˆ˜λ„ 있으며 ν‘œμ€€ μ„ ν˜• νšŒκ·€μ˜ λŒ€ν‘œμ μΈ 가정은 λ‹€μŒκ³Ό κ°™λ‹€.

  • μ•½ν•œ 외생성. 독립 λ³€μˆ˜ xλ₯Ό λ³€μˆ˜κ°€ μ•„λ‹ˆλΌ κ³ μ •λœ κ°’μœΌλ‘œ μ·¨κΈ‰ν•œλ‹€. μ΄λŠ” 독립 λ³€μˆ˜μ— μ˜€μ°¨κ°€ μ—†μŒμ„ λœ»ν•œλ‹€. μ΄λŸ¬ν•œ 가정은 λΉ„ν˜„μ‹€μ μ΄λ‚˜ 이 가정을 μ œμ™Έν•˜λ©΄ μ„€λͺ… λ³€μˆ˜μ— 였차λ₯Ό ν¬ν•¨ν•œ λͺ¨λΈμ„ μ„Έμ›Œμ•Ό ν•œλ‹€.

  • μ„ ν˜•μ„±. 쒅속 λ³€μˆ˜κ°€ 독립 λ³€μˆ˜μ™€ μ„ ν˜• νšŒκ·€ κ³„μˆ˜μ˜ μ„ ν˜• μ‘°ν•©μœΌλ‘œ ν‘œν˜„ κ°€λŠ₯함을 μ˜λ―Έν•œλ‹€. 이것은 νŒŒλΌλ―Έν„°μ— λŒ€ν•œ μ„ ν˜•μ„±λ§Œμ„ κ°€μ •ν•œλ‹€. 예츑 λ³€μˆ˜λŠ” μž„μ˜λ‘œ λ³€ν˜•λ  수 있고, λ™μΌν•œ 예츑 λ³€μˆ˜κ°€ λ”ν•΄μ§ˆ μˆ˜λ„ 있고, ν•˜λ‚˜λ₯Ό λ‹€λ₯΄κ²Œ λ³€ν˜•ν•  μˆ˜λ„ μžˆλ‹€. 이 가정은 닀쀑 νšŒκ·€ 뢄석에 μ‚¬μš©λœλ‹€. 응닡 λ³€μˆ˜λ₯Ό 예츑 λ³€μˆ˜μ— λŒ€ν•œ μž„μ˜μ˜ λ‹€ν•­ ν•¨μˆ˜λ‘œ λͺ¨λΈλ§ν•œλ‹€. μ΄λŠ” μ„ ν˜• νšŒκ·€λ₯Ό 맀우 κ°•λ ₯ν•˜κ²Œ λ§Œλ“ λ‹€. μ‹€μ œλ‘œ 이런 λ‹€ν•­ νšŒκ·€λŠ” λ•Œλ‘œ λ„ˆλ¬΄ κ°•λ ₯ν•΄ λͺ¨λΈμ΄ 데이터에 κ³Όμ ν•©ν•˜κ²Œ λ˜κΈ°λ„ ν•œλ‹€. 이λ₯Ό λ°©μ§€ν•˜κΈ° μœ„ν•΄ μ •κ·œν™” 기법을 μ‚¬μš©ν•  μˆ˜λ„ μžˆλ‹€. ridge regression λ˜λŠ” Lasso νšŒκ·€κ°€ κ·Έ μ˜ˆμ΄λ‹€. λ² μ΄μ§€μ•ˆ μ„ ν˜• νšŒκ·€ λ˜ν•œ μ‚¬μš©ν•  수 μžˆλŠ”λ° μ΄λŠ” 근본적으둜 과적합을 λ°©μ§€ν•˜λŠ” 효과λ₯Ό κ°–λŠ”λ‹€.

  • μƒμˆ˜ λΆ„μ‚°. μ΄λŠ” μ„œλ‘œ λ‹€λ₯Έ 응닡 λ³€μˆ˜λ“€μ˜ μ˜€μ°¨κ°€ μ„€λͺ… λ³€μˆ˜μ™€ λ¬΄κ΄€ν•˜κ²Œ 항상 같은 뢄산을 가짐을 λœ»ν•œλ‹€. 이런 가정은 νƒ€λ‹Ήν•˜μ§€ μ•Šλ‹€. 응닡 λ³€μˆ˜λ“€μ˜ μ˜€μ°¨κ°€ 같은 뢄산을 갖지 μ•ŠμœΌλ©° 였차의 뢄산은 μ„€λͺ… λ³€μˆ˜μ— 영ν–₯을 λ°›λŠ”λ‹€.

  • 였차의 독립성. 독립 λ³€μˆ˜μ˜ μ˜€μ°¨κ°€ μ„œλ‘œ 무관함을 κ°€μ •ν•œλ‹€. 일뢀 μ„ ν˜• νšŒκ·€ 기법은 μƒκ΄€λœ 였차λ₯Ό λ‹€λ£° 수 μžˆμœΌλ‚˜ μ •κ·œν™”κ°€ μ μš©λ˜μ§€ μ•Šμ€ μƒν™©μ—μ„œ 더 λ§Žμ€ 데이터가 ν•„μš”ν•˜λ‹€. λ² μ΄μ§€μ•ˆ μ„ ν˜• νšŒκ·€κ°€ 이런 문제λ₯Ό λ‹€λ£¨λŠ” 일반적 기법이닀.

  • 예츑 λ³€μˆ˜μ—μ„œμ˜ λ‹€μ€‘κ³΅μ„ μ„±μ˜ λΆ€μž¬. μ΅œμ†Œμ œκ³±λ²• μΆ”μ • κΈ°λ²•μ—μ„œ 섀계 ν–‰λ ¬ XλŠ” λ°˜λ“œμ‹œ μ „μ—΄κ³„μˆ˜ pλ₯Ό κ°–λŠ”λ‹€. 그렇지 μ•ŠμœΌλ©΄ 예츑 λ³€μˆ˜ 사이에 닀쀑곡선성이 생긴닀. μ΄λŠ” 볡수의 μƒκ΄€λœ 예츑 λ³€μˆ˜λ‘œ 인해 λ°œμƒλœλ‹€. νŒŒλΌλ―Έν„°μ— λΉ„ν•΄ 데이터가 λ„ˆλ¬΄ 적어도 λ°œμƒν•  수 μžˆλ‹€.

μ„ ν˜• νšŒκ·€μ˜ 해석

예츑 λ³€μˆ˜μ— λŒ€ν•œ λͺ¨λ“  값이 μ£Όμ–΄μ‘Œμ„ λ•Œ μˆ˜λ¦½ν•œ μ„ ν˜• νšŒκ·€ λͺ¨λΈμ„ μ‚¬μš©ν•΄ 예츑 λ³€μˆ˜ \(x_j\)κ°€ 응닡 λ³€μˆ˜ y에 λ―ΈμΉ˜λŠ” 영ν–₯을 확인할 수 μžˆλ‹€. \(\beta_j\)λŠ” \(x_j\)κ°€ ν•œ λ‹¨μœ„ λ³€ν–ˆμ„ λ•Œ y의 κΈ°λŒ€ λ³€ν™”λŸ‰μ„ λœ»ν•œλ‹€. νšŒκ·€ κ²°κ³Όλ₯Ό 해석할 λ•Œ μ£Όμ˜ν•΄μ•Ό ν•˜λŠ”λ°, 일뢀 독립 λ³€μˆ˜κ°€ 응닡 λ³€μˆ˜μ˜ 변화에 영ν–₯을 주지 μ•Šμ„ 수 있기 λ•Œλ¬Έμ΄λ‹€ (λ¬΄μ˜λ―Έν•œ 독립 λ³€μˆ˜μΌ μˆ˜λ„ 있고, y μ ˆνŽΈμ— ν•΄λ‹Ήν•  μˆ˜λ„ 있기 λ•Œλ¬Έμ΄λ‹€.) ν•œκ³„ νš¨κ³Όκ°€ 큰 상황이 μžˆμ„ μˆ˜λ„ μžˆλ‹€. μ•„μ£Ό λ³΅μž‘ν•˜κ²Œ μ„œλ‘œ μ—°κ³„λœ μ‹œμŠ€ν…œμ„ 뢄석할 λ•Œ 고유 νš¨κ³ΌλŠ” 맀우 μ€‘μš”ν•œ 역할을 ν•œλ‹€. ν•˜μ§€λ§Œ 보톡 닀쀑 μ„ ν˜• νšŒκ·€μ—μ„œ 응닡 λ³€μˆ˜μ™€ 예츑 λ³€μˆ˜ μ‚¬μ΄μ˜ 관계λ₯Ό λ°νžˆλŠ” 것에 μ‹€νŒ¨ν•œλ‹€. 곡톡점 뢄석은 이런 상관관계 해석에 도움을 μ€€λ‹€.

μ„ ν˜• νšŒκ·€ κΈ°λ²•μ˜ ν™•μž₯

μ„ ν˜• νšŒκ·€λ₯Ό ν™•μž₯ν•œ λ‹€μ–‘ν•œ 기법듀이 κ°œλ°œλ˜μ—ˆμœΌλ©°, 각각은 μ„œλ‘œ λ‹€λ₯Έ 가정을 κ°–κ³  μžˆκ±°λ‚˜, κΈ°λ³Έ λͺ¨λΈμ—μ„œ 가정을 μ™„ν™”ν•˜κΈ°λ„ ν•œλ‹€.

λ‹¨μˆœ μ„ ν˜• νšŒκ·€μ™€ 닀쀑 μ„ ν˜• νšŒκ·€

μ„ ν˜• νšŒκ·€μ˜ κ°€μž₯ λ‹¨μˆœν•œ μ˜ˆμ œλŠ” ν•œ 개의 슀칼라 독립 λ³€μˆ˜ x와 ν•œ 개의 슀칼라 의쑴 λ³€μˆ˜ y의 관계일 것이닀. 이λ₯Ό λ‹¨μˆœ μ„ ν˜• νšŒκ·€λΌ λΆ€λ₯Έλ‹€. μ—¬κΈ°μ—μ„œ 독립 λ³€μˆ˜λ₯Ό μ—¬λŸ¬ 개둜 ν™•μž₯ν•œ 것이 닀쀑 μ„ ν˜• νšŒκ·€μ΄λ‹€. μ‹€μ„Έκ³„μ˜ 거의 λŒ€λΆ€λΆ„μ˜ λ¬Έμ œλŠ” μ—¬λŸ¬ 개의 독립 λ³€μˆ˜λ₯Ό ν¬ν•¨ν•˜λ©°, μ„ ν˜• νšŒκ·€λΌ 함은 보톡 닀쀑 μ„ ν˜• νšŒκ·€λ₯Ό μΌμ»«λŠ”λ‹€. ν•˜μ§€λ§Œ μ΄λŸ¬ν•œ κ²½μš°μ—λ„ μ—¬μ „νžˆ 응닡 λ³€μˆ˜ yλŠ” ν•œ 개의 슀칼라 λ³€μˆ˜μ΄λ‹€. λ‹€λ³€λŸ‰ μ„ ν˜• νšŒκ·€λŠ” 응닡 λ³€μˆ˜ yκ°€ 벑터인 경우λ₯Ό μ˜λ―Έν•œλ‹€. μ΄λŸ¬ν•œ 경우λ₯Ό 일반 μ„ ν˜• νšŒκ·€λΌ λΆ€λ₯Έλ‹€. 닀쀑 μ„ ν˜• νšŒκ·€μ™€ λ‹€λ³€λŸ‰ μ„ ν˜• νšŒκ·€λŠ” λ‹€λ₯Έ μ˜λ―Έμ΄λ―€λ‘œ, ν˜Όλ™ν•˜μ§€ μ•Šλ„λ‘ μ£Όμ˜ν•΄μ•Ό ν•œλ‹€.

일반 νšŒκ·€ λͺ¨λΈ

일반 νšŒκ·€ λͺ¨λΈμ€ 응닡 λ³€μˆ˜ Yκ°€ μŠ€μΉΌλΌκ°€ μ•„λ‹ˆλΌ 벑터인 경우λ₯Ό λŒ€μƒμœΌλ‘œ ν•œλ‹€. 쑰건뢀 μ„ ν˜•μ„± \(E(y\|x) = Bx\)은 μ—¬μ „νžˆ μœ μ§€λœλ‹€ (ν–‰λ ¬ B λŠ” Ξ² λ₯Ό ν–‰λ ¬λ‘œ ν‘œν˜„ν•œ 것). 일반 νšŒκ·€ λͺ¨λΈμ€ λ‹€λ³€λŸ‰ νšŒκ·€ λͺ¨λΈκ³Ό λ™μΌν•˜λ‹€.

이뢄산 νšŒκ·€ λͺ¨λΈ

이뢄산성을 ν—ˆμš©ν•˜κΈ° μœ„ν•΄ λ‹€μ–‘ν•œ νšŒκ·€ λͺ¨λΈμ΄ κ°œλ°œλ˜μ—ˆλ‹€. 응닡 λ³€μˆ˜λ“€μ˜ 였차의 뢄산이 μ„œλ‘œ λ‹€λ₯Έ 것을 ν—ˆμš©ν•œλ‹€. 가쀑 μ΅œμ†Œ μ œκ³±λ²•μ€ 응닡 λ³€μˆ˜μ˜ μ˜€μ°¨κ°€ μ„œλ‘œ λ‹€λ₯Έ 뢄산을 κ°–κ±°λ‚˜, μ—°κ΄€λœ κ²½μš°μ—λ„ μ„ ν˜• νšŒκ·€ λͺ¨λΈμ„ μˆ˜λ¦½ν•  수 있게 ν—ˆμš©ν•œλ‹€. 이뢄산성 일치 ν‘œμ€€ μ—λŸ¬ 기법은 더 κ°œμ„ λœ κΈ°λ²•μœΌλ‘œ, μ˜€μ°¨κ°€ μ„œλ‘œ μ—°κ΄€λ˜μ–΄ μžˆμ§€λŠ” μ•Šμ§€λ§Œ μ„œλ‘œ λ‹€λ₯Έ 뢄산을 κ°–λŠ” κ²½μš°μ— μ„ ν˜• νšŒκ·€ λͺ¨λΈμ„ μˆ˜λ¦½ν•  수 μžˆλ‹€.

계측적 μ„ ν˜• λͺ¨λΈ

계측적 μ„ ν˜• λͺ¨λΈμ€ 데이터가 μ—¬λŸ¬κ²ΉμœΌλ‘œ νšŒκ·€λ˜λŠ” κ²½μš°μ— μ΄μš©ν•  수 μžˆλ‹€. λ‹€μ‹œ 말해 Aκ°€ B둜 νšŒκ·€λ˜κ³ , Bκ°€ C둜 νšŒκ·€ λ˜λŠ” ꡬ쑰λ₯Ό λ§ν•œλ‹€. μ΄λŸ¬ν•œ κ΅¬μ‘°λŠ” 일상 μƒν™œμ—μ„œ ν”νžˆ λ³Ό 수 μžˆλŠ”λ°, κ°€λ Ή 학생은 학급에 μ†ν•˜κ³ , 학급은 학년에 μ†ν•˜λ©° 학년은 학ꡐ에 μ†ν•˜λŠ” 경우λ₯Ό λ“€ 수 μžˆλ‹€. 이런 경우 ν•™μƒμ˜ 응닡 λ³€μˆ˜λ‘œ μ‹œν—˜ 성적을 이용 ν•œλ‹€λ©΄ ν•™κΈ‰, ν•™λ…„, 학ꡐ에 λŒ€ν•΄ 각각 λ‹€λ₯Έ 곡변을 얻을 수 μžˆλ‹€.

였차 λ³€μˆ˜ λͺ¨λΈ

였차 λ³€μˆ˜ λͺ¨λΈ(errors-in-variables) 은 (λ˜λŠ” β€œμ˜€μ°¨ μΈ‘μ • λͺ¨λΈβ€) 기쑴의 μ„ ν˜• νšŒκ·€ λͺ¨λΈμ—μ„œ 독립 λ³€μˆ˜ Xκ°€ μ˜€μ°¨μ™€ 같이 관츑될 수 μžˆλ„λ‘ ν™•μž₯ν•œ 것이닀. 이 μ˜€μ°¨λŠ” β의 ν‘œμ€€ μΆ”μ •λŸ‰μ΄ 편ν–₯λ˜λŠ”λ° 원인이 λœλ‹€. μΌλ°˜μ μœΌλ‘œλŠ” 이 영ν–₯은 0에 κ°€κΉκ²Œ 편ν–₯λœλ‹€.

μ„ ν˜• νšŒκ·€ λͺ¨λΈ μΆ”μ • 기법

μ„ ν˜• νšŒκ·€μ—μ„œ νŒŒλΌλ―Έν„° 좔정을 μœ„ν•΄ λ‹€μ–‘ν•œ 기법듀이 κ°œλ°œλ˜μ—ˆλ‹€. 각각의 기법듀은 μ•Œκ³ λ¦¬μ¦˜μ˜ μ—°μ‚° λ³΅μž‘λ„, λ‹«νžŒ ν˜•νƒœμ˜ 해법 쑴재 μ—¬λΆ€, λ°μ΄ν„°μ˜ 뢄포에 λŒ€ν•œ κ°€μ •, λ³€μˆ˜μ˜ 관계에 λŒ€ν•œ 이둠적 κ°€μ • 등이 λ‹€λ₯΄λ‹€.

Ordinary least squares

(OLS)λŠ” κ°€μž₯ λ‹¨μˆœν•˜κ³  많이 μ“°μ΄λŠ” μΆ”μ • 방법이닀. OLS 기법은 였차의 제곱의 합을 μ΅œμ†Œν™”ν•˜λŠ” κΈ°λ²•μœΌλ‘œ, μΆ”μ •ν•˜κ³ μž ν•˜λŠ” νŒŒλΌλ―Έν„° β에 λŒ€ν•œ ν‘œν˜„μ‹μ„ λ‹€μŒκ³Ό 같이 ꡬ할 수 μžˆλ‹€.

\[\hat{\boldsymbol\beta} = (\mathbf{X}^{\rm T}\mathbf{X})^{-1} \mathbf{X}^{\rm T}\mathbf{y} = \big(\,{\textstyle\sum} \mathbf{x}_i \mathbf{x}^{\rm T}_i \,\big)^{-1} \big(\,{\textstyle\sum} \mathbf{x}_i y_i \,\big).\]

μ˜€μ°¨κ°€ μœ ν•œν•œ 뢄산을 가지며, μ˜€μ°¨κ°€ 독립 λ³€μˆ˜μ™€ μ—°κ΄€λ˜μ–΄ μžˆμ§€ μ•Šλ‹€λ©΄, 좔정은 편ν–₯λ˜μ–΄μžˆμ§€ μ•Šκ³ , 일관성 μžˆλ‹€.

Generalized least squares (GLS)

Percentage least squares

였차의 νΌμ„ΌνŠΈλ₯Ό μ€„μ΄λŠ” λ°©λ²•μœΌλ‘œ μ˜ˆμΈ‘ν•˜κ±°λ‚˜ μ‹œκ³„μ—΄ 데이터λ₯Ό λΆ„μ„ν•˜λŠ” λΆ„μ•Όμ—μ„œ μœ μš©ν•˜κ²Œ 쓰인닀. OLSλ₯Ό μ‚¬μš©ν•˜λ©΄ μƒν•œμ„ μ—μ„œ 큰 μž”μ°¨κ°€ μš°μ„Έν•œ 값을 κ°–λŠ” κ²½μš°μ—, 쒅속 λ³€μˆ˜κ°€ μƒμˆ˜ 뢄산을 가지지 μ•Šκ³  넓은 λ²”μœ„λ₯Ό κ°€μ§ˆ λ•Œ μœ μš©ν•˜κ²Œ 쓰인닀. 였차의 νΌμ„Όν‹°μ§€λ‚˜ μƒλŒ€ 값이 ν‘œμ€€ 뢄포λ₯Ό λ”°λ₯Ό λ•Œ, percentage least squares νšŒκ·€ 기법은 μ΅œλŒ€ κ°€λŠ₯도 좔정을 μ œκ³΅ν•œλ‹€. OLSλŠ” 가법 였차 λͺ¨ν˜•κ³Ό κ΄€λ ¨μžˆλŠ” λ°˜λ©΄μ— 이 νšŒκ·€ 기법은 μŠΉλ²• 였차 λͺ¨ν˜•κ³Ό κ΄€λ ¨μžˆλ‹€.

Iteratively reweighted least squares (IRLS)

Instrumental variables

Optimal instruments

Total least squares (TLS)

μ΅œλŒ€κ°€λŠ₯도방법

μ΅œλŒ€ κ°€λŠ₯도 μΆ”μ • (MLE : Maximum likelihood estimation)

λ§€κ°œλ³€μˆ˜ \({\theta }\) (즉, \({\theta =(\beta ,\sigma ^{2})} )\) 의 argmaxλŠ” λ‹€μŒκ³Ό κ°™λ‹€

\[\underset{\theta}{\arg\max} \log(p(D|\theta)) = \sum_{i=1} \log(p(y_i | \mathbf{x_i}, \theta))\]

λ§Œμ•½ \(p(y_{i}|\mathbf {x_{i}} ,\theta )\) κ°€ μ•„λž˜μ™€ 같은 κ°€μš°μ‹œμ•ˆ 뢄포 λ₯Ό 가진닀고 κ°€μ •ν•˜λ©΄,
\(p(y_{i}|\mathbf {x_{i}} ,\theta )={\mathcal {N}}(y|{\boldsymbol {\beta }}^{T}\mathbf {x} ,\sigma ^{2})\)
λ‹€μŒκ³Ό 같은 둜그 κ°€λŠ₯도 ν•¨μˆ˜λ₯Ό κ΅¬ν• μˆ˜ μžˆλ‹€
\(l(\theta )=\sum _{i=1}^{N}\log[({\frac {1}{2\pi \sigma ^{2}}})^{2}exp(-{\frac {1}{2\sigma ^{2}}}(y_{i}-{\boldsymbol {\beta }}^{T}\mathbf {x_{i}} )^{2})]\)
\(=-{\frac {N}{2}}\log(2\pi \sigma ^{2})-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{N}{(y_{i}-{\boldsymbol {\beta }}^{T}\mathbf {x_{i}} )^{2}}\)
μœ„ μ‹μ˜ 음수λ₯Ό μ·¨ν•œ 음 둜그 κ°€λŠ₯도 ν•¨μˆ˜(NLLΒ : negative log likelihood)λŠ” μ•„λž˜μ™€ κ°™λ‹€
\(NLL(\theta )={\frac {N}{2}}\log(2\pi \sigma ^{2})+{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{N}{(y_{i}-{\boldsymbol {\beta }}^{T}\mathbf {x_{i}} )^{2}}\)
NLL의 μ΅œμ†Ÿκ°’μ„ κ΅¬ν•˜κΈ° μœ„ν•΄μ„œλŠ” μœ„μ‹μ—μ„œ μ•„λž˜μ˜ 뢀뢄을 μ΅œμ†Œν™” ν•˜λ©΄ λœλ‹€
\(RSS(\beta )=\sum _{i=1}^{N}{(y_{i}-{\boldsymbol {\beta }}^{T}\mathbf {x_{i}} )^{2}}\)
μœ„ 식은 μž”μ°¨μ œκ³±ν•©(RSSΒ : Residual Sum of Squares) 이며, 이λ₯Ό 톡해 졜적의 \({\boldsymbol {\hat {\beta }}}\) 을 ꡬ할 수 μžˆλ‹€.

μš©μ–΄ 정리

λ…λ¦½λ³€μˆ˜(independent variable) :
μž…λ ₯κ°’μ΄λ‚˜ 원인을 λ‚˜νƒ€λ‚΄λ©° 예츑 λ³€μˆ˜(predictor variable), λ³΅κ·€μž(regressor), ν†΅μ œ λ³€μˆ˜(controlled variable), μ‘°μž‘ λ³€μˆ˜(manipulated variable), λ…ΈμΆœ λ³€μˆ˜(exposure variable), 리슀크 νŒ©ν„°(risk factor), μ„€λͺ… λ³€μˆ˜(Explanatory variable)λ“±μœΌλ‘œ 뢈리며, 기계 ν•™μŠ΅κ³Ό νŒ¨ν„΄ μΈμ‹μ—μ„œλŠ” feature라고 ν•œλ‹€. (주둜 x둜 쓰인닀.)

쒅속 λ³€μˆ˜ : κ²°κ³Όλ¬Όμ΄λ‚˜ 효과λ₯Ό λ‚˜νƒ€λ‚Έλ‹€. 응닡 λ³€μˆ˜λΌκ³ λ„ 뢈리며 주둜 y둜 쓰인닀.

\(\beta\) : p차원 νŒŒλΌλ―Έν„° 벑터이닀. μ΄κ²ƒμ˜ 각 μ›μ†ŒλŠ” νšŒκ·€ κ³„μˆ˜λΌκ³ λ„ λΆˆλ¦°λ‹€. νŒŒλΌλ―Έν„° λ²‘ν„°μ˜ μ›μ†ŒλŠ” 쒅속 λ³€μˆ˜μ— λŒ€ν•œ νŽΈλ―ΈλΆ„μœΌλ‘œ 해석할 μˆ˜λ„ μžˆλ‹€.