LG Aimers 4기 그리고 Gradient Descent

2024. 1. 11. 09:08코딩 도구/LG Aimers

반응형

LG Aimers: AI전문가과정 4차

Module 4. 『지도학습(분류/회귀)』 

 

ㅇ 교수 : 이화여자대학교 강제원 교수 
ㅇ 학습목표 
Machine Learning의 한 부류인 지도학습(Supervised Learning)에 대한 기본 개념과 regression/classification의 목적 및 차이점에 대해 이해하고,  다양한 모델 및 방법 (linear and nonlinear regression, classification, ensemble methods, kernel methods 등)을 통해 언제 어떤 모델을 사용해야 하는지, 왜 사용하는지, 모델 성능을 향상시키는 방법을 학습하게 됩니다.

 

 Gradient Descent

-Algorithm outline:
• Start with some initial parameters ɵ0, ɵ1
• Keep changing the parameter to reduce the loss function
until we hopefully end up at a minimum.

-Gradient Descent Algorithm Key components


• Gradient: the derivative of vector functions (partial derivative along each dimension)
    • Direction of greatest increase (or decrease) of a function

• The step size 𝜶 affects the rate at which the weight vector moves down the error surface and must be a positive number. (hyper parameter)
• 𝜃 is the learnable parameters
• The function J is the objective function that we want to minimize.

-Some ideas to avoid local minimum Method of momentum
• SGD : very popular but tends to be slow and difficult to reach the minimum

-Method of momentum
• Designed to speed up learning in high curvature and small/noise gradients
• Exponentially weighted moving average of past gradients
(low pass filtering)

-SGD + momentum :
Use a velocity as a weighted moving average of previous gradients

-Nesterov Momentum
• Difference from standard momentum: where gradient 𝑔 is
evaluated (i.e. “lookahead” gradient step)


-AdaGrad :
Adapts an individual learning rate of each direction
• Slow down the learning rate when an accumulated gradient is large
• Speed up the learning rate when an accumulated gradient is small 

-RMSProp : 
 attempts to fix the drawbacks of AdaGrad, in which the learning
rate becomes infinitesimally small and the algorithm is no longer able learning when the accumulated gradient is large. 
ㄴ• (Remedy) Gradient accumulation by weighted decaying

-Adam (adaptive moment estimation) : RMSProp + momentum
ㄴ가장 자주 사용!

-Some optimization in regression to avoid overfitting
1. Reduce number of features.
― select which features to keep.
2. Regularization.
― keep the features but reduce magnitude/values of parameters
― Simple hypothesis and less prone to overfitting and robust to noise 

-Quiz
What answers are correct? Select all that apply.
A. 
Gradient descent produces a numerical solution but it may not achieve a global optimum

B.
 Momentum of previous gradient descent can help avoid overfitting

C. Regularization can penalize the importance of some input features to avoid overfitting

A
Correct. The solution can be different with an initial point of an error surface 

B
False. Momentum can avoid local minimum and help obtain a solution close to global optimum

C
Correct. Regularization can decrease some weights to have compact sets of parameters 


Summary

Optimization in general ML/DL
• General ideas of gradient descent algorithm
• Mostly stochastic gradient descent and its variants using gradient estimates
• Adam is a good default choice in most cases

Regularization
• Reduce magnitude/values of parameters while keeping features
• Simple hypothesis and less prone to overfitting
• Robust to noise 

반응형