최적화 (Optimization)

CS 공부/AI 2023. 1. 11. 23:30

Generalization: 일반화 성능, 학습데이터와 테스트 데이터에서 성능이 얼마나 차이가 나는지
Overfitting: 학습데이터에서 잘 동작하지만 테스트 데이터에서 잘 동작하지 않음 (과적합)
Underfitting: 네트워크가 너무 간단하거나 학습을 너무 조금시켜서 잘 동작하지 않음
Cross-validation: 모델 유효성 검사 기법, 데이터를 나눠서 train, valid에 사용, 최적의 hyperparameter 찾는데 사용(test 데이터는 절대 쓰면 안됨)
Variance: variance가 큰 모델은 비슷한 입력이 들어와도 출력이 많이 달라짐, variance가 낮으면 간단한 모델
Bias: bias가 낮으면 원하는 값에 대부분 근사함, bias가 높으면 원하는 값과 많이 달라짐
Bias and Variance Tradeoff: 학습 데이터에 noise가 있을 경우, bias와 variance는 둘다 낮거나 높을 수 없음, bias가 낮으면 variance가 높아짐
Bootstrapping: 100개 데이터중 80개씩 무작위로 뽑아서 여러 모델을 만들어 돌렸을 때 얼마나 일치하는지 확인 -> 교체 시 무작위 샘플링을 사용하는 모든 metric
Bagging: bootstrapping으로 훈련된 여러 모델, 랜덤 부분집합(투표 또는 평균)에 적합
Boosting: 분류하기 어려운 특정 훈련 샘플에 사용, 이전의 weak learner를 sequential하게 합쳐서 strong learner(모델)을 만듦

Stochastic gradient descent: 하나의 샘플을 통해서 gradient 구해서 업데이트
Mini-batch gardient descent: 데이터의 일부분에서 gradient 구함 (가장 많이 활용)
Batch gradient descent: 전체 데이터에서 gradient 구해서 평균냄
flat minimum은 train과 test 값의 차이가 별로 없지만 sharp minimum은 큼 → generalize performance가 떨어짐

Gradient Descent: learning rate 정하기 어려움, learning rate가 너무 크면 학습이 안되고 너무 작으면 학습을 아무리 시켜도 안됨

#python
v = beta * v - learning_rate * gradient
weight[i] += v

Adagrad: 학습 속도를 조정하여 매개 변수에 대한 더 큰 업데이트와 더 작은 업데이트를 수행 (조금 변한 파라미터는 많이 변화시키고, 많이 변한 파라미터는 조금 변화시킴)

#python
beta = beta * s + (1 - beta) * gradient**2
weight[i] += -learning_rate * gradient / (np.sqrt(s) + e)

# tensorflow2.x
tf.keras.optimizers.Adam(lr=0.001, beta_1=0.9, beta_2=0.99, epsilon=None)

Dropout: 일부 뉴런을 무작위로 0으로 설정
Batch Normalization: 각 계층에 대해 경험적 평균과 분산을 독립적으로 계산하고 정규화
L1 regularization: 기존의 cost function에 가중치의 크기가 포함되면서 가중치가 너무 크지 않은 방향으로 학습 되도록 함
L2 regularization (Weight decay): 기존의 cost function에 가중치의 제곱을 포함하여 더함으로써 L1 Regularization 과 마찬가지로 가중치가 너무 크지 않은 방향으로 학습되게 된다

[딥러닝]Optimization Algorithm (최적화 알고리즘)

Gradient Descent[경사하강법], Momentum[모멘텀], RMSprop, Adam, Learning rate decay[학습률 감쇠법]

velog.io

Carpe Diem Carpe Diem