본문 바로가기

전체 글32

[RL] 강화학습 이론: On-policy & Off-policy 강화학습 알고리즘은 on-policy 방식과 off-policy 방식으로 분류될 수 있습니다. On-policy와 Off-policy의 차이는 아래와 같습니다. On-policy methods: Behavior policy = Target policyOff-policy methods: Behavior policy ≠ Target policy 여기서 behavior policy와 target policy의 개념이 나오는데 아래와 같습니다. Behavior policy $b(a|s)$: Action을 선택하고 데이터 샘플을 얻을 때 사용되는 policyTarget policy $\pi(a|s)$: 평가(evaluate)하고 업데이트(improve)하고자 하는 policy 즉 정책 업데이트를 위한 $V(s)$.. 2023. 11. 8.
[DL] 회귀 손실 함수: Huber Loss & Smooth L1 Loss 회귀 모델의 대표적인 손실 함수로 L1 loss와 L2 loss가 있습니다. L1 loss는 MAE (Mean Absolute Error)라고도 하며 L2 loss는 MSE (Mean Squared Error)라고도 합니다. ■ L2 Loss (MSE, Mean Squared Error)L2 loss는 실제값과 예측값의 오차를 제곱하여 구합니다. 모든 구간에서 미분이 가능하여 gradient를 구하기 쉽지만, 실제값과 예측값이 차이가 큰 outlier에 대해서는 제곱 효과에 의해 loss가 커지는 단점이 있습니다. PyTorch에서는 torch.nn.MSELoss를 통해 구할 수 있습니다. $$ \text{L2 Loss} = \sum_{n=1}^N (x_n-y_n)^2 $$ ■ L1 Loss (MA.. 2023. 11. 7.
[RL] 강화학습 알고리즘: (5) PPO PPO (Proximal Policy Optimization)는 2017년도 OpenAI에서 공개한 논문으로 이전 TRPO (Trust Region Policy Optimization) 알고리즘을 실용적으로 발전시킨 논문입니다. Policy gradient 계열의 알고리즘으로 성능이 우수하면서도 구현이 간단하여 performance와 complexity의 밸런스가 잘 잡힌 알고리즘으로 알려져 있습니다. MotivationPPO와 TRPO 알고리즘은 동일한 철학을 가지고 있습니다. 현재 policy를 가능한 빠르게 향상시키되, 성능이 발산해버릴 정도로 너무 policy가 급격하게 바뀌는 것은 억제하고자 합니다. 이러한 최적화 기법을 trust region method라고 합니다. TRPO와 PPO 알.. 2023. 8. 13.
[ML] 분류 성능 지표: Precision(정밀도), Recall(재현율), F1-score 분류 모델이 얼마나 잘 학습되었는지에 대한 성능 지표는 Accuracy (정확도), Precision (정밀도), Recall (재현율) 등이 있습니다. 각각의 성능 지표 전에 confusion matrix 먼저 알아보도록 하겠습니다. 1) Confusion MatrixConfusion matrix는 실제 클래스와 예측된 클래스의 매칭을 이용하여 분류 모델을 평가하는 도구입니다. 이진 분류 문제에서 실제 클래스는 Positive/Negative로 나누어져 있고 분류 모델은 샘플들을 Positive/Negative로 분류합니다. 따라서 [그림 1]처럼 TP (True Positive), FP (False Positive), FN (False Negative), TN (True Negative)의 네가지 경.. 2023. 1. 21.
[최적화] DE (Differential Evolution) 알고리즘 차분 진화 (Differential evolution, DE) 알고리즘은 최적해를 찾기 위한 metaheuristic 기법 중 하나입니다. Metaheuristic 알고리즘들은 global optimal solution으로의 수렴을 보장해주지는 않지만, 제한된 정보와 적은 복잡도를 가지고 상당히 좋은 솔루션을 찾을 수 있다는 장점이 있습니다. Differential Evolution이란?DE 알고리즘은 multi-dimensional real-valued 함수의 최적화를 위해 쓰이지만 gradient를 사용하지 않기 때문에 목적 함수가 미분 가능하지 않아도 된다는 특징이 있습니다. DE 알고리즘은 기본적으로 유전 알고리즘 (Genetic algorithm, GA)와 유사한 구조를 가지고 있습니다. Pop.. 2022. 12. 31.
[RL] 강화학습 알고리즘: (4) DDPG DDPG (Deep Deterministic Policy Gradient)는 Google DeepMind에서 2016년도 ICLR에 발표한 논문입니다. 이전 2014년에 공개한 DPG (Deterministic Policy Gradient) 논문에서 DQN을 결합하여 발전시킨 알고리즘입니다. MotivationDDPG는 DQN에서 성공적이었던 부분들을 continuous action 영역으로 확장하고자 하였습니다. 단순히 continuous action 영역을 discrete한 구간으로 잘게 나누는 것은 많아진 discrete action들로 인한 학습 성능 저해(curse of dimensionality)와 기존 continuous action이 가진 구조적 정보를 잃어버린다는 단점이 있습니다. 따라서.. 2022. 12. 30.
[5G] NR Initial Access: (2) Random Access 이전 포스팅에서 설명했던 cell search와 cell selection이 완료되면 단말은 획득한 SIB1 정보를 바탕으로 UL 방향 동기를 맞추고 셀에 접속하기 위한 random access 절차를 진행하게 됩니다. Random access는 CBRA (contention-based RA)와 CFRA (contention-free RA) 두가지로 구분되는데 NR NSA에서는 CFRA를 통해, 그리고 NR SA에서는 CBRA를 통해 initial access를 수행합니다. CBRA (Contention-based Random Access)Random access의 목적 중 하나는 단말이 UL 동기를 획득하는 것입니다. UL 동기는 기지국이 설정한 UL 수신 타이밍에 맞춰 단말이 신호를 보낼 수 있어야.. 2022. 12. 10.
[RL] 강화학습 알고리즘: (3) Dueling DQN Dueling DQN은 DQN의 후속 논문으로 Google DeepMind에서 2016년도에 공개한 논문입니다. DQN에 관련된 내용은 이전 포스팅을 참고하시길 바랍니다. Motivation기존 DQN에서는 computer vision에서 사용되던 CNN을 이용하여 Q-network를 구성합니다. 만약 기존의 신경망 구조 대신 강화학습에 더 특화된 신경망 구조를 이용해 학습하면 더 나은 결과를 보여줄 수 있을 겁니다. 논문은 이를 위해 dueling architecture라는 새로운 신경망 구조를 제안합니다. Dueling Network Architecture Dueling Q-network의 구조는 위 그림과 같습니다. 기존의 Q-network에서는 마지막 fully-connected layer를 통과.. 2022. 9. 12.
반응형