본문 바로가기

AI & Optimization/Machine Learning5

[ML] 클러스터링 성능 지표: Silhouette Score, DBI, CHI, Dunn Index 클러스터링은 비지도 학습(unsupervised learning)이기 때문에 정답 레이블를 사용하지 않습니다. 이때, 정답 레이블 없이 클러스터링 결과를 평가하기 위해 내부 평가 지표를 사용할 수 있습니다. 내부 평가 지표는 주로 데이터 간의 거리와 분산을 기반으로 계산되는데 silhouette score, DBI (Davies-Bouldin index), CHI (Calinski-Harabasz index), Dunn Index 등이 있습니다. ■ Silhouette ScoreSilhouette score는 클러스터링 성능 평가를 위한 가장 대표적인 지표로 값이 클수록 좋은 성능을 의미합니다. Silhouette score는 개별 데이터 포인트마다 silhouette value로 먼저 계산됩니다. Si.. 2025. 9. 13.

[ML] Curse of Dimensionality (차원의 저주) 차원의 저주(Curse of Dimensionality)란? 차원의 저주는 데이터를 고차원 영역에서 분석할 때 나타나는 여러가지 문제점을 의미합니다. 대표적으로는 차원이 증가하면 데이터를 이루는 공간이 커지게 됩니다. 이에 따라 데이터가 넓어진 공간 전체에 퍼지게 되어 데이터의 밀도가 희소(sparse)해집니다. 고차원에서는 가장 가까운 점과 가장 먼점의 상대적 거리 차이가 작아지는 거리 집중(Distance concentration) 현상이 나타납니다. AI 모델이 좋은 성능을 내기 위해선 데이터가 이루는 공간의 지역적 패턴들을 학습해야 하고 각 부분 공간에 충분한 샘플이 존재해야 합니다. 모델은 경험해본 상황이 많을수록 더 정확한 결과를 낼 수 있기 때문입니다. 하지만 차원이 증가했을 때 넓어진 공간.. 2025. 7. 30.

[ML] Eigenvector(고유벡터), Eigenvalue(고유값)의 의미 고유벡터(Eigenvector)와 고유값(Eigenvalue)은 선형대수학의 핵심적인 개념으로 선형 변환(Linear transformation)의 특성을 파악하는데 사용될 수 있습니다. 선형 변환(Linear transformation)이란?어떤 행렬 $A$가 벡터 $\vec{x}$에 적용하면 새로운 벡터 $A\vec{x}$를 생성합니다. 이때 행렬 $A$를 $\vec{x}$에 적용되는 선형 변환이라고 합니다. 선형 변환 $A$은 벡터에 적용되는 함수 $f(\cdot)$의 일종이라고 볼 수 있습니다. 기하학적으로 선형 변환은 늘이기, 회전, 반사, 기울이기, 축소 등의 연산을 복합적으로 수행하여 점(벡터)를 이동(변환)시킵니다. 예를 들어, 선형 변환 $A=\begin{bmatrix} 0.5 & -0... 2025. 7. 27.

[ML] Importance Sampling (중요도 샘플링) 확률 모델에 기반한 머신 러닝에서 함수 $f(x)$의 확률분포 $p(x)$의 기댓값을 구해야 하는 경우가 있습니다. 하지만 기댓값 $\mathbb{E}_{x\sim p}[f(x)]=\int f(x)p(x)dx$ 을 수식적으로 계산하기 어려운 경우 큰 수의 법칙(Law of large numbers)에 따라 sampling을 통해 $x^{(n)}$을 추출한 후 아래와 같이 기댓값을 근사할 수 있습니다. 이러한 방법을 Monte Carlo 기법이라고 합니다. $$ \mathbb{E}_{x\sim p}[f(x)]\simeq\frac{1}{N}\sum_{n=1}^N f(x^{(n)})$$ Importance Sampling이란?Importance sampling은 이러한 상황에서 본래의 분포 $p(x)$가 아.. 2023. 12. 3.

[ML] 분류 성능 지표: Precision(정밀도), Recall(재현율), F1-score 분류 모델이 얼마나 잘 학습되었는지에 대한 성능 지표는 Accuracy (정확도), Precision (정밀도), Recall (재현율) 등이 있습니다. 각각의 성능 지표 전에 confusion matrix 먼저 알아보도록 하겠습니다. 1) Confusion MatrixConfusion matrix는 실제 클래스와 예측된 클래스의 매칭을 이용하여 분류 모델을 평가하는 도구입니다. 이진 분류 문제에서 실제 클래스는 Positive/Negative로 나누어져 있고 분류 모델은 샘플들을 Positive/Negative로 분류합니다. 따라서 [그림 1]처럼 TP (True Positive), FP (False Positive), FN (False Negative), TN (True Negative)의 네가지 경.. 2023. 1. 21.

이전 1 다음

티스토리툴바