- 유클리드 거리(Euclidean distance): 두 점 / 직선 거리
- 맨해튼 거리(Manhattan distance): 두 점 수직/수평 거리 (블록거리같은 지리적 위치데이터를 측정할 수 있음)
- 코사인 유사도(Cosine similarity): 두 벡터 / 각도 / 주로 고차원 데이터에 적합 (각도라 차원의 영향을 받지 않음)
- 자카드 유사도(Jaccard similarity): 두 집합 / 공통 원소 비율 (영상처리)
- 매치 유사도(Match similarity): 문자열, 시퀀스 데이터 / 부분 문자열이 얼마나 일치하는지를 계산 (문자열 매칭, 검색)
- 편집 거리(Edit distance): 두 문자열 사이의 삽입, 삭제, 대체 연산의 최소 횟수를 계산 (음성인식, 문자열매칭)
이 중에서 유클리드 거리와 코사인 유사도가 제일 많이 쓰임.
유클리드 거리는
점과 점 사이의 실제 거리를 측정하는 것이기 때문에,
예시로 이미지 처리에서 두 이미지 간의 픽셀 값 차이를 측정할 때 사용됨.
코사인 유사도는
벡터간의 각을 측정하였기 때문에, 고차원에 매핑하여도 값에 영향을 받지 않아서,
종이를 구겨넣는 모양의 딥러닝에는 주로 코사인 유사도가 쓰이고 있음.
추천시스템, 정보검색, 문서분류 등 좀 더 복잡한 모델에 사용됨.
728x90
반응형
'DL' 카테고리의 다른 글
비지도학습 / K-means, DBSCAN / PCA, T-SNE (0) | 2023.01.30 |
---|---|
추천시스템 - ALS (0) | 2023.01.26 |
추천 시스템 알고리즘/ MF / CSR (0) | 2023.01.25 |
MLE, MAP / prior, posterior, likelihood (0) | 2023.01.18 |
확률과 통계 (0) | 2023.01.16 |
댓글