클러스터링
클러스터링(Clustering )은 데이터 값 또는 기능의 유사성에 따라 관찰이 클러스터로 그룹화되는 감독되지 않는 기계 학습의 한 형태입니다. 이러한 종류의 기계 학습은 이전에 알려진 레이블 값을 사용하여 모델을 학습하지 않기 때문에 감독되지 않은 것으로 간주됩니다. 클러스터링 모델에서 레이블은 관련 특징만을 기준으로 관찰이 할당되는 클러스터입니다.
예제 - 클러스터링
예를 들어 식물학자가 꽃 샘플을 관찰하고 각 꽃에 잎과 꽃잎의 수를 기록한다고 가정합니다.
데이터 세트에는 알려진 레이블이 없으며 두 가지 기능만 있습니다. 목표는 꽃의 다른 유형 (종)을 식별하는 것이 아닙니다; 그냥 잎과 꽃잎의 수에 따라 함께 유사한 꽃을 그룹화합니다.
잎 (x1) | 꽃잎 (x2) |
---|---|
0 | 5 |
0 | 6 |
1 | 3 |
1 | 3 |
1 | 6 |
1 | 8 (여덟) |
2 | 3 |
2 | 7 |
2 | 8 (여덟) |
클러스터링 모델 학습
클러스터링에 사용할 수 있는 다양한 알고리즘이 존재합니다. 가장 일반적으로 사용되는 알고리즘 중 하나는 다음 단계로 구성된 K-평균 클러스터링입니다.
- 기능(x) 값은 n차원 좌표를 정의하도록 벡터화됩니다(여기서 n 은 기능 수임). 꽃 예제에는 잎 수(x1)와 꽃잎 수(x2)의 두 가지 특징이 있습니다. 따라서 기능 벡터에는 2차원 공간에 데이터 요소를 개념적으로 그리는 데 사용할 수 있는 두 개의 좌표가 있습니다([x1,x2]).
- 꽃을 그룹화하기 위해 사용할 클러스터 수를 결정합니다. 이 값 k를 호출합니다. 예를 들어 세 개의 클러스터를 만들려면 k 값 3을 사용합니다. 그런 다음 k 점이 임의 좌표로 그려집니다. 이러한 지점은 각 클러스터의 중심점이 되므로 중심점이라고 합니다.
- 각 데이터 지점(이 경우에는 꽃)이 가장 가까운 중심에 할당됩니다.
- 각 중심은 점수 간의 평균 거리를 기준으로 해당 개체에 할당된 데이터 요소의 가운데로 이동됩니다.
- 중심이 옮겨진 후 데이터 요소가 다른 중심에 더 가까이 있게 될 수도 있으므로, 가장 가까운 새 중심을 기반으로 데이터 요소가 클러스터에 재할당됩니다.
- 중심 이동 및 클러스터 재할당 단계는 클러스터가 안정되거나 사전에 정해진 최대 반복 횟수에 도달할 때까지 반복됩니다.
다음 애니메이션은 해당 프로세스를 나타냅니다.
클러스터링 모델 평가
예측된 클러스터 할당을 비교할 알려진 레이블이 없으므로 클러스터링 모델의 평가는 결과 클러스터가 서로 얼마나 잘 분리되는지에 따라 달라집니다.
다음을 포함하여 클러스터 분리를 평가하는 데 사용할 수 있는 여러 메트릭이 있습니다.
- 클러스터 중심까지의 평균 거리: 클러스터의 각 지점이 클러스터의 중심점에 얼마나 가깝습니다.
- 다른 중심까지의 평균 거리: 클러스터의 각 지점이 다른 모든 클러스터의 중심점과 평균적으로 얼마나 가깝습니다.
- 클러스터 중심까지의 최대 거리: 클러스터의 지점과 중심점 사이의 가장 먼 거리입니다.
- 실루엣: 동일한 클러스터의 점과 다른 클러스터의 점 사이의 거리 비율을 요약하는 -1 1 사이의 값입니다(1에 가까울수록 클러스터 분리가 향상됨).