클러스터링

완료됨

클러스터링(Clustering )은 데이터 값 또는 기능의 유사성에 따라 관찰이 클러스터로 그룹화되는 감독되지 않는 기계 학습의 한 형태입니다. 이러한 종류의 기계 학습은 이전에 알려진 레이블 값을 사용하여 모델을 학습하지 않기 때문에 감독되지 않은 것으로 간주됩니다. 클러스터링 모델에서 레이블은 관련 특징만을 기준으로 관찰이 할당되는 클러스터입니다.

예제 - 클러스터링

예를 들어 식물학자가 꽃 샘플을 관찰하고 각 꽃에 잎과 꽃잎의 수를 기록한다고 가정합니다.

일부 꽃의 다이어그램.

데이터 세트에는 알려진 레이블이 없으며 두 가지 기능만 있습니다. 목표는 꽃의 다른 유형 (종)을 식별하는 것이 아닙니다; 그냥 잎과 꽃잎의 수에 따라 함께 유사한 꽃을 그룹화합니다.

(x1) 꽃잎 (x2)
0 5
0 6
1 3
1 3
1 6
1 8 (여덟)
2 3
2 7
2 8 (여덟)

클러스터링 모델 학습

클러스터링에 사용할 수 있는 다양한 알고리즘이 존재합니다. 가장 일반적으로 사용되는 알고리즘 중 하나는 다음 단계로 구성된 K-평균 클러스터링입니다.

  1. 기능(x) 값은 n차원 좌표를 정의하도록 벡터화됩니다(여기서 n 은 기능 수임). 꽃 예제에는 잎 수(x1)와 꽃잎 수(x2)의 두 가지 특징이 있습니다. 따라서 기능 벡터에는 2차원 공간에 데이터 요소를 개념적으로 그리는 데 사용할 수 있는 두 개의 좌표가 있습니다([x1,x2]).
  2. 꽃을 그룹화하기 위해 사용할 클러스터 수를 결정합니다. 이 값 k를 호출합니다. 예를 들어 세 개의 클러스터를 만들려면 k 값 3을 사용합니다. 그런 다음 k 점이 임의 좌표로 그려집니다. 이러한 지점은 각 클러스터의 중심점이 되므로 중심점이라고 합니다.
  3. 각 데이터 지점(이 경우에는 꽃)이 가장 가까운 중심에 할당됩니다.
  4. 각 중심은 점수 간의 평균 거리를 기준으로 해당 개체에 할당된 데이터 요소의 가운데로 이동됩니다.
  5. 중심이 옮겨진 후 데이터 요소가 다른 중심에 더 가까이 있게 될 수도 있으므로, 가장 가까운 새 중심을 기반으로 데이터 요소가 클러스터에 재할당됩니다.
  6. 중심 이동 및 클러스터 재할당 단계는 클러스터가 안정되거나 사전에 정해진 최대 반복 횟수에 도달할 때까지 반복됩니다.

다음 애니메이션은 해당 프로세스를 나타냅니다.

k-평균 클러스터링 프로세스를 보여 주는 애니메이션의 다이어그램입니다.

클러스터링 모델 평가

예측된 클러스터 할당을 비교할 알려진 레이블이 없으므로 클러스터링 모델의 평가는 결과 클러스터가 서로 얼마나 잘 분리되는지에 따라 달라집니다.

다음을 포함하여 클러스터 분리를 평가하는 데 사용할 수 있는 여러 메트릭이 있습니다.

  • 클러스터 중심까지의 평균 거리: 클러스터의 각 지점이 클러스터의 중심점에 얼마나 가깝습니다.
  • 다른 중심까지의 평균 거리: 클러스터의 각 지점이 다른 모든 클러스터의 중심점과 평균적으로 얼마나 가깝습니다.
  • 클러스터 중심까지의 최대 거리: 클러스터의 지점과 중심점 사이의 가장 먼 거리입니다.
  • 실루엣: 동일한 클러스터의 점과 다른 클러스터의 점 사이의 거리 비율을 요약하는 -1 1 사이의 값입니다(1에 가까울수록 클러스터 분리가 향상됨).