이 문서에서는 Azure Machine Learning 디자이너의 구성 요소에 대해 설명합니다.
파티션 및 샘플 구성 요소를 사용하여 데이터 세트에서 샘플링을 수행하거나 데이터 세트에서 파티션을 만들 수 있습니다.
샘플링은 동일한 값 비율을 유지하면서 데이터 세트의 크기를 줄일 수 있기 때문에 기계 학습에서 중요한 도구입니다. 이 구성 요소는 기계 학습에서 중요한 몇 가지 관련 작업을 지원합니다.
데이터를 동일한 크기의 여러 하위 섹션으로 분할합니다.
교차 유효성 검사에 파티션을 사용하거나 임의 그룹에 사례를 할당할 수 있습니다.
데이터를 그룹으로 구분한 다음 특정 그룹의 데이터로 작업합니다.
다양한 그룹에 사례를 임의로 할당한 후 하나의 그룹에만 연결된 기능을 수정해야 할 수도 있습니다.
샘플링
데이터의 백분율을 추출하거나, 임의 샘플링을 적용하거나, 데이터 세트의 분산에 사용할 열을 선택하고 해당 값에 대해 계층화된 샘플링을 수행할 수 있습니다.
테스트를 위해 작은 데이터 세트 만들기.
데이터가 많은 경우 파이프라인을 설정하는 동안 첫 번째 n 개 행만 사용한 다음 모델을 빌드할 때 전체 데이터 세트를 사용하도록 전환할 수 있습니다. 샘플링을 사용하여 개발에 사용할 더 작은 데이터 세트를 만들 수도 있습니다.
구성 요소 구성
이 구성 요소는 데이터를 파티션으로 나누거나 샘플링하기 위한 다음 방법을 지원합니다. 먼저 메서드를 선택한 다음 메서드에 필요한 추가 옵션을 설정합니다.
- 머리
- 샘플링
- 접기 할당
- 접기 선택
데이터 세트에서 상위 N개 행 가져오기
이 모드를 사용하여 첫 번째 n 개 행만 가져옵니다. 이 옵션은 적은 수의 행에서 파이프라인을 테스트하려는 경우 유용하며 어떤 방식으로든 데이터를 분산하거나 샘플링할 필요가 없습니다.
인터페이스에서 파티션 및 샘플 구성 요소를 파이프라인에 추가하고 데이터 세트를 연결합니다.
파티션 또는 샘플 모드: 이 옵션을 Head로 설정합니다.
선택할 행 수: 반환할 행 수를 입력합니다.
행 수는 음수가 아닌 정수여야 합니다. 선택한 행 수가 데이터 세트의 행 수보다 크면 전체 데이터 세트가 반환됩니다.
파이프라인을 제출합니다.
구성 요소는 지정된 개수의 행만 포함된 단일 데이터 세트를 출력합니다. 행은 항상 데이터 세트의 맨 위에서 읽습니다.
데이터 샘플 만들기
이 옵션은 간단한 무작위 샘플링이나 층화된 무작위 샘플링을 지원합니다. 테스트를 위해 더 작은 대표 샘플 데이터 세트를 만들려는 경우에 유용합니다.
파티션 및 샘플 구성 요소를 파이프라인에 추가하고 데이터 세트를 연결합니다.
파티션 또는 샘플 모드: 이 옵션을 샘플링으로 설정합니다.
샘플링 속도: 0에서 1 사이의 값을 입력합니다. 이 값은 출력 데이터 세트에 포함해야 하는 원본 데이터 세트의 행 백분율을 지정합니다.
예를 들어 원래 데이터 세트의 절반만 원하는 경우 샘플링 비율이 50%여야 함을 나타내기 위해 입력
0.5
합니다.입력 데이터 세트의 행은 지정된 비율에 따라 순서를 섞고 출력 데이터 세트에 선택적으로 배치됩니다.
샘플링을 위한 임의 시드: 필요에 따라 시드 값으로 사용할 정수를 입력합니다.
이 옵션은 매번 동일한 방식으로 행을 나누려는 경우에 중요합니다. 기본값은 0입니다. 즉, 시스템 클록에 따라 시작 시드가 생성됩니다. 이 값을 사용하면 파이프라인을 실행할 때마다 약간 다른 결과가 나타날 수 있습니다.
샘플링을 위해 계층화된 분할: 샘플링 전에 데이터 세트의 행을 일부 키 열로 균등하게 나누는 것이 중요한 경우 이 옵션을 선택합니다.
샘플링을 위한 계층화 키 열의 경우 데이터 세트를 나눌 때 사용할 단일 지층 열을 선택합니다. 데이터 세트의 행은 다음과 같이 나뉩니다.
모든 입력 행은 지정된 층 열의 값으로 그룹화(층화)됩니다.
행은 각 그룹 내에서 순서가 섞입니다.
각 그룹은 지정된 비율을 충족하기 위해 출력 데이터 세트에 선택적으로 추가됩니다.
파이프라인을 제출합니다.
이 옵션을 사용하면 구성 요소는 데이터의 대표 샘플링을 포함하는 단일 데이터 세트를 출력합니다. 데이터 세트의 샘플링되지 않은 나머지 부분은 출력되지 않습니다.
데이터를 파티션으로 분할
데이터 세트를 데이터의 하위 집합으로 나누려는 경우 이 옵션을 사용합니다. 이 옵션은 교차 유효성 검사를 위해 사용자 지정 접기 수를 만들거나 행을 여러 그룹으로 분할하려는 경우에도 유용합니다.
파티션 및 샘플 구성 요소를 파이프라인에 추가하고 데이터 세트를 연결합니다.
파티션 또는 샘플 모드의 경우 접기 할당을 선택합니다.
분할에서 대체 사용: 샘플링된 행을 다시 사용할 수 있도록 행 풀에 다시 넣으려면 이 옵션을 선택합니다. 따라서 동일한 행을 여러 접기로 할당할 수 있습니다.
대체(기본 옵션)를 사용하지 않는 경우 샘플링된 행은 다시 사용할 수 있는 행 풀에 다시 배치되지 않습니다. 따라서 각 행을 하나의 접기만 할당할 수 있습니다.
임의 분할: 행을 폴드에 임의로 할당하려면 이 옵션을 선택합니다.
이 옵션을 선택하지 않으면 행이 라운드 로빈 메서드를 통해 접기하도록 할당됩니다.
임의 시드: 필요에 따라 시드 값으로 사용할 정수를 입력합니다. 이 옵션은 매번 동일한 방식으로 행을 나누려는 경우에 중요합니다. 그렇지 않으면 기본값 0은 임의 시작 시드가 사용됨을 의미합니다.
파티셔너 메서드 지정: 다음 옵션을 사용하여 각 파티션에 데이터를 할당하는 방법을 나타냅니다.
균등하게 파티션: 이 옵션을 사용하여 각 파티션에 동일한 수의 행을 배치합니다. 출력 파티션 수를 지정하려면 상자에 균등하게 분할할 접기 수 지정에 정수를 입력합니다.
사용자 지정 비율이 있는 파티션: 이 옵션을 사용하여 각 파티션의 크기를 쉼표로 구분된 목록으로 지정합니다.
예를 들어 세 개의 파티션을 만들려는 경우를 가정합니다. 첫 번째 파티션에는 데이터의 50%가 포함됩니다. 나머지 두 파티션은 각각 데이터의 25%를 포함합니다. 쉼표 상자로 구분된 비율 목록에 .5, .25, .25 숫자를 입력합니다.
모든 파티션 크기의 합계는 정확히 1까지 추가되어야 합니다.
최대 1보다 작은 숫자를 입력하면 나머지 행을 저장할 추가 파티션이 만들어집니다. 예를 들어 값 .2 및 .3을 입력하면 모든 행의 나머지 50%를 보유하도록 세 번째 파티션이 만들어집니다.
합계가 ‘1보다 큰’인 숫자를 입력하면 파이프라인을 실행할 때 오류가 발생합니다.
계층화된 분할: 분할할 때 행을 계층화하려면 이 옵션을 선택한 다음, 지층 열을 선택합니다.
파이프라인을 제출합니다.
이 옵션을 사용하면 구성 요소는 여러 데이터 세트를 출력합니다. 데이터 세트는 지정한 규칙에 따라 분할됩니다.
미리 정의된 파티션의 데이터 사용
데이터 세트를 여러 파티션으로 나눈 후 추가 분석 또는 처리를 위해 각 파티션을 차례로 로드하려는 경우 이 옵션을 사용합니다.
파티션 및 샘플 구성 요소를 파이프라인에 추가합니다.
파티션 및 샘플의 이전 인스턴스 출력에 구성 요소를 연결합니다. 해당 인스턴스는 폴드에 할당 옵션을 사용하여 일부 파티션을 생성해야 합니다.
파티션 또는 샘플 모드: 접기 선택 선택
샘플링할 접기를 지정합니다. 인덱스 입력으로 사용할 파티션을 선택합니다. 파티션 인덱스는 1부터 시작하는 것입니다. 예를 들어 데이터 세트를 세 부분으로 나눈 경우 파티션에는 인덱스 1, 2 및 3이 있습니다.
잘못된 인덱스 값을 입력하면 디자인 타임 오류가 발생합니다. "오류 0018: 데이터 세트에 잘못된 데이터가 포함되어 있습니다."
데이터 세트를 접기별로 그룹화할 뿐만 아니라 데이터 세트를 대상 접기 및 기타 모든 그룹으로 구분할 수 있습니다. 이렇게 하려면 단일 접기의 인덱싱을 입력한 다음 선택한 접기의 보수 선택 옵션을 선택하여 지정된 접 기의 데이터를 제외한 모든 항목을 가져옵니다.
여러 파티션으로 작업하는 경우 각 파티션을 처리할 파티션 및 샘플 구성 요소 인스턴스를 더 추가해야 합니다.
예를 들어 두 번째 행의 파티션 및 샘플 구성 요소는 폴딩에 할당으로 설정되고 세 번째 행의 구성 요소는 폴딩 선택으로 설정됩니다.
파이프라인을 제출합니다.
이 옵션을 사용하면 구성 요소는 해당 폴딩에 할당된 행만 포함된 단일 데이터 세트를 출력합니다.
참고 항목
접기 지정을 직접 볼 수는 없습니다. 메타데이터에만 표시됩니다.
다음 단계
Azure Machine Learning에서 사용 가능한 구성 요소 집합을 참조하세요.