Data Lake Analytics를 사용하여 웹 사이트 로그를 분석하는 방법, 특히 웹 사이트를 방문하려고 할 때 오류가 발생한 참조자를 찾는 방법을 알아봅니다.
중요합니다
Azure Data Lake Analytics는 2024년 2월 29일에 사용 중지되었습니다. 이 공지 사항을 통해 자세히 알아보세요.
데이터 분석을 위해 조직은 Azure Synapse Analytics 또는 Microsoft Fabric을 사용할 수 있습니다.
필수 조건
Visual Studio 2015 또는 Visual Studio 2013.
Data Lake Tools for Visual Studio.
Data Lake Tools for Visual Studio가 설치되면 Visual Studio의 도구 메뉴에 Data Lake 항목이 표시됩니다.
Data Lake Analytics 및 Data Lake Tools for Visual Studio에 대한 기본 지식 시작하려면 다음을 참조하세요.
Data Lake Analytics 계정입니다. Azure Data Lake Analytics 계정 만들기를 참조하세요.
샘플 데이터를 설치합니다. Azure Portal에서 Data Lake Analytics 계정을 열고 왼쪽 메뉴에서 샘플 스크립트 를 선택한 다음, 샘플 데이터 복사를 선택합니다.
Azure에 연결
U-SQL 스크립트를 빌드하고 테스트하려면 먼저 Azure에 연결해야 합니다.
Data Lake Analytics에 연결하려면
- Visual Studio를 엽니다.
- Data Lake > 옵션 및 설정을 선택합니다.
- 로그인을 선택하거나 다른 사용자가 로그인한 경우 사용자를 변경하고 지침을 따릅니다.
- [확인]을 선택하여 [옵션 및 설정] 대화 상자를 닫습니다.
Data Lake Analytics 계정을 살펴보려면
- Visual Studio에서 Ctrl+Alt+S를 눌러 서버 탐색기를 엽니다.
- 서버 탐색기에서 Azure를 확장한 다음 Data Lake Analytics를 확장합니다. Data Lake Analytics 계정 목록이 있는 경우 표시됩니다. 스튜디오에서 Data Lake Analytics 계정을 만들 수 없습니다. 계정을 만들려면 Azure Portal을 사용하여 Azure Data Lake Analytics 시작 또는 AzurePowerShell을 사용하여 Azure Data Lake Analytics 시작을 참조하세요.
U-SQL 애플리케이션 개발
U-SQL 애플리케이션은 주로 U-SQL 스크립트입니다. U-SQL에 대한 자세한 내용은 U-SQL 시작 방법을 참조하세요.
애플리케이션에 사용자 정의 연산자를 추가할 수 있습니다. 자세한 내용은 Data Lake Analytics 작업에 대한 U-SQL 사용자 정의 연산자 개발을 참조하세요.
Data Lake Analytics 작업을 만들고 제출하려면
파일 > 새 > 프로젝트를 선택합니다.
U-SQL 프로젝트 유형을 선택합니다.
확인을 선택합니다. Visual Studio는 Script.usql 파일을 사용하여 솔루션을 만듭니다.
Script.usql 파일에 다음 스크립트를 입력합니다.
// Create a database for easy reuse, so you don't need to read from a file very time. CREATE DATABASE IF NOT EXISTS SampleDBTutorials; // Create a Table valued function. TVF ensures that your jobs fetch data from he weblog file with the correct schema. DROP FUNCTION IF EXISTS SampleDBTutorials.dbo.WeblogsView; CREATE FUNCTION SampleDBTutorials.dbo.WeblogsView() RETURNS @result TABLE ( s_date DateTime, s_time string, s_sitename string, cs_method string, cs_uristem string, cs_uriquery string, s_port int, cs_username string, c_ip string, cs_useragent string, cs_cookie string, cs_referer string, cs_host string, sc_status int, sc_substatus int, sc_win32status int, sc_bytes int, cs_bytes int, s_timetaken int ) AS BEGIN @result = EXTRACT s_date DateTime, s_time string, s_sitename string, cs_method string, cs_uristem string, cs_uriquery string, s_port int, cs_username string, c_ip string, cs_useragent string, cs_cookie string, cs_referer string, cs_host string, sc_status int, sc_substatus int, sc_win32status int, sc_bytes int, cs_bytes int, s_timetaken int FROM @"/Samples/Data/WebLog.log" USING Extractors.Text(delimiter:' '); RETURN; END; // Create a table for storing referrers and status DROP TABLE IF EXISTS SampleDBTutorials.dbo.ReferrersPerDay; @weblog = SampleDBTutorials.dbo.WeblogsView(); CREATE TABLE SampleDBTutorials.dbo.ReferrersPerDay ( INDEX idx1 CLUSTERED(Year ASC) DISTRIBUTED BY HASH(Year) ) AS SELECT s_date.Year AS Year, s_date.Month AS Month, s_date.Day AS Day, cs_referer, sc_status, COUNT(DISTINCT c_ip) AS cnt FROM @weblog GROUP BY s_date, cs_referer, sc_status;
U-SQL을 이해하려면 Data Lake Analytics U-SQL 언어 시작을 참조하세요.
프로젝트에 새 U-SQL 스크립트를 추가하고 다음을 입력합니다.
// Query the referrers that ran into errors @content = SELECT * FROM SampleDBTutorials.dbo.ReferrersPerDay WHERE sc_status >=400 AND sc_status < 500; OUTPUT @content TO @"/Samples/Outputs/UnsuccessfulResponses.log" USING Outputters.Tsv();
첫 번째 U-SQL 스크립트로 다시 전환하고 제출 단추 옆에 분석 계정을 지정합니다.
솔루션 탐색기에서 Script.usql을 마우스 오른쪽 으로 선택한 다음, 빌드 스크립트를 선택합니다. 출력 창에서 결과를 확인합니다.
솔루션 탐색기에서 Script.usql을 선택한 다음 스크립트 제출을 선택합니다.
분석 계정이 작업을 실행하려는 계정인지 확인한 다음 제출을 선택합니다. 제출 결과 및 작업 링크는 제출이 완료되면 Data Lake Tools for Visual Studio 결과 창에서 사용할 수 있습니다.
작업이 성공적으로 완료될 때까지 기다립니다. 작업이 실패한 경우 원본 파일이 누락되었을 가능성이 큽 수 있습니다. 이 자습서의 필수 구성 요소 섹션을 참조하세요. 자세한 문제 해결 정보는 Azure Data Lake Analytics 작업 모니터링 및 문제 해결을 참조하세요.
작업이 완료되면 다음 화면이 표시됩니다.
이제 Script1.usql에 대해 7-10단계를 반복합니다.
작업 출력을 보려면
- 서버 탐색기에서 Azure를 확장하고, Data Lake Analytics를 확장하고, Data Lake Analytics 계정을 확장하고, 스토리지 계정을 확장하고, 기본 Data Lake Storage 계정을 마우스 오른쪽 단추로 클릭한 다음, 탐색기를 선택합니다.
- 샘플을 두 번 클릭하여 폴더를 연 다음 출력을 두 번 클릭합니다.
- UnsuccessfulResponses.log 두 번 클릭합니다.
- 출력으로 직접 이동하려면 작업의 그래프 뷰 내에서 출력 파일을 두 번 클릭할 수도 있습니다.
다음 단계
다른 도구를 사용하여 Data Lake Analytics를 시작하려면 다음을 참조하세요.