Loom은 애플리케이션 간의 이벤트를 상호 연관시켜 실시간으로 문제의 원인을 제공할 수 있는 머신 러닝 기반의 로그 분석 솔루션입니다. 수집되는 모든 이벤트에서 자동으로 지표를 선정하고 자동으로 학습하며 임계치 관리가 이루어집니다. 분석을 위해 별도의 트리거를 수행한다거나 차트를 구성하는 등 수작업이 필요 없으며 문제가 발생된 시점의 서로 다른 지표(애플리케이션, 서버, 네트워크 장비 등)를 연관시켜 제시해 줍니다.
ITSI 및 X-Pack이라는 보완 기능을 제공하나 대부분 수작업으로 대상 식별 및 데이터 가공이 수반됩니다.
1세대 로그 분석 솔루션의 단점 |
---|
① 툴이 데이터를 처리할 수 있도록 수작업이 필요(데이터 매핑 등) |
② 모니터링(Alert)을 위해 파라미터와 임계치를 수작업으로 설정 |
③ 서로 다른 데이터를 수작업으로 연관시켜줘야 함 |
④ 문제 원인 분석을 직접 수행하고 건당 평균 3~4시간 소요 |
⑤ 문제 원인에 대해 해결 방법을 수동으로 조사 |
⑥ 운영 환경에 맞게 구성(해결방법)을 수작업으로 보완하여 적용 |
자동 구성 vs, 수동 구성 | 모든 로그를 자동으로 분석하고 메트릭 및 주요 요소를 자동 식별하여 기준을 정의하고 문제 예측을 위해 AI가 적용. |
---|---|
알 수 없는 것까지도 찾아내느냐 vs, 알 수 있는 것만 커버하느냐 | 모든 데이터를 분석하고 의미있는 예외를 찾아낼 수 있느냐 아니면 정의해 놓은 지표에 대해서만 모니터링(분석)이 가능하냐의 차이. 사용자가 어떤 문제를 찾아야 하는지 알 필요가 없으며, 알지 못했어도 새로운 문제가 발견되면 등록하여 관리할 수 있어야 한다. |
애플리케이션 간의 상관관계 분석과 단일 요소에 대한 문제 원인 분석 | 분석시 한번에 하나의 계층에서만 서비스별로 이루어지기 보다는 서로 다른 애플리케이션 및 서비스 스택 전체를 연결하는 연관분석이 효과적. |
이상 탐지 유형 | 미리 정의하지 않은 유형의 이벤트가 발생시 대처가 안되므로 별도 구성 없이 모든 데이터를 자동으로 분석하는 Machine Learning Algorithm을 사용 |
Loom의 TriKB(Tribal Knowledge Bank) | 문제 해결을 위한 조사 과정 등의 시간과 노력을 필요로 하나 Loom은 문제 해결에 대한 데이터베이스를 제공하여 문제 해결 시간을 단축하고 해결 방법을 재활용할 수 있음. |
단일 계층의 이벤트만으로 이상 상태에 대한 정보를 제공하는게 아니라 해당 시점의 여러 계층의 상태 정보를 연관시켜 제공. 설명 : ㉮haproxy.cfg 파일의 오류로 ㉯서버에서 Error가 급증했고 이 영향으로 ㉰사용자 트랜잭션에 대한 이메일 발송이 안되었으며, ㉱Connection이 모두 소진되는 현상을 초래.
설명 : ㉮haproxy.cfg 파일의 오류가 원인이므로 ㉯이전 config 내용으로 원복하라는 가이드
설명 : 별도의 인덱스 정의 없이 수집된 로그 이벤트를 자동으로 분류
설명 : PCI DSS requirement 10: “네트워크 리소스 및 카드 소유자 데이터에 대한 모든 액세스 추적 및 모니터링”
설명 : 캐시 클러스터 자원 부족에 따른 증설 권고
설명 : Image Access Authorize Fail에 대한 신규 패턴 검출
COLLECTION & PROCESSING | 수작업 없이 정형, 비정형 데이터를 자동으로 처리 |
---|---|
MODELING & ANALYSIS | 자체 학습 알고리즘 기반의 사전장애예측, 데이터 연관 분석 기능 및 자동 장애원인분석 |
ENRICHMENT & INSIGHTS | Tribal Knowledge Bank(문제해결 데이터베이스), 경보, 실시간 데이터 인사이트 확보를 위한 직관적인 대시보드 제공 |