Blog

보안 전문가의 분석 역량과 머신 러닝을 결합한 자동화 기반의 경보(Alert) 스코어링

Mandiant Data Science
Apr 04, 2023
5 min read
|   Last updated: Jul 26, 2023
Data Science
Machine Learning
Threat Intelligence

디지털 위험 보호(Digital Risk Protection)은 위협 인텔리전스 스택의 핵심 구성 요소입니다. 그 이유는 간단합니다. 기업의 디지털 전환이 가속화되면서 조직은 다양한 디지털 플랫폼과 서비스를 통해 풋프린트를 확장하고 있고 더불어 공격 표면도 넓어지고 있습니다. 따라서 디지털 위험을 식별하고 완화하기 위한 전략과 수단이 중요합니다. 이런 이유로 보안에 신경을 많이 쓰는 조직들은 디지털 위험 보호를 위협 인텔리전스의 핵심으로 꼽습니다.

맨디언트 어드밴티지(Mandiant Advantage)의 디지털 위험 보호 모듈(이하 DTM 모듈)은 소셜 미디어, 딥 웹 및 다크 웹, 페이스트 사이트 및 기타 온라인 채널에서 자산을 표적으로 삼는 위험에 대한 가시성을 확보할 수 있는 기능을 고객에게 제공합니다. DTM은 머신 러닝을 사용해 자연어 처리 기반 보안 관련 주제 탐지를 수행하고, 이를 기반으로 충실도 높은 경보(alert)를 생성합니다. 맨디언트는 매일 수집되는 수백만 개의 문서에서 가장 관련성이 높은 경보를 필터링하여 선별합니다. 그럼에도 고객은 경보 중 어떤 것이 관련성이 높은지 의사결정을 하는 데 많은 시간을 투자해야 합니다.

Highlights

  • 맨디언트는 머신 러닝을 기반으로 자동화 기반으로 DTM 관련 경보를 스코어링하는 기능을 개발하였습니다.
  • DTM 경보 스코어는 두 가지 구성 요소에 의해 관리됩니다. 하나는 신뢰도로 경보가 실제로 악의적인 위협이라는 확신을 스코어링하는 것이고 다른 하나는 심각도로 위협의 잠재적인 영향력을 스코어링하는 것입니다.
  • 신뢰도와 심각도 스코어를 함께 적용하면 평균적으로 전체 경보의 3.1%, 수집된 전체 문서의 0.1% 미만이 심각도가 높은 카테고리로 분류됩니다. 고객은 이 분류를 참조해 우선순위를 정해 시간과 비용을 크게 절감할 수 있습니다.

머신 러닝과 보안 분석가의 전문성이 만들어 낸 시너지 효과

맨디언트는 2004년부터 사이버 침해 최전선에서 다양한 규모의 조직을 공격으로부터 방어하였습니다. 이 과정에서 맨디언트의 위협 분석가, 리버스 엔지니어, 인텔리전스 분석가, 사고 대응 전문가가 쌓은 경험은 타의 추종을 불허합니다. 전문성 높은 보안 분석가는 경보의 복잡성을 잘 압니다. 보안 전문가는 데이터를 통해 직접 관찰할 수 없는 추상적인 개념을 식별하고 경보의 심각도에 따라 상세 조사를 언제 시작해야 할지를 파악합니다. 이처럼 전문가가 직접 검토하는 방식은 제약이 있습니다. 바로 너무 많은 양의 데이터를 처리하기에 시간이 부족하다는 것입니다. 맨디언트는 이런 제약을 극복하기 위해 전문가의 경험과 머신 러닝 기반의 자동화를 결합하는 시도를 하였습니다. 그 결과물이 머신 러닝 기반으로 DTM 경보 스코어링 기능입니다.

고객마다 경보 우선순위가 다를 수 있고, 고유한 선호와 요구 사항이 있을 수 있습니다. 이에 맨디언트는 분석 전문가의 머신 러닝을 신중하게 결합할 수 있는 맨디언트 스코어링 프레임워크를 개발해 올해 열린 mWISE 컨퍼런스에서 발표하였습니다. 이 프레임워크를 통해 맨디언트의 전문 지식을 매일 쏟아지는 수백만 건의 DTM 경보를 스코어링에 활용할 수 있습니다. 또한, 이 프레임워크를 통해 고객은 우선순위에 따라 경보를 분류하는 프로세스를 표준화하고, 분석가가 다른 중요한 작업에 시간을 할애할 수 있도록 할 수 있습니다.

사례 연구: 디지털 위협 모니터링 경보 스코어링

DTM 경보 스코어링 기능은 맨디언트 고객에게 제공됩니다. 이 기능의 핵심 요소는 신뢰도와 심각도입니다.

DTM 경보의 신뢰도 스코어는 기존 증거를 고려할 때 경보의 품질을 평가할 때 참조할 수 있습니다. 보안 분석가가 최종 판단을 내리는 방식을 참조해 만든 준지도 학습 방식(Semi-supervised)의 머신 러닝 모델을 통해 DTM 경보 신뢰도 스코어링이 이루어집니다(그림 1).

Automating the analyst’s process for determining the confidence of a DTM alert
그림 1. 보안 분석가가 DTM 경보의 신뢰도를 결정하는 프로세스를 자동화한 예. 보안 분석가와 마찬가지로 머신 러닝 모델은 단순화된 라벨링 함수로 코드화된 많은 수의 신호(남색 박스)를 고려합니다. 이 함수의 출력(회색 박스)을 학습된 라벨링 함수의 정확도와 함께 가중치를 부여하여 신뢰도 점수를 출력하는 최종 모델을 얻습니다.

맨디언트는 경보를 평가하는 보안 분석가들이 단순히 단일 질문의 답변만 참조해 악성 여부를 판단하지 않는다는 사실을 발견했습니다. 보안 분석가들은 각각의 예상과 일부 확실성이 높은 일련의 조사 관련 질문을 통해 수집한 답변을 사용해 결론에 도달합니다. 프로그래밍 방식으로 각 질문을 라벨링 함수로 모델링하고 각 답변을 주어진 알림에 대한 관련 결과로 모델링할 수 있습니다. 보안 분석가는 질문 중 하나에 대한 답변이 전체 신뢰도 수준을 결정하는데 얼마나 영향을 미칠 수 있는지를 판단할 수 있는 사전 지식을 갖고 있을 수 있습니다. 이를 반영하기 위해 사전 확률(prior probability)을 사용하여 기대치를 모델링하였습니다.

사전 시작과 수백만 건의 누적된 경보에 대한 라벨링 함수 집합을 실행하여 얻은 통계를 조합하여 (1) 라벨링 함수가 악성 또는 양성 결과를 반환하는 빈도 (2) 서로 동의하거나 동의하지 않는 빈도에 따라 가중치를 조정하는 준지도 학습 방식으로 모델을 학습시킬 수 있습니다. 그런 다음 학습된 모델을 사용해 새로 생성된 DTM 경보에 대해 가중치를 부여하거나 0에서 100 사이의 척도 값을 반환할 수 있습니다. 신뢰도 점수는 40 미만은 양성, 40~60 사이는 불확실성, 60~80 사이는 의심, 80 이상은 악성이라 판단하는 기준을 사용해 임계값을 설정하고 보정할 수 있습니다.

준지도 학습 방식의 매력 중 하나는 데이터 기반 분석과 보안 분석가의 입력을 자연스럽게 결합할 수 있다는 것입니다. 보안 분석가는 해석 가능한 라벨링 함수를 유연하게 정의할 수 있으며, 기술적으로 잘 몰라도 머신 러닝 모델을 프로그래밍할 수 있습니다. 출력 측면에서 보안 분석가는 스코어를 검증하고, 노이즈가 많은 라벨링 함수의 약점을 식별하고, 새로운 탐지 로직으로 개선할 수 있습니다. 경우에 따라 보안 분석가의 예상이 데이터에 반영되지 않을 수 있습니다. 보안 분석가는 머신 러닝 모델을 활용하면서 경보의 악성 정도를 평가하는 것과 관련된 선입견을 버릴 수 있는 기회를 잡을 수 있습니다.

DMT 경보의 심각도 점수는 악성 활동의 양향을 분류합니다. 심각도는 신뢰도 하위의 추가 컨텍스트, 보강 및 전문가 판단을 사용해 평가됩니다. 스코어 프레임워크에서 신뢰도 스코어는 초기에 명백한 노이즈를 제거하는 데 도움이 됩니다. 또한, 사용 가능한 모든 컨텍스트는 심각도 스토어 모델에서 경보를 높음, 중간, 낮음으로 구분하는 데 사용됩니다(그림 2).

Automating the analyst’s process for determining the severity of a DTM alert
그림 2. 보안 분석가가 DTM 경보의 심각도를 결정하는 프로세스 자동화

신뢰도 모델과 마찬가지로 심각도 모델도 다양한 위협 유형의 영향에 대한 심층적이고 최신 이해를 갖춘 보안 전문가의 의견에 의존합니다. 보안 분석가는 경보의 심각도를 계산하기 위해 표현식과 규칙을 만든 다음 내부 엔진에 제출하여 의사결정 트리를 구성합니다. 규칙 엔진은 이 의사결정 트리를 평가하여 대량의 경보 데이터에 대한 심각도 통계를 계산하고, 보안 분석가는 이후 통계를 쿼리하고, 특정 알림을 확대하고, 규칙을 미세 조정하는 작업을 반복할 수 있습니다. 이런 방식으로 보안 분석가와 머신 러닝의 이점이 결합되면 고객은 기술적 세부 사항에 대한 지식이 없어도 대규모 관찰 및 원격 분석에 대한 위협 추세 분석을 수행할 수 있습니다.

사람과 기계의 콜라보!

사람과 기계의 역량을 모두 활용하여 위협 인텔리전스를 어떻게 확장할 수 있는지 알아보았습니다. 경보 스코어링은 보안 전문가의 역량과 머신 러닝 기반 자동화를 상호보완적인 방식으로 결합한 것입니다. 이 결합을 통해 어느 한 쪽에만 의지하는 것보다 더 나은 결과를 끌어낼 수 있다는 것을 알 수 있었습니다. 이제 맨디언트 고객은 대시보드에서 경보의 우선순위를 정하고 각 경보의 심각도 스코어를 표시할 수 있습니다(그림 3, 4).

경보 스코어 모델을 프로덕션 환경에 배포한 결과 평균 35.4%의 경보가 낮은 신뢰도로 분류되었고, 나머지 높은 신뢰도의 경보를 다시 세분화해 보면 낮음(62.3%), 중간(32.8%), 높음(4.9%)로 심각도를 분류할 수 있었습니다. 모든 것을 고려했을 때 전체 경보의 3.1%, 수집된 문서의 0.1% 미만이 높은 심각도로 분류됩니다.

이제 맨디언트 고객은 분류 우선순위를 손쉽게 지정해 시간과 비용 모두를 크게 절감할 수 있게 되었습니다. DTM 경보 스코어링 기능에 대한 더 자세한 내용은 관련 문서를 참조 바랍니다. 아직 맨디언트의 서비스를 이용하지 않고 있다면 맨디언트 어드밴티지를 무료로 평가해 보십시오.

An example alert list view for a DTM user

그림 3: 색상으로 구분된 새로운 심각도 열을 표시하는 DTM 사용자의 경보 목록 보기 예시.

Users are able to view alert severity by clicking into individual alerts to investigate more specific details

그림 4: 사용자는 개별 경보를 클릭하여 심각도를 확인하여 보다 구체적인 세부 정보를 조사할 수 있습니다.