• 프린트
  • 메일
  • 스크랩
  • 글자크기
  • 크게
  • 작게

과기정통부 "KT 통신장애, 관리·기술적 투자 부실 원인"

명령어 하나 누락되면서 전국 통신망 셧다운

이인애 기자 | 92inae@newsprime.co.kr | 2021.10.29 15:47:15
[프라임경제] 과기정통부가 최근 발생한 KT(030200) 네트워크 장애 원인에 대해 작업 관리자 없이 협력업체 작업자끼리만 라우팅 작업을 하다가 오류를 일으킨 것으로 분석했다. 

작업 도중 실수가 있었으며 KT의 부실한 작업관리체계 탓에 전국 네트워크 마비 사태를 일으켰다는 것.

29일 과학기술정보통신부(이하 과기정통부)는 정보보호·네트워크 전문가들로 구성된 사고조사반(이하 조사반)과 함께 25일 발생한 KT 네트워크 장애 사고 원인을 조사·분석한 결과를 발표했다.

과기정통부가 DNS구성과 질의응답 원리를 그림을 통해 설명했다. ⓒ 과기정통부


조사반에 따르면 이용자들이 KT 네트워크 장애를 겪기 시작한 25일 11시16분부터 KT DNS(도메인 주소를 IP 주소로 변환하는 역할을 하는 시스템) 서버에서 평시에 비해 트래픽이 급증했다.

△중앙 1차 DNS(혜화)의 경우 평시 대비 22배 이상 △중앙 2차 DNS(혜화)는 평시 대비 4배 이상 △부산 DNS는 평시 대비 3.7배 이상 증가하는 등 큰 폭의 트래픽 증가가 나타났다. 

먼저 조사반은 당시 트래픽 증가가 디도스 공격에 의한 것인지 따져보기 위해 각 유형별 해당여부를 패킷·트래픽 분석 등을 통해 조사했다. 

그 결과 다량의 도메인 질의·존재하지 않는 비정상적인 도메인의 반복적인 질의 등 디도스 공격의 두 가지 유형 모두 해당하지 않았다. 

또 네트워크 대역폭 공격 가능성도 열어두고 트래픽 분석 결과 대역폭 대비 충분히 수용 가능한 수준의 트래픽 유입만 발견돼 네트워크 대역폭 공격은 아닌 것으로 판단됐다.

DNS 서버에 대한 트래픽 증가는 있었지만 시스템 자원 디도스 공격 및 네트워크 대역폭 공격은 확인되지 않았다는 게 과기정통부 점검 결과다. 

외부 공격으로 인한 네트워크 장애가 아니란 사실은 확인 된 상황에서 실제 원인도 판명됐다.

◆'명령어' 하나 누락으로 전국 통신망 마비…KT 관리 부실

조사반이 이번 사고 로그기록을 분석한 결과 부산국사에서 기업 망 라우터 교체 작업 중, 작업자가 잘못된 설정 명령을 입력했으며 이후 라우팅 오류로 인해 전국적인 인터넷 네트워크 장애가 발생했다. 

당시 작업자의 작업내역을 확인한 결과, 사고발생 라우터에 라우팅 설정명령어 입력과정에서 명령어 누락(IS-IS 프로토콜 명령어를 마무리하는 부분에서 'exit' 명령어를 누락)이 발생했다. 이로 인해 BGP 프로토콜에서 교환해야 할 경로정보가 IS-IS 프로토콜로 전송됐다.

통상 1만개 내외의 정보를 교환하는 IS-IS 프로토콜에 수십만개의 BGP 프로토콜의 정보가 잘못 전송되면서 라우팅 경로에 오류가 발생하게 된 것.

IS-IS 프로토콜 내 라우터들은 상호간의 정보 최신화를 위해 자동으로 데이터를 주고받는데, 부산 지역라우터에 잘못된 라우팅 경로가 설정된 이후 다른 지역의 IS-IS 라우터 등에도 잘못된 업데이트 정보가 전달되었다.

KT 네트워크 내에 있는 라우터들을 연결하는 IS-IS 프로토콜은 잘못된 데이터 전달에 대한 안전장치 없이 전국을 모두 하나로 연결하고 있다. 이 같은 장치 미흡이 오류를 전국적으로 확산한 주요 원인으로 분석됐다.

탈통신을 선언하며 통신업에 대한 인적·물적 자원의 투자를 아껴온 KT의 경영 방식이 전국적인 사용자 피해를 낳은 것이다.

또 인터넷 서비스 망과 별도로 구성되어 있는 IPTV와 음성전화·문자 서비스에도 장애가 발생했던 점에 대한 분석 결과도 나왔다.

조사반은 당시 음성전화・문자 서비스망은 인터넷 서비스 장애로 인해 전화와 문자 이용이 늘었고, 단말전원을 리셋한 이용자로 인한 트래픽 증가가 발생하여 부하가 가중되었을 것으로 추정했다.

과기정통부의 대대적인 조사 결과 KT의 관리적·기술적 문제가 이번 사태를 초래한 주범으로 지목됐다.

◆전국 네트워크 먹통 사태, KT '탈통신' 집착이 낳은 참사

먼저 작업 관리자 없이 KT 협력업체 직원들인 작업자들끼리만 라우팅 작업을 수행하는 등 작업오류를 방지하기 위한 작업관리체계가 부실했던 것이 원인이다. 네트워크가 연결된 채로 작업이 이루어진 것도 주요 원인으로 지목된다.

또 라우팅 작업계획서상의 라우팅 설정 명령어 스크립트에서 명령어가 누락됐으나 검증 과정에서 발견하지 못 한 것은 명백한 기술적 문제였다.

네트워크가 차단된 가상 상태에서 오류 여부를 사전에 발견하기 위한 가상 테스트베드도 없었다. 지역에서 발생한 오류가 전국으로 확산하는 것을 차단할 수 있는 시스템도 마련되지 않는 등 KT 기술적 한계가 여실히 드러났다.

과기정통부는 이번 조사결과를 바탕으로, 주요통신사업자 네트워크의 생존성·기술적·구조적인 대책이 담긴 '네트워크 안정성 확보방안'을 마련할 계획이다.

이들은 또 KT에 이용자 피해현황을 조사해 피해구제 방안을 마련할 것을 촉구했다. 방송통신위원회(이하 방통위)는 이용자 피해구제 방안 이행여부를 점검할 예정이다.

정부 차원에서의 관리도 중요하지만 이는 온전히 KT가 해결해야 할 과제다.

KT의 연도별 설비투자액(CAPEX)을 보면 2012년 3조7110억원에서 2018년 1조9770억원으로 매년 감소했다. 5G 상용화 시기였던 2019년 3조2570억원으로 잠시 늘었다가 2020년 다시 2조8720억원으로 줄었다.

지난해 SK텔레콤이 3조236억원·LG유플러스가 2조3800억원을 설비투자액으로 사용한 점을 감안하면 매출액이나 시장점유율을 고려했을 때 KT가 가장 뒤쳐졌다는 평가다.

  • 이 기사를 공유해보세요  
  •  
  •    
맨 위로

ⓒ 프라임경제(http://www.newsprime.co.kr) 무단전재 및 재배포금지




 

많이 본 뉴스