최근 딥 러닝 모델의 정확도를 향상시키기 위해 학습 데이터의 크기와 모델의 파라미터 수가 증가하고 이에 따라 계산 시간도 증가하고 있다. 여러 대의 컴퓨터를 사용하는 병렬 분산 학습에서는 일반적으로 GPU의 수를 늘릴수록 배치 크기가 커지는 데다 GPU 사이의 통신 오버 헤드가 존재함으로써 얻을 수 있는 모델의 정확성이나 학습 속도가 점차 낮아지는 것으로 알려져 있었다.
이번에 이러한 문제를 극복하기 위해 학습 알고리즘을 병렬 처리 성능을 개선하고, 1,024 GPU로 구성된 민간 기업으로 일본 최대의 병렬 컴퓨터 MN-1과 딥러닝 프레임워크 체이나(Chainer)에 다중 노드 분산 학습 기능을 추가한 체이너MN(ChainerMN)을 이용해 학습을 실시했다. 그 결과 ImageNet 이미지 분류 데이터 집합을 이용한 ResNet-50(이미지 인식 분야에서 많이 사용되는 네트워크)의 학습을 15분에 완료했다. 이번 연구 성과는 논문 'Extremely Large Minibatch SGD : Training ResNet-50 on ImageNet in 15 Minutes'라는 제목으로 공개됐다.
PFN 관계자는 "이 연구 성과를 살려 대규모 심층 학습을 필요로 하는 교통 시스템, 제조, 바이오·헬스 케어 분야의 연구 개발을 더욱 가속화시켜 나갈 것"이라고 밝혔다.
PFN가 중심이 되어 개발·제공하는 Chainer은 Python 기반의 딥 러닝을 위한 프레임 워크이며, 디파인바이런(Define-by-Run)의 방법을 통해 쉽고 직관적으로 복잡한 신경망을 설계할 수 있는 유연성과 성능을 갖추고 있다. 2015년 6월에 오픈 소스 化되어 딥 러닝을 위한 프레임 워크의 하나로서 교육 기관뿐만 아니라 딥 러닝의 이점을 실제 응용 프로그램과 연구에 활용하기 위한 유연한 프레임 워크를 요구하는 일본 산업계의 많은 사용자에게 지지를 받고 있다.
이승주 기자
<저작권자 © 빅데이터뉴스, 무단 전재 및 재배포 금지>