OGQ, ECCV 2024에 논문 2편 게재, 세계적 연구 성과로 인정 받아

[빅데이터뉴스 이병학 기자] OGQ의 GYN AI 연구팀(연구소장 방승온)이 2024 유럽 컴퓨터 비전 학회(European Conference on Computer Vision, ECCV)에 두 편의 논문을 게재하는 성과를 거두었다. 2년마다 열리는 ECCV는 컴퓨터 비전 및 패턴 인식 컨퍼런스(CVPR), 국제 컴퓨터 비전 학회(ICCV)와 함께 세계 3대 컴퓨터 비전 학회로 손꼽힌다.

이번에 발표된 논문은 ‘Dual Features-Driven Hierarchical Rebalancing in Inter- and Intra-Class Regions for Weakly-Supervised Semantic Segmentation’(DHR)와 ‘Text-Tag Self-Distillation Enhancing Image-Text Alignment in CLIP to Alleviate Single Tag Bias’(TTD)이다. 각각 약지도학습 기반의 의미론적 분할(Weakly-supervised Semantic Segmentation)과 개방형 어휘 분류 및 분할(Open-vocabulary Classification and Segmentation) 분야의 연구 결과이다.

DHR 논문은 데이터 불균형 시 작은 객체가 사라지는 현상을 완화한 기술을 다루고 있다. 기존에는 인접한 클래스 간 작은 클래스의 픽셀 영역이 사라지는 문제가 있었지만, DHR에서는 비지도 학습 모델의 특징 정보를 계층적으로 활용하여 자동으로 구분하는 방식을 제안했다. 이러한 방식은 다중 클래스 데이터 셋 학습 시 모든 WSS 기술들에 적용 가능하며, COCO 2014 데이터셋 기준 세그멘테이션 정확도가 56.8%로 나와 Papers with Code 공식 벤치마크에서 세계 1위를 기록했다.

TTD 논문은 이미지-텍스트 학습 시 텍스트의 가장 중요한 정보에만 집중하는 편향 문제를 해결할 수 있도록 편향되지 않은 정보를 자동 추출하여 스스로 학습하는 새로운 방법을 제안했다. 이 기술은 이미지-텍스트를 학습하는 모든 모델에 적용 가능하며, CC3M 데이터셋 기준 다중 태그 분류 정확도에서는 82.8% 및 세그멘테이션 정확도에서는 65.5%로 Papers with Code 공식 벤치마크에서 세계 1위를 차지했다.

또한, DHR 기술은 태그 기반 자동 세그멘테이션을 통해 데이터 라벨링 과정을 최소 20배 이상 줄이면서, 다중 클래스에서 발생해 온 성능 하락 문제를 완화할 수 있다. TTD 기술은 이미지-텍스트 정보를 활용하는 멀티 모달 기술에 확장해 적용 가능하며, 오디오 등 다양한 모달리티로도 확장 가능하다.

이번 연구는 OGQ와 KAIST팀의 협업 및 미시간 대학팀의 참여를 통해 이룬 성과이다. OGQ의 GYN 본부는 비전 AI와 생성 AI를 연구하는 인공지능 연구팀으로, 이미지 및 동영상 인식 분야의 핵심기술을 내재화하며, 태그 기반 세그멘테이션 원천 기술을 활용하여 생성 모델에서 발생하는 다양한 문제들을 해결할 수 있는 기술 개발 및 관련 연구를 지속할 예정이다.

OGQ는 저작권 콘텐츠 마켓이다. 크리에이터가 창작한 스티커, 음악, 이미지, 동영상 등의 콘텐츠를 판매하고, 팬과 연결한다. ‘네이버 OGQ 마켓’ 등에서 글로벌 1,700여만 명의 사용자와 크리에이터가 연결되어 있다. OGQ는 생성 AI를 제공하여 크리에이터가 손쉽게 창작하도록 돕고, 제작된 콘텐츠는 한국저작권위원회에서 UCI(국가콘텐츠식별체계)가 발급된다. IP테크 1위 기업, OGQ는 크리에이터에게 판매액의 최대 70%를 지급한다.

이병학 빅데이터뉴스 기자 lbh@thebigdata.co.kr

OGQ, ECCV 2024에 논문 2편 게재, 세계적 연구 성과로 인정 받아

헤드라인뉴스

재계뉴스

빅데이터 라이프

칼럼·인사동정

기업집단 빅데이터