본문 바로가기 사이드메뉴 바로가기 주메뉴 바로가기

주메뉴영역

주메뉴영역

혁신으로 세상을 바꾸는 융복합 대학, DIGIST
Innovative University Changing the World through Convergence
이 페이지를 SNS로 퍼가기

Research

인공지능이 더 똑똑해진다! 작은 정보로 물체를 구별할 수 있는 트랜스포머 기반 퓨샷(few-shot) 인공지능 모델 개발

  • 조회. 137
  • 등록일. 2022.06.21
  • 작성자. 대외협력팀

- DGIST 박상현 교수 연구팀, 소수 데이터만으로도 새로운 물체를 정확하게 분류하는 딥러닝 기술 개발

- 새로운 물체 인식을 위해 대규모 데이터셋 구축을 필요로 했던 딥러닝 모델 학습의 효율성 향상에 획기적 기여 예상돼

 

 

 DGIST(총장 국양) 로봇및기계전자공학과 박상현 교수(인공지능전공 겸직) 연구팀은 여러 이미지로부터 상관관계를 학습하는 트랜스포머를 활용하여 소수의 정답지를 가진 데이터로 기존 데이터셋에 존재하지 않는 새로운 물체를 정확히 분류하는 퓨샷(few-shot) 분류모델을 개발했다. 학습데이터에 없었던 물체를 인식하기 위해 대규모 데이터셋 구축을 필요로 했던 기존 딥러닝 모델 학습의 효율성 향상에 획기적인 기여가 기대된다.

 일반적으로 높은 성능의 딥러닝 분류모델을 훈련하기 위해서는 대규모 데이터셋을 구축해야 한다. 각 항목마다 수백에서 수천 장의 영상을 모으고 영상 간의 연결성의 유무를 구분하는 레이블링 작업을 진행해야 하기 때문에 오랜 시간과 많은 비용이 발생한다. 이러한 문제를 해결하기 위해 소수의 데이터만으로도 새로운 물체를 분류하는 퓨샷(few-shot)모델이 활발하게 연구되고 있다. 현재 소수의 레이블링이 있는 서포트(support) 데이터들 간의 상관관계를 분석하는 트랜스포머나 픽셀단위의 영상비교 기법들이 제안되었으나 성능 향상이 제한적이다.

 이에 박상현 교수팀은 소수의 레이블링이 있는 서포트 데이터(Support)가 주어졌을 때 분류해야 하는 영상(Query)에서 추출된 특징들을 효과적으로 비교할 수 있는 기법을 새롭게 제안했다. 박상현 교수 연구팀은 데이터 사이 상관관계를 보여주는 ‘Attention Map’을 활용하여 특정 패턴을 갖는 유사한 데이터를 모아 평균화 시킨 특징벡터를 변환하는 트랜스포머(Transformer)를 활용한 모델을 개발했다.

 기존기법들과 달리 양방향(Support에서 Query, Query에서 Support)으로 특징을 변환하여 효과적으로 특징벡터를 비교할 수 있는 방법을 고안했다. 이를 통해 영상에서 추출한 특징 벡터들이 서로 비교하기 적합한 새로운 벡터공간으로 변환되어 분류성능이 크게 개선했다.

 새롭게 개발한 딥러닝 모델은 퓨샷 분류문제에 있어 1~ 5개의 데이터만으로 최대 84% ~ 94%의 정확도를 보였으며, 기존에 제안됐던 다른 퓨샷학습 기법들의 성능을 크게 웃돌았다.

 박상현 교수는 이번 연구를 통해 개발한 모델은 퓨샷 분류 성능을 크게 개선시켰으며 이를 통해 딥러닝 모델 학습의 효율성 향상에 기여할 수 있을 것으로 기대된다.”, “향후 관련 기술을 좀 더 개선한다면 다양한 분류문제에 범용적으로 활용될 수 있을 것이라 말했다.

 한편, 이번 연구 결과는 그 우수성을 인정받아 인공지능 관련 분야 최우수 국제학술지 ‘IEEE Conference on Computer Vision and Pattern Recognition’6월 게재되었다.

 

 

· · ·

 

연구결과개요

CAD: Co-Adapting Discriminative Features for Improved Few-Shot Classification

Philip Chikontwe, Soopil Kim, Sang Hyun Park

(CVPR, on-line published on June 21th, 2022)

딥러닝 모델은 다양한 컴퓨터 비전 분야에 적용되어 높은 성능을 보여주었다. 그러나 학습데이터에 없는 새로운 물체를 구분하기 위해서는 다수의 데이터와 정답을 새로 구축해야 했기 때문에 여전히 활용이 제한적이었다. 이 문제를 해결하기 위해 소수의 데이터와 정답만을 이용하여 물체를 구분하는 퓨샷러닝의 연구가 활발히 진행되고 있지만 아직 만족할만한 성능을 보이지 못하고 있다.

본 연구에서는 여러 이미지로부터 상관관계를 학습하는 트랜스포머(Transformer)를 활용하여 소수의 정답지를 가진 데이터(Support)로 새로운 영상(Query)를 정확하게 분류하는 퓨샷 분류모델을 제안한다. 트랜스포머는 두 데이터의 집합을 비교하여 데이터를 변환한다. 기존의 방법과 달리 Support 데이터와 Query 데이터 사이의 양방향 변환을 통해 서로의 데이터 분포에 잘 적응된 벡터를 추출하고 이를 이용하여 분류를 수행하였다. 제안하는 기법을 통해 5개의 클래스를 가지는 분류문제에 대하여 1/5개의 데이터로 최대 84%/94%의 정확도를 보이는 퓨샷 분류 모델을 개발했다.

 

 

· · ·

 

연구결과문답

Q. 이번 성과 무엇이 다른가?

기존에 트랜스포머를 활용한 퓨샷모델은 여러 Support 데이터 사이의 상관관계만을 고려했지만 성능이 제한적이었다. 본 연구에서는 다수의 SupportQuery 영상을 양방향으로(Query에서 Support, Support에서 Query) 변환하여 서로 비교하기 용이한 특징 벡터를 추출한 뒤 분류를 수행하였다. 위 기법을 통해 성능이 크게 향상되었고 최종적으로 5개의 Support 데이터만으로도 90%에 가까운 정확도를 보이는 퓨샷 분류 모델을 개발했다.

Q. 어디에 쓸 수 있나?

제안한 기술은 소수의 데이터만으로도 기존에 본 적이 없는 물체의 분류를 수행할 수 있어 대규모 데이터셋이 구축되지 않은 물체의 분류문제에 범용적으로 활용할 수 있다.

Q. 실용화까지 필요한 시간과 과제는?

개발한 모델은 다양한 데이터셋에서 모두 향상된 성능을 보여주었다. 하지만 특정 데이터셋에서 학습하고 분포가 꽤 다른 데이터에 적용했을 때에는 아직 성능이 제한적이다. 추후 새로운 분포에 적응하는 도메인 적응 기법이 통합된 퓨샷러닝 기법을 개발한다면 실용화 가능성이 더 높아질 것이라 기대된다.

Q. 연구를 시작한 계기는?

딥러닝을 여러 문제에 적용해보면서 느낀 가장 큰 한계점이 대규모 데이터셋을 구축해야 한다는 점이다. 이에 많은 시간과 비용이 소요된다. 이런 비효율성을 해결하기 위해 소수의 학습데이터만으로도 작동할 수 있는 인공지능 모델이 필요했다.

Q. 어떤 의미가 있는가?

인공지능을 활용할 수 있는 사례는 정말 다양하다. 사람마다 관심사가 다르기 때문에 관심 있는 물체와 대상도 다른 경우가 많다. 기존의 인공지능 모델은 처음 본 물체를 정확하게 구분하기 위해 대규모 데이터셋을 구축해야 했지만, 제안한 기법을 이용한다면 대규모 데이터셋을 구축하기 위한 시간과 비용을 줄일 수 있을 것이다.

Q. 꼭 이루고 싶은 목표는?

인공지능을 다양한 문제에 활용하기 위해서는 대규모 데이터를 구축하지 않더라도 새로운 문제에 빠르게 적응 가능한 모델이 만들어져야 한다고 생각한다. 이런 한계들을 극복할 수 있는 방법을 연구하여 인공지능의 파급력을 높이고 인간의 삶을 윤택하게 만들고 싶다.

 

· · ·

 

그림설명

[그림 1] DGIST 박상현 교수 연구팀이 고안한 모델 구조

(그림설명) 본 연구에서 제안한 인공지능 모델의 구조


[그림 2] 제안한 모델이 관심(attention)을 갖는 부분을 시각화한 결과

(그림설명) 5개 항목에 대해 각각 5개의 데이터가 주어졌을 때 트랜스포머에서 얻은 관심(Attention) 점수를 시각화했다. Query영상과 Support 영상을 비교했을 때 가장 유사한 영상의 점수가 가장 높은 것을 확인할 수 있다.

 

 

 

 

콘텐츠 담당 담당부서  :   대외협력팀 ㅣ 053-785-1135