1 / 1
" 영상 생성"으로 검색하여,
3 건의 기사가 검색 되었습니다.
-
2024-11-11▲ 좌측부터 김지환 연구원(협동과정 인공지능전공 석사과정), 강준오 연구원(전기정보공학부 박사과정), 한보형 교수(전기정보공학부, 협동과정 인공지능전공)[출처=서울대학교 공과대학]서울대학교(총장 유홍림) 공과대학(학장 김영오)에 따르면 전기정보공학부 한보형 교수가 지도하는 컴퓨터비전 연구팀(CVLAB)이 혁신적인 인공지능(AI) 기술 ‘피포 디퓨전(이하 FIFO-Diffusion)’을 개발했다.‘피포 디퓨전(이하 FIFO-Diffusion)’은 별도의 학습 없이 무한한 길이의 비디오를 생성할 수 있는 인공지능(AI) 기술이다. 기존 영상 생성 모델의 한계를 극복해 디퓨전 모델에 기반한 비디오 생성기술의 새로운 방법론을 제시했다는 평가를 받고 있다.이 기술을 제안한 논문 ‘FIFO-Diffusion: Generating Infinite Videos from Text without Training’은 2024년 10월 인공지능 및 기계학습 분야의 최고 권위 국제학술대회 ‘NeurIPS 2024 (Neural Information Processing Systems, 신경정보처리시스템학회)’의 발표 논문으로 채택돼 학계와 산업계의 주목을 받은 바 있다.NeurIPS는 인공지능 및 딥러닝 분야의 최신 연구 성과와 혁신적 기술이 발표되는 자리로 매년 엄격한 심사를 통과한 우수한 논문이 발표 논문으로 선정된다.기존의 비디오 생성 모델은 영상 길이가 길어질수록 메모리 소모가 급격히 증가해 대규모 하드웨어 자원이 필요했을 뿐 아니라 프레임 간 일관성 유지에 어려움이 있어 부자연스러운 영상을 생성하는 한계가 있었다.이에 연구팀은 메모리 사용량을 일정하게 유지하면서도 각 프레임이 자연스럽게 연결되는 영상을 생성하는 FIFO-Diffusion을 개발했다.개발된 기술은 사전에 짧은 클립을 통해 훈련된 디퓨전 모델이 추가 학습 없이 텍스트 조건에 맞춰 무한한 길이의 비디오를 생성하도록 설계됐기 때문에 고화질의 비디오를 장시간 생성할 수 있다.특히 이번 연구에서는 비디오 품질 개선을 위해 세 가지의 혁신적 기법이 활용돼 관심을 끌었다. 먼저 각기 다른 노이즈 레벨의 비디오 프레임을 일련의 큐(queue) 형태로 동시에 처리하는 ‘대각선 디노이징(diagonal denoising)’ 기법을 통해 디퓨전 모델이 품질 저하 없이 무한히 긴 비디오를 생성하는 것을 가능케 했다.이어서 프레임을 여러 블록으로 나눠 병렬 처리하는 ‘잠재 파티셔닝(latent partitioning)’ 기법으로 프레임 간 노이즈 레벨 차이를 줄였다.그리고 새로 생성될 프레임들이 이전에 생성된 더 깨끗한 프레임을 참조하도록 하는 ‘앞서보기 디노이징(lookhead denoising)’ 기술을 도입해 후반 프레임의 손실을 감소시켜 더욱 선명한 비디오 출력을 구현할 수 있었다.마지막으로 연구진은 비디오 생성 속도와 품질을 한결 높인 이 기법들을 다중 GPU에 병렬로 적용해 효율성을 극대화함으로써 무한히 긴 영상을 생성하는 비디오의 실현 가능성을 입증했다.FIFO-Diffusion 기술은 향후 영화, 광고, 게임, 교육 등 다양한 콘텐츠 산업에서 널리 활용될 것으로 기대된다. 기존의 텍스트 기반 비디오 생성 모델들은 3초 이내의 짧은 클립만 생성할 수 있어 실제 콘텐츠 제작에 이용되기 어려웠다.하지만 이러한 제약을 뛰어넘은 FIFO-Diffusion 기술이 상용화되면 길이에 대한 제한없이 더 자연스러운 비디오를 생성할 수 있다.또한 학습을 위한 대규모 하드웨어 자원이나 방대한 데이터를 필요로 하지 않는 강점 덕분에 FIFO-Diffusion이 AI에 기반한 영상 콘텐츠 제작을 한층 활성화될 전망이다.연구를 지도한 한보형 교수는 “기존 비디오 생성 모델의 한계를 깬 FIFO-Diffusion은 별도의 학습 없이 무한한 길이의 비디오를 생성한다는 새로운 개념을 수립했다는 점에서 의미가 남다르다. 향후 이 기술을 바탕으로 다양한 후속 연구를 이어 나갈 계획이다”고 밝혔다.논문의 주 저자인 김지환 연구원은 “이번 개발로 비디오 생성 기술이 영상 콘텐츠 분야에서 폭넓게 사용될 수 있는 토대가 마련됐다”고 연구의 의미를 설명했다.한편 연구 논문의 공동 제1저자인 김지환, 강준오 연구원은 현재 서울대 컴퓨터비전 연구실에서 비디오 생성 분야의 후속 연구를 심도 깊게 수행하고 있다.
-
▲ GS리테일(대표 허연수)의 e커머스, 홈쇼핑 브랜드인 GS샵의 인공지능(AI) 스튜디오 [출처=홈페이지]GS리테일(대표 허연수)의 e커머스, 홈쇼핑 브랜드인 GS샵은 2024년 8월5일 업계 최초로 방송 스튜디오에 생성형 AI 기술을 적용한 ‘인공지능(AI) 스튜디오’ 운영을 본격화한다고 밝혔다.2024년 7월 10일(수) ‘핏플랍 샌들’ 방송을 생성형 AI 기술로 구현한 스튜디오에서 진행한 후 패션, 뷰티, 가전, 건강기능식품 등 거의 모든 상품 카테고리에 적용해 총 160여 회를 방송했다.대형 LED 월(Wall)에 생성형 AI 소프트웨어로 만든 세트 이미지가 펼쳐졌다. 넓은 바다가 보이는 파스텔톤 건축물 이미지가 시청자들을 시원한 공간으로 안내했다.조명이 달린 스튜디오 천장은 생성형 AI 기술로 만든 넓고 파란 하늘이 뒤덮었다. 마치 오션뷰 리조트의 로비에서 방송이 진행되는 듯한 느낌을 만들어냈다.이날 방송은 동시간대 홈쇼핑 방송 중 시청률 1위(KT IPTV 기준)를 기록했다. 판매 품목인 핏플랍 샌들 4개 색상 중 그레이 색상은 전체 매진되는 등 총 6300족이나 판매됐다. ‘AI 스튜디오’는 그동안 단계적으로 구축해 온 디지털 기술의 집합체다. GS샵은 2022년 ‘LED 월’을 스튜디오에 도입하고, 2023년 네트워크(IP) 기반 방송 운영 시스템을 마련하며 디지털 스튜디오를 고도화했다.2024년 초부터 방송 기술 직원들이 생성형 AI 소프트웨어를 학습하고 이를 실무에 적용함으로써 ‘AI 스튜디오’ 첫 발을 뗀 것이다.‘AI 스튜디오’를 완성한 덕분에 홈쇼핑 방송은 공간 제약을 극복하고 스튜디오 완성도를 높이는 동시에 업무 효율은 극대화할 수 있게 됐다.배재성 영상제작부문장은 “스튜디오는 방송이 진행되는 공간을 넘어 판매 상품의 브랜드 이미지를 만드는 매우 중요한 역할도 맡고 있다. GS샵은 AI 스튜디오를 통해 시청자들에게는 보는 즐거움을 선사하는 동시에 상품이 지닌 매력과 가치를 직관적으로 전달해 협력사 매출 증대를 지원하겠다”고 설명했다.
-
▲ 일본 전기전자 대기업인 NEC 빌딩 [출처=홈페이지]일본 전기전자 대기업인 NEC에 따르면 2023년 12월4일 생성 인공지능(AI)으로 동영상을 인식해 문장으로 표현하는 기술을 개발했다고 밝혔다.AI가 동영상의 내용을 보지 않고 인식해 문장으로 표현할 수 있다. 생성형 AI는 말이나 이미지와 달리 정보량이 많은 동영상을 인식해야 하므로 기술적 난이도가 높다.100개가 넘는 AI가 협력해 동영상에서 인물, 물건 등을 인식한다. 인식 결과는 생성 AI가 정리해 문장에 정돈하는 방식을 적용했다.NEC가 개발한 생성 AI 기술을 활용하면 차량에 장착된 블랙박스 동영상에서 교통사고의 원인도 분석할 수 있다. 동영상을 분석한 결과로 보고서를 작성해 제공한다.건설 현장에서 작업 내용이나 과정을 모두 동영상으로 촬영한 후에 문서로 만드는 것도 가능해진다. 기존에 동양상을 분석하는 기술과는 차별화돼 활용 분야가 대폭 넓어질 것으로 전망된다.
1