Toy Projects/[GPT-4] 책 요약해서 유튜브 쇼츠 영상으로 돈버는

[GPT-4] 책 요약해서 유튜브 쇼츠 영상 만들어주는 인공지능-1

하눤석 2023. 4. 17. 20:44



유튜브에서 굉장히 흥미로운 영상을 보게되었습니다. 바로 최근 가장 핫한 프로그램인 chatGPT로 책의 내용을 요약해서 유튜브 쇼츠 영상을 만드는 인공지능을 구현하는 영상입니다. 아래는 해당 영상 링크입니다.


요약하면 책의 내용을 AI가 인식하고 이 내용을 chatGPT가 요약한 후 이것을 AI가 만든 이미지와 캐릭터가 담긴 영상의 tts기술로 삽입하여 읽어주는 것입니다. 너무 신기하지 않나요? 본 게시글에선 셋팅만 진행하고 천천히 클론코딩을 진행해보도록 하겠습니다. (게시글 작성 허락해주신 원작자분께 너무나도 감사합니다.) 


출처 : 유튜브(빵형의 개발도상국)


빵형의 개발도상국

신기하고 재밌는 인공지능을 쉽게, 짧게, 내손으로 만들어 봅니다! 📮사업 및 개발문의 😘빵형의 개발도상국 후원 카카오페이 : 투네이션 :


소스코드는 아래의 링크에서 받을 수 있습니다.


GitHub - kairess/paper2video: Summarize research papers and pdf books into YouTube shorts videos. 100% 자동 논문/소설 요

Summarize research papers and pdf books into YouTube shorts videos. 100% 자동 논문/소설 요약/번역 및 1분 요약 유튜브 영상 제작 인공지능 - GitHub - kairess/paper2video: Summarize research papers and pdf books into YouTube ...



AI Tools


숏츠 영상 제작은 총 6단계로 이루어집니다.

  1. Extract headers and pragraphs from PDF - Grobid
  2. Summarize and translate - GPT-4
  3. Generating 60 seconds script - GPT-4
  4. Create a avatar - Midjourney
  5. Generate speaking avatar - D-ID Studio
  6. Generate and edit video - MoviePy

각 단계별로 사용되는 인공지능 툴이 다릅니다. 


1. Grobid


Introduction - GROBID Documentation

Introduction Status Purpose GROBID (or Grobid, but not GroBid nor GroBiD) means GeneRation Of BIbliographic Data. GROBID is a machine learning library for extracting, parsing and re-structuring raw documents such as PDF into structured XML/TEI encoded docu

Grobid의 경우 공식 문서에서 아래와 같은 목적을 드러냅니다.

GROBID (or Grobid, but not GroBid nor GroBiD) means GeneRation Of BIbliographic Data.

GROBID is a machine learning library for extracting, parsing and re-structuring raw documents such as PDF into structured XML/TEI encoded documents with a particular focus on technical and scientific publications. First developments started in 2008 as a hobby. In 2011 the tool has been made available in open source. Work on GROBID has been steady as side project since the beginning and is expected to continue as such.


쉽게 말해 pdf같은 문서에서 데이터를 추출하는 인공지능 라이브러리입니다. Grobid의 역할은 pdf 형태의 책에서 텍스트를 추출하는 역할을 맡습니다.



2. chat GPT-4


chatGPT는 다들 아시죠? Summarize and translate & Generating 60 seconds script. 즉, 문서를 번역하고 요약하여 60초 분량의 스크립트를 만들어 주는 역할을 합니다. 



3. Midjourney


Midjourney: Art in the Age of Artificial Intelligence is curated by Fraud Monet, a sentient A.I. digi-poacher, that became self-aware in 2022.

Midjourney는 인공지능으로 이미지를 생성해주는 라이브러리입니다. 역할은 영상의 배경으로 사용할 이미지를 생성하는 것입니다.



4. D-ID Studio


D-ID Studio

Create professional videos using just a still image with text or audio powered by AI.

D-ID Studio는 입모양을 움직이며 실제 말하는 것처럼 보이게 하는 아바타를 생성하는 인공지능 툴입니다. 태어나서 처음 보는데 진짜 신기하네요;;



5. MoviePy


User Guide — MoviePy 1.0.2 documentation

MoviePy is a Python module for video editing, which can be used for basic operations (like cuts, concatenations, title insertions), video compositing (a.k.a. non-linear editing), video processing, or to create advanced effects. It can read and write the mo

MoviePy는 이름에서 유추가 가능합니다. 바로 위에서 추출한 이미지, 스크립트, 말하는 아바타를 종합하여 영상을 만들어주는 것입니다. 




다음 게시글부터 차근차근 코딩하며 진행과정을 추가하도록 하겠습니다! 감사합니다.


