-
유튜브 자막 데이터를 모아서 뭘 해볼까?나도 궁금해서 해봄 2024. 11. 13. 22:37반응형
유튜버들은 왜들 이리도 말을 잘 하는지 놀랄 때가 많다. 그러면 나는 그들 처럼 될 수 있을까?
가능하다. 나는 그 가능성에 많은 점수를 준다. 하지만 우리는 실행력이 부족하니 조금 더 잘하는 끼가 있는 사람들에게 잠시 그 자리를 넘겨주도록 하자.
오늘의 나는 오랜만에 내가 잘 하는 것을 해볼 생각이다.
데이터를 수집하고 데이터를 분석해서 내가 원하는 정보를 도출해낼 예정이다. 이제 나는 개발일에서 손을 뗀지 오래기 때문에 아무것도 기억나질 않는다. 보유하고 있는 컴퓨터도 좋은게 아니다. 그러니까 간단하고 단순한 걸 해보자.
나의 블로그 글을 많이 보셨다면 눈치 채셨겠지만 나는 돈이 없다.
그러니까 최대한 무료를 이용해야 한다. Ollama를 이용하려는 시도를 했었지만 가지고 있는 구형 노트북과 그래픽카드로는 연산 속도를 따라갈 수 없었다. 그러면 새로운 컴퓨터를 구매해야 하는가? 아니면 ChatGPT를 구독할까? 아니다. 우리가 n8n과 같은 매크로라고 생각하면 쉬운 자동화 툴을 만들정도로 이 모든 일에 진심이 아니라면 그냥 오픈되어있는 걸 사용하자. 지금 나온 무료로도 이미 우리가 하는 일은 충분히 해준다.
youtube-transcript-api 로 파이썬 스크립트를 작성해줘.
이걸로 끝이다. 파이썬에 대해서 아주 작은 지식만 가지고 있다면 금새 내가 원하는 기능을 만들어준다. 더욱 VS Code를 이용할 줄 안다면 에디터 하나로 엄청나게 많은 것들을 수행 할 수 있다.
Visual code screenshot 왼쪽 창에는 Gemini와 대화하고 그 결과를 파이썬 쥬피터로 수해했다. 추출된 자막을 다시 Gemini에게 넘겨서 내용을 요약했다. 이렇게 하면 자동은 아니지만 훌륭한 데이터 수집기가 만들어진다. 이걸 이용해서 나는 옵시디언에 내용을 작성해둔다.
자 그럼 이걸 모아서 뭘 할까?
결론적으로 나는 이렇게 모은 자료를 다시 AI 가 활용할 수 있게 가공하는 중이다. 나는 내가 모은 자료를 이용해 AI가 나의 자료를 검색하는데 특화된 검색엔진으로 만들 예정이다. 물론 이렇게 하는 것보다 다른 AI 검색 툴을 활용하는게 더 빠를 수 있다. 하지만 그러한 정보에는 한계가 있고 기왕 나의 제 2의 두뇌를 구축하고 있는데 좋은 엔진 하나 정도는 붙여줘야 하지 않을까?
그런 상상을 해본다.
반응형'나도 궁금해서 해봄' 카테고리의 다른 글
n8n Self-Hosting 부터 Gemini AI와 함께하는 슬랙 봇 제작기! - (1) (1) 2025.02.08 내가 직접 해본 블로그 자동화 후기 (5) 2024.12.22 LLM을 개발환경에 적용한 좋은 예 (1) 2024.11.17 AI를 이용한 MIDI 학습 (0) 2024.05.18 Ollama + Python 을 이용해 데이터 분석 시작하기. (0) 2024.01.26