본문 바로가기
개발/TOOLS

동영상 필모라 stt(Speech to Text) VS whisper 설치, 비용 시간 비교

by 꿈트리꿈트리 2024. 11. 2.

필모라 STT 사용해 보기

 

동영상 안의 대화를 텍스트로 만들어서 훑어보면 내용 이해하기도 쉽고 전체적인 내용을 한 번에 갈무리할 수 있을 거 같아서 방법들을 알아보았다.

 

ai 시대니 ai도 찾아보고 마침 필모라 유료 구매 했던 게 있어 필모라에도 기능을 찾아봤는데

stt라고 Speech to Text 음성을 문자로 변환해 주는 기능이 있었다.

 

https://www.wondershare.kr/products-solutions/all-products.html?n_media=27758&n_query=%ED%95%84%EB%AA%A8%EB%9D%BC%EB%8B%A4%EC%9A%B4%EB%A1%9C%EB%93%9C&n_rank=1&n_ad_group=grp-a001-04-000000041396019&n_ad=nad-a001-04-000000327474499&n_keyword_id=nkw-a001-04-000006131331079&n_keyword=%ED%95%84%EB%AA%A8%EB%9D%BC%EB%8B%A4%EC%9A%B4%EB%A1%9C%EB%93%9C&n_campaign_type=4&n_contract=tct-a001-04-000000000991784&n_ad_group_type=5&NaPm=ct%3Dm2zkukvk%7Cci%3D0zS0000szwjBZjSXJuYT%7Ctr%3Dbrnd%7Chk%3D9cf819b5d37cbca9f63dbf19d8d14355b2c6e077%7Cnacn%3DVobTBMAIXNF4#creativity

 

Wondershare products:desktop, web, mobile applications

Wondershare products:desktop, web, mobile applications | Wondershare

www.wondershare.kr

 

 

신나서 사용해 보니 처음 2번은 무료이고 최대 1시간까지만 가능했다

1시간이 넘는 동영상인 관계로 59분 대에서 끊어 주려고 하다 2~3분 대로 잘못 잘라 실험을 해보니

금방 됐다. 그렇게 짧게 테스트해 보니 너무 편해서 1시간 분량을 사용해 보려고 하니 2번의 무료 사용을 다 써서

300 크레디트 정도가 필요하다고 했다 ㅠㅠ 아까운 테스트 기회 2번을 날리다니 AI는 테스트 기회를 잘 활용해야 하는 듯 

아니면 내도 날아가니

필모라 stt 크레딧
필모라 stt 크레딧


일단 필모라의 장점은 편하다

프로젝트 만들고 동영상 끌어다 놓고 

stt 버튼만 눌러주면 된다 단 크레디트이 사용되니 돈이 든다는 게 단점이지

 

Whisper STT 사용해 보기

필모라로 짧게 돌려보니 편해서 사용하려니 크레딧 때문에 내 컴퓨터에서 돌릴 수 있는 거 알아 보게 되었고 openai에서 만든 whisper라는게 있다는걸 알게 되었다 유료로 사용 하는 방법도 있는거 같긴 하지만 내 로컬에서 돌려 보고 싶었다.

 

Whisper를 Windows에 설치하고 사용하는 방법은 다음과 같습니다:
사전 준비
Python 3.8-3.11 버전 설치 (3.9.9 권장)
CUDA Toolkit 설치 (GPU 사용 시)
FFmpeg 설치
Python 설치
python.org에서 3.9.9 버전 다운로드 및 설치
설치 시 "Add Python to PATH" 옵션 체크
CUDA Toolkit 설치 (선택사항)
NVIDIA 웹사이트에서 CUDA Toolkit 다운로드 및 설치
환경 변수 설정 필요
FFmpeg 설치
FFmpeg 공식 사이트에서 다운로드
압축 해제 후 bin 폴더 경로를 환경 변수에 추가
Whisper 설치
명령 프롬프트에서 다음 명령어 실행:
text
pip install openai-whisper

사용 방법
기본 사용:
text
whisper audio.mp3 --language Korean

모델 지정:
text
whisper audio.mp3 --model medium

출력 형식 지정:
text
whisper audio.mp3 --output_format txt

주의사항:
큰 오디오 파일은 처리 시간이 오래 걸릴 수 있음
GPU 사용 시 성능이 크게 향상됨
정확한 결과를 위해 깨끗한 오디오 파일 사용 권장
이렇게 설치 및 사용하면 Windows에서 Whisper를 활용할 수 있습니다.

 

 

위스퍼 받아서 해보니 개 오래 걸리네 1시간 동영상 자막 생성하는데 1시간 넘게 걸리는 느낌이었다

사람이 참 똑똑하다는 걸 알게 됨...

그냥 내가 받아 적는 게 더 빠른 듯 하지만 힘들고 지친다는 게 단점

ai가 좋지만 비싸다

어찌 보면 gpt는 혜자 인 듯 

 

1시간 정도 stt 하는데 만원 정도 든다고 생각하면 나에겐 좀 과한 듯 ai가 좀 더 싸졌으면 좋겠네 전업 아니면 좀 부담되지 않나 싶네

위스퍼로 로컬로 돌리니 개 느리고 ㅠㅠ 그래도 내 컴퓨터 cpu가 32 코어인데 ㅠㅠ 1시간도 더 걸리거 같은데 ai가 일하는 게 최저 시급보다 비싸거나 비슷한 듯