Whisper는 OpenAI가 공식 배포한 음성 인식 모델로서 무료이며 로컬에 설치하여 사용할 수 있다. 맥과 윈도에 모두 설치 가능하지만 터미널에서 실행해야 한다.
1. 가상환경 생성
conda create -n whisper
2. 가상환경에 Whisper 설치
pip install git+https://github.com/openai/whisper.git
3. 설치 확인
whisper –help
4. 만약 Numpy 버전 충돌 오류가 나면,
pip install numpy==1.24.4
5. 만약 ffmpeg 호출 오류가 나면,
- 맥에서는
brew install ffmpeg
- 설치 확인
ffmpeg -version
- 윈도에서는 https://www.gyan.dev/ffmpeg/builds/ 에서 ffmpeg-git-essentials.7z 다운로드
- C:\ffmpeg에 압축 해제
- 내부 폴더 구조는 다음과 같아야 함.
C:\ffmpeg\bin\ffmpeg.exe
- 시스템 환경변수 등록 시스템 환경 변수에서 시스템 변수 > Path 항목 클릭 > 새로 만들기 > C:\ffmpeg\bin 입력 > 재부팅
- 설치 확인
ffmpeg -version
6. Whisper 실행
whisper audio_file_name --language Korean --model medium
그러면 같은 폴더에 audio_file.txt, .srt, .vtt 파일이 생성됨 옵션 중 --model base 또는 --model small 은 덜 정확하지만 속도가 빠르고, medium, large는 더 정확하지만 느리다.
한국어를 영어로 번역하고 싶으면,
whisper your_english_file.wav --language English --task translate --model medium
단, whisper는 다국어를 영어로만 번역할 수 있다.
'AI 딥러닝 > DLA' 카테고리의 다른 글
[LLM] Llama3.2가 알려주는 주식 매매 결정 (0) | 2025.02.15 |
---|---|
[LLM] Ollama 모델에서 OpenAI Chat API 사용하기 (0) | 2025.02.15 |
[PINN] PINN을 이용한 램버트 문제의 해 (0) | 2024.04.10 |
[LLM] Ollama Web-UI 설치 (0) | 2024.02.25 |
[VAE] beta-VAE (0) | 2023.05.11 |
댓글