[LLM] Whisper 설치

Whisper는 OpenAI가 공식 배포한 음성 인식 모델로서 무료이며 로컬에 설치하여 사용할 수 있다. 맥과 윈도에 모두 설치 가능하지만 터미널에서 실행해야 한다.

1. 가상환경 생성

conda create -n whisper

2. 가상환경에 Whisper 설치

pip install git+https://github.com/openai/whisper.git

3. 설치 확인

whisper –help

4. 만약 Numpy 버전 충돌 오류가 나면,

pip install numpy==1.24.4

5. 만약 ffmpeg 호출 오류가 나면,
- 맥에서는

brew install ffmpeg

- 설치 확인

ffmpeg -version

- 윈도에서는 https://www.gyan.dev/ffmpeg/builds/ 에서 ffmpeg-git-essentials.7z 다운로드
- C:\ffmpeg에 압축 해제

- 내부 폴더 구조는 다음과 같아야 함.

C:\ffmpeg\bin\ffmpeg.exe

- 시스템 환경변수 등록 시스템 환경 변수에서 시스템 변수 > Path 항목 클릭 > 새로 만들기 > C:\ffmpeg\bin 입력 > 재부팅

- 설치 확인

ffmpeg -version

6. Whisper 실행

whisper audio_file_name --language Korean --model medium

그러면 같은 폴더에 audio_file.txt, .srt, .vtt 파일이 생성됨 옵션 중 --model base 또는 --model small 은 덜 정확하지만 속도가 빠르고, medium, large는 더 정확하지만 느리다.

한국어를 영어로 번역하고 싶으면,

whisper your_english_file.wav --language English --task translate --model medium

단, whisper는 다국어를 영어로만 번역할 수 있다.

[LLM] Llama3.2가 알려주는 주식 매매 결정 (0)	2025.02.15
[LLM] Ollama 모델에서 OpenAI Chat API 사용하기 (0)	2025.02.15
[PINN] PINN을 이용한 램버트 문제의 해 (0)	2024.04.10
[LLM] Ollama Web-UI 설치 (0)	2024.02.25
[VAE] beta-VAE (0)	2023.05.11

DeepCampus