본문 바로가기

AI 딥러닝65

[LLM] Whisper 설치 Whisper는 OpenAI가 공식 배포한 음성 인식 모델로서 무료이며 로컬에 설치하여 사용할 수 있다. 맥과 윈도에 모두 설치 가능하지만 터미널에서 실행해야 한다. 1. 가상환경 생성 conda create -n whisper2. 가상환경에 Whisper 설치 pip install git+https://github.com/openai/whisper.git3. 설치 확인 whisper –help4. 만약 Numpy 버전 충돌 오류가 나면, pip install numpy==1.24.45. 만약 ffmpeg 호출 오류가 나면, - 맥에서는 brew install ffmpeg - 설치 확인 ffmpeg -version - 윈도에서는 https://www.gyan.dev/ffmpeg/buil.. 2025. 5. 11.

[LLM] Ollama 모델에서 OpenAI Chat API 사용하기 Ollama에서도 OpenAI의 chat completions API를 사용할 수 있게 되어서 OpenAI용으로 구축된 기존 툴을 Ollam를 통해 이용할 수 있다. 기존의 Ollama 파이썬 라이브러리를 이용하는 방법과 OpenAI의 client.chat.completions.create()를이용하는 방법을 비교해 보기 위하여 Llama3.2:3B에게 피보나치(Fibonacci) 수열을 생성하는 파이썬 함수를 코딩해 보라고 했다. 먼저 파이썬 라이브러리를 이용하는 방법은 다음과 같다. import ollamaresponse = ollama.chat( model="llama3.2:3b", #model = 'deepseek-r1:8b', messages=[ { .. 2025. 2. 15.

HiPPO - 3 이전 게시글(https://pasus.tistory.com/363)에서 함수 \(f(x), \ 0 \lt x \le t\) 를 N차원 부분 함수공간으로 투사한 근사 함수 \(g(x), \ 0 \lt x \le t\) 를 다음과 같이 유도하였다. \[ \begin{align}& g(x)= \sum_{n=0}^{N-1} c_n (t) \sqrt{(2n+1)} P_n \left( \frac{2x}{t}-1 \right) \tag{1} \\ \\& \dot{\mathbf{c}}(t)= - \frac{1}{t} A \mathbf{c}(t)+ \frac{1}{t} Bf(t) \end{align} \] 식 (1)에 의하면 HiPPO는 본질적으로 연속시간(continuous-time) 에서 정의된 상미분 .. 2025. 1. 12.

HiPPO - 2 이전 게시글(https://pasus.tistory.com/362)에서 함수 \(f(x), \ 0 \lt x \le t\) 를 \(N\)차원 부분 함수공간으로 투사한 근사 함수 \(g(x), \ 0 \lt x \le t\) 를 다음과 같이 유도하였다. \[ \begin{align} g(x) & = \sum_{n=0}^{N-1} c_n (t) \sqrt{(2n+1)} P_n \left( \frac{2x}{t}-1 \right) \tag{1} \\ \\ c_n (t) &= \int_0^t f(x) \sqrt{(2n+1)} P_n \left( \frac{2x}{t}-1 \right) \frac{1}{t} \ dx \end{align} \] 식 (1)에서 계수 \(c_n (t)\) 에 관한 적분식을 미분방.. 2025. 1. 9.

HiPPO - 1 언어 모델링이나 음성 인식, 강화학습 또는 주식 데이터 분석 등 시계열 데이터를 다루는 AI 분야에서는 매우 긴 시퀀스 데이터를 효과적으로 학습하고 표현(representation)할 필요가 있다. 그러나 모든 과거 데이터를 저장하고 처리하는 것은 저장 공간과 계산 자원의 한계로 인해 비효율적일 뿐만 아니라 실질적으로 불가능하다. 특히 온라인 환경에서는 데이터가 지속적으로 유입되기 때문에 이전 데이터를 적절히 요약(summarization)하면서도 중요한 패턴과 정보를 유지하는 메모리 메커니즘이 필요하다. 이러한 문제를 해결하기 위해 등장한 것이 바로 HiPPO (High-order Polynomial Projection Operators)다. HiPPO는 '고차 다항식 투사 연산자'를 의미하는 것으로서.. 2025. 1. 8.

[PINN] PINN을 이용한 램버트 문제의 해 램버트 문제(https://pasus.tistory.com/316)를 풀기 위한 알고리즘은 여러가지가 제안되어 있지만 여기서는 물리 정보 신경망(PINN, physics-informed neural network)을 이용하여 이 문제를 풀어보고자 한다. 수치 데이터는 이전 게시글(https://pasus.tistory.com/297)에서 사용했던 것을 다시 사용한다. 먼저 램버트 문제의 운동 방정식은 다음과 같다. \[ \begin{align} \frac{d^2 \mathbf{r}}{dt^2 }+ \frac{\mu}{ \left( \sqrt{\mathbf{r} \cdot \mathbf{r}} \right)^3} \mathbf{r}=0 \tag{1} \end{align} \] 여기서 \(\mu\) 는.. 2024. 4. 10.

[LLM] Ollama Web-UI 설치 Ollama 는 Llama2, Mistral, Gemma 등 대규모언어모델 (LLM)을 개인용 컴퓨터에 설치하고 쉽게 실행할 수 있게 해주는 오픈소스다. 공식 사이트는 다음과 같다. https://ollama.com/ Ollama를 이용하여 명령창에서 언어모델과 대화할 수도 있지만, chatGPT 처럼 웹브라우저에서 주고받는 대화가 더 익숙하다. Open WebUI (구 Ollama WebUI)는 Ollama를 위한 chatGPT 스타일의 웹 인터페이스로서 오픈소스 중에서 가장 인기가 많다고 한다. 윈도나 Mac 노트북에 Open WebUI 를 설치하는 방법은 아래 사이트나 여러 블로그 또는 유튜브에 자세히 나와 있으니 참고하기 바란다. GitHub - open-webui/open-webui: User-.. 2024. 2. 25.

[PtrNet] Pointer Net 구조 조합 최적화(combinatorial optimization)는 개별 개체의 조합으로 이루어진 목적함수의 최대값(또는 최소값)을 구하는 문제이다. 대표적인 예로서는 TSP(traveling salesman problem, 순회외판원문제), Job-shop Scheduling, Knapsack Problem(배낭문제) 등이 있다. 참고로 세가지 문제를 간략히 설명하면 다음과 같다. TSP 는 \(n\) 개의 서로 다른 도시의 좌표 \((x, y)\) 가 주어졌을 때, 각 도시를 한번씩 모두 방문하는 최단 경로를 찾는 문제다. Job-shop Scheduling은 수행해야 하는 일련의 작업과 이러한 작업을 수행하는 데 필요한 도구 세트가 주어졌을 때, 모든 작업이 완료될 때까지 걸리는 총 시간을 최소화하기 .. 2023. 9. 12.

[seq2seq] 어텐션이 포함된 seq2seq 모델 Sequence-to-sequence (seq2seq) 모델에서 인코더(encoder)는 입력 시퀀스를 고정된 길이를 갖는 컨텍스트 벡터로 압축하고, 디코더(decoder)는 이를 사용하여 전체 출력 시퀀스를 생성한다. 컨텍스트 벡터는 인코더의 맨 마지막 시퀀스 스텝(시간스텝)에서 생성되며, 인코더와 디코더를 연결하는 유일한 통로이자 인코더가 입력 시퀀스에서 취득한 모든 정보가 흐르는 길목이다. 기존 seq2seq 모델은 인코더와 디코더가 컨텍스트 벡터로만 연결되기 때문에 두가지 문제가 발생한다. 첫번째 문제는 고정된 길이를 갖는 1개의 컨텍스트 벡터만으로는 디코더로 전달하는 정보의 양이 제한되거나 소실된다는 점이다. 이를 병목(bottleneck) 현상이라고 하는데 입력 시퀀스가 매우 길어서.. 2023. 8. 23.

[seq2seq] 간단한 seq2seq 모델 구현 Sequence-to-sequence 또는 seq2seq 모델은 입력 시퀀스(sequence)를 출력 시퀀스로 변환하는 신경망 모델이다. seq2seq 모델은 한 도메인의 시퀀스를 다른 도메인의 시퀀스로 변환해야 하는 기계 번역, 대화 시스템, 질문 응답, 텍스트 요약, 이미지 또는 비디오 캡셔닝, 음성인식, 시계열 예측과 같은 분야에서 큰 성공을 거두었다. 기본적으로 seq2seq 모델은 인코더(encoder)와 디코더(decoder), 그리고 두 블록을 연결하는 컨텍스트 벡터(context vector)로 구성되어 있다. 인코더는 입력 시퀀스에 대한 정보를 고정된 길이를 갖는 컨텍스트 벡터로 압축한다. 컨텍스트 벡터는 디코더가 정확한 예측을 수행하는 데 도움이 되는 방식으로 구축된다. 디코더는 컨텍스.. 2023. 8. 17.

이전 1 2 3 4 ··· 7 다음

티스토리툴바