☀️

🔎 Practice

Ollama를 통한 LLM 모델 벤치마킹 후기

status

Public

date

Dec 6, 2025

slug

benchmarking-local-llms-with-ollama

summary

가벼워서 (프로급) 로컬에서 충분히 잘 동작하고, 결과물 품질도 허용할 수 있을 만큼 좋은 LLM 모델을 찾기 위해 Ollama에 있는 여러 모델을 벤치마킹해봤다. 여기서는 그 과정과 결과를 공유하고, 직접 따라 해볼 수 있는 방법도 정리했다.

type

Post

category

🔎 Practice

tags

Model Benchmarking

Ollama

thumbnail

series

inxnxng • Updated Aug 21, 2025

최근 들어 정말 다양한 LLM(거대 언어 모델)들이 쏟아져 나오고 있는데, 어떤 모델이 어떤 상황에 더 적합한지 고르기가 점점 어려워지고 있다. 그리고 생각보다 모델들이 무거워서 성능이 좋은 모델만을 추구하다가는 컴퓨터가 헐떡이는 경험을 할 수 있다.

가벼워서 (프로급) 로컬에서 충분히 잘 동작하고, 결과물 품질도 허용할 수 있을 만큼 좋은 LLM 모델을 찾기 위해 Ollama에 있는 여러 모델을 벤치마킹해봤다. 여기서는 그 과정과 결과를 공유하고, 직접 따라 해볼 수 있는 방법도 정리했다.

Ollama란?

Get up and running with large language models.

https://ollama.com/

Ollama

Ollama는 Llama 3, Mistral, Gemma 같은 최신 LLM을 로컬에서 쉽게 실행하고 관리할 수 있는 오픈소스 도구다. 설치와 실행 과정을 단순화해주기 때문에 모델을 쓰는 사람은 환경 설정보다는 모델 자체의 성능에 집중할 수 있다.

간단하게 CLI 를 통해서도 실행할 수 있다.

ollama pull <모델이름[:버전]>: 모델을 다운로드 하고

ollama run <모델이름[:버전]>: 모델을 수행한다.

실행 예시는 다음과 같다.


# Llama 3 8B 모델 다운로드
ollama pull llama3:8b  

# 한 줄 프롬프트 바로 전달
ollama run llama3:8b "안녕하세요, 오늘 날씨 어때?"
# 혹은 다음과 같이 전달
ollama run llama3:8b --prompt "SQL 튜닝에서 인덱스 스킵 스캔을 설명해줘." --temperature 0.2

Ollama vs. HuggingFace

각각의 특징은 다음과 같다.

Ollama

macOS, Windows, Linux에서 로컬 환경에서 LLM을 직접 실행할 수 있게 지원

ollama pull, ollama run 같은 간단한 CLI 명령어로 모델 다운로드 및 실행 가능

퀀타이즈된 모델을 주로 제공해 GPU 메모리가 크지 않아도 동작 (예: 4GB VRAM으로도 소형 모델 실행 가능)

REST API, CLI 기반이라서 개발자가 빠르게 테스트하고 서비스에 임베딩하기 좋음

데이터가 로컬에서만 처리되어 프라이버시 강점

HuggingFace

모델 허브(Model Hub): 수십만 개의 공개 모델, 데이터셋, 스페이스(앱) 공유

모델은 보통 원본(Full-precision) 그대로 올라오며, 실행 시에는 Transformers, Accelerate, PEFT 등 라이브러리를 활용

클라우드 중심 사용도 많음: HuggingFace Hub에서 직접 Inference API 호출 가능

학습, 파인튜닝, 배포 등 엔드투엔드 AI 개발 파이프라인을 지원

커뮤니티가 크고 ML 연구자·엔지니어 표준 생태계처럼 쓰임

HuggingFace에 있는 모델로 테스트를 진행하다가 너무 무겁고, 느리다는 것을 경험했다. 그리고 나는 간단한 테스트를 진행해보고 싶은 건데 설정해야 하는 코드나 옵션이 많았고 선택할 수 있는 모델의 폭이 너무 넓어 Ollama를 통해 간단한 테스트를 진행하기로 했다.

실험 방법

실험은 model_experiment.ipynb Jupyter Notebook에서 진행했고, 테스트한 크게 모델들은 다음과 같습니다.

Gemma (gemma, gemma2, gemma3)

Qwen (qwen2.5, qwen3)

Llama (llama3, llama3.1, llama3.2)

Mistral, Phi-3, Orca-Mini 등등

각 모델에게는 실제 현업에서 자주 접할 만한 질문을 한국어로 던졌다.

로그인이 안 될 때 원인 파악 및 담당팀 문의 방법

결재라인 변경 요청 부서 및 기능 확인 방법

모니터 화면 깜빡임 문제 해결 및 문의처

SSL 인증서 만료 시 문의 대상 (서버 담당자 vs. 보안 담당자)

다만 실제로는 embedding을 추가하여 구체적으로 답변을 얻을 수 있겠지만, 순수하게 성능만을 파악하고 싶었으므로 일반적으로는 어디서 혹은 어떻게 해결하는지에 대해 물어봤다.

그리고 실행 시간(latency), CPU·메모리 사용량 같은 성능 지표와 답변의 품질을 함께 기록했다. 참고로, 답변 품질은 GPT에게 채점을 요청했다.

ollama_benchmark_results_with_quality.csv

주요 결과

analyze_result.ipynb로 데이터를 분석해보니 흥미로운 점들이 있었다.

model_grouped_quality_summary.csv 기준으로 qwen2.5:7b 모델이 평균 91점으로 가장 높은 품질 점수를 받음

그 뒤는 qwen2.5:1.5b (89점), gemma:7b (88.5점) 모델

파라미터 크기와 답변 품질이 꼭 비례하지는 않았다.

예를 들어, 1.5B짜리 qwen2.5 모델이 오히려 7B, 9B급 모델보다 더 나은 답변을 주는 경우도 있었다.

→ 즉, 상황에 따라서는 “작지만 효율적인 모델”이 더 좋은 선택이 될 수 있다는 걸 확인할 수 있었다.

직접 해보고 싶다면

다음 단계를 따라가면 된다.

model_experiment.ipynb 열기 → 테스트할 모델과 프롬프트 수정 후 실행

결과는 ollama_benchmark_results.csv에 저장

analyze_result.ipynb로 결과 비교 및 분석

마무리

이번 프로젝트를 통해 Ollama를 활용하면 다양한 LLM을 체계적으로 벤치마킹할 수 있다는 걸 확인했다. 모델 성능은 단순히 파라미터 크기에만 의존하지 않고, 구조나 학습 데이터 같은 다양한 요소에 의해 달라진다는 점도 다시금 느꼈다. (결국은 데이터가…)

+ Mar 16, 2026

CanIRun.aiCanIRun.ai — Can your machine run AI models?

CanIRun.ai — Can your machine run AI models?

CanIRun.ai — Can your machine run AI models?

Detect your hardware and find out which AI models you can run locally. GPU, CPU, and RAM analysis in your browser.

이런 사이트가 있다! 로컬 머신이 어떤 AI 모델을 실제로 실행할 수 있는지를 확인할 수 있는 웹 기반 도구다. 매번 로컬에서 다운받아서 테스트하기 부담스러운 사람들에게는 유용한 참고 지표로 활용할 수 있을 것으로 보인다.

나는 아쉽게도 내가 현재 돌리고 있는 모델 근방이 가장 최적화되어 있는 것 같다. 새로운 모델로는 Phi-4 를 확인할 수 있었다. 역시 GPU 없는 모델이라 제한적으로 밖에 접근이 안된다.

notion image

← Back ↑ Top

Related Posts

Google Antigravity 시작하기 및 실제 프로젝트 구현해보기

Google Antigravity 시작하기 및 실제 프로젝트 구현해보기

구글 안티그래비티를 실제 프로젝트에 적용하며 얻은 기술적 통찰을 정리한다. 단순한 코드 추천을 넘어 스스로 계획을 수립하고 실행하는 '에이전트'로서의 특징과, 실제 배포 과정에서의 생산성 및 쿼터 관리 효율성을 분석한다. 개발자의 역할이 단순 코더에서 전체 프로세스를 관리하는 디렉터로 변화하는 지점을 가식 없이 기술한다. This post provides a technical review of Google Antigravity based on real-world project application. It explores its capabilities as an autonomous "Agent" that goes beyond code suggestions to planning and execution. The review analyzes productivity gains and the realities of quota management, highlighting the industry's shift where developers evolve from manual coders into strategic directors of AI agents.

Notion API 변경 대응: morethan-log 오류 해결 로그

Notion API 변경 대응: morethan-log 오류 해결 로그

최근 Notion API 데이터 구조 변경(중첩된 value 속성)으로 인해 morethan-log 블로그 게시물이 로딩되지 않는 오류를 해결합니다. getPosts.ts 및 주요 파일의 코드 수정 방법을 정리했습니다.

Troubleshooting

[Review] AWS Certified Solutions Architect - Associate 합격 후기

Series: 자격증

[Review] AWS Certified Solutions Architect - Associate 합격 후기

2년 넘게 AWS 실무를 경험한 후, 시스템 아키텍트로 나아가기 위해 도전한 AWS Solutions Architect - Associate (SAA-C03) 단기 합격 후기입니다. 퇴근 후 2시간씩 투자한 밀도 있는 학습 루틴, 덤프(기출) 활용법, 오역 대처법, 그리고 시험장 메모장 활용 팁까지 실전에 꼭 필요한 전략을 확인해 보세요. How I passed the AWS SAA-C03 in just 2 weeks! Read my real-world study strategy, including focused dump analysis, active note-taking on Notion, and practical exam room tips (like checking English originals for translation errors) to boost your score.

Solution Architect

노션(Notion)을 서비스 DB로 활용한 토이 프로젝트 후기

노션(Notion)을 서비스 DB로 활용한 토이 프로젝트 후기

토이 프로젝트에서 Notion API를 활용하며 느낀 장단점과, 초당 3회 Rate Limit을 극복하기 위한 Next.js ISR 및 캐싱 전략을 공유합니다.