Yerel AI Modelleri: Kendi Bilgisayarınızda ChatGPT Alternatiflerini Çalıştırma Rehberi

Eylül 19, 2025

Okuma süresi: 12 dakika

Yerel AI Modelleri: Kendi Bilgisayarınızda ChatGPT Alternatiflerini Çalıştırma Rehberi

Giriş: Neden Yerel AI Modelleri?

2025 yılında yapay zeka kullanımı günlük hayatımızın ayrılmaz bir parçası haline geldi. ChatGPT, Claude, Gemini gibi bulut tabanlı AI servisleri harika olsa da, bazı önemli sınırlamalarla karşılaşıyoruz:

Gizlilik Endişeleri: Hassas verileriniz üçüncü taraf sunuculara gönderiliyor
İnternet Bağımlılığı: Çevrimdışı çalışamıyorsunuz
Maliyet: Aylık abonelik ücretleri (ChatGPT Plus $20/ay)
Hız Limitleri: Yoğun saatlerde yavaşlama ve kuyruk bekleme
Veri Sızıntısı Riski: Şirket verilerini dış servislerde işlemek güvenlik riski oluşturuyor

İşte tam bu noktada yerel AI modelleri devreye giriyor. Kendi bilgisayarınızda çalışan, internetinize bağımlı olmayan, tamamen ücretsiz ve gizliliğinizi koruyan AI asistanlarına sahip olabilirsiniz!

Yerel vs Bulut Tabanlı AI Modelleri Karşılaştırması

Özellik	Yerel AI Modelleri	Bulut Tabanlı AI
Gizlilik	✅ Tam kontrol, veri bilgisayarınızda kalır	❌ Veriler sunuculara gönderilir
Maliyet	✅ Tamamen ücretsiz	❌ Aylık $20-200 arası
İnternet	✅ Çevrimdışı çalışır	❌ Sürekli internet gerekli
Hız	✅ Donanımınıza bağlı, stabil	❌ Sunucu yoğunluğuna bağlı
Model Çeşitliliği	✅ Yüzlerce model seçeneği	❌ Sınırlı seçenek
Güncelleme	⚠️ Manuel güncelleme	✅ Otomatik güncellenir
Performans	⚠️ Donanıma bağlı	✅ Yüksek performanslı sunucular

Sistem Gereksinimleri

Yerel AI modelleri çalıştırmak için minimum ve önerilen sistem gereksinimleri:

Minimum Gereksinimler

İşlemci: 4 çekirdekli modern CPU (Intel i5 8.nesil / AMD Ryzen 5 3000+)
RAM: 8 GB (küçük modeller için)
Depolama: 20 GB boş alan
İşletim Sistemi: Windows 10/11, macOS 12+, Linux (Ubuntu 20.04+)

Önerilen Gereksinimler

İşlemci: 8+ çekirdekli CPU (Intel i7/i9, AMD Ryzen 7/9)
RAM: 16-32 GB
GPU: NVIDIA RTX 3060+ (CUDA 11.8+) veya AMD RX 6600+ (ROCm)
Depolama: 100 GB+ SSD

Model Boyutları ve RAM Gereksinimleri

3B parametre modeller → 4 GB RAM

7B parametre modeller  → 8 GB RAM
13B parametre modeller → 16 GB RAM
30B parametre modeller → 32 GB RAM
70B parametre modeller → 64 GB RAM

Popüler Yerel AI Araçları
1. Ollama - En Kolay Başlangıç 🏆
Ollama, yerel AI dünyasının Docker'ı gibidir. Komut satırından tek komutla model indirip çalıştırabilirsiniz.
Artıları:

✅ Süper kolay kurulum
✅ 100+ hazır model
✅ Otomatik GPU algılama
✅ API desteği
✅ Türkçe dil modelleri mevcut

Eksileri:

❌ Sınırlı görsel arayüz
❌ İleri seviye özelleştirme zor

Desteklediği Modeller:

Llama 3.2 (1B, 3B, 11B, 90B)
Mistral (7B, 8x7B)
Qwen 2.5 (0.5B - 72B)
Gemma 2 (2B, 9B, 27B)
Phi-3 (3.8B, 14B)
DeepSeek Coder

2. LM Studio - Görsel Arayüz Sevenlere
LM Studio, Photoshop benzeri profesyonel bir arayüze sahip, kullanıcı dostu bir yerel AI uygulaması.
Artıları:

✅ Mükemmel kullanıcı arayüzü
✅ Model indirme merkezi
✅ Sohbet geçmişi yönetimi
✅ Detaylı performans metrikleri
✅ GGUF format desteği

Eksileri:

❌ Sadece masaüstü
❌ API özellikleri sınırlı

3. GPT4All - Çok Yönlü Çözüm
GPT4All, açık kaynaklı ve topluluk odaklı bir proje. Hem GUI hem CLI desteği sunuyor.
Artıları:

✅ Açık kaynak
✅ Belge işleme (PDF, Word)
✅ Yerel RAG desteği
✅ Python entegrasyonu

Eksileri:

❌ Model seçimi sınırlı
❌ Kurulum biraz karmaşık

4. Jan.ai - Modern ve Şık
Jan.ai, Discord tarzı modern arayüzü ile dikkat çeken yeni nesil bir yerel AI uygulaması.
Artıları:

✅ Çok güzel arayüz
✅ Extension sistemi
✅ Bulut senkronizasyon
✅ Çoklu sohbet desteği

Eksileri:

❌ Henüz beta aşamasında
❌ Bazı modeller stabil değil

5. Text Generation WebUI (Oobabooga) - Geliştiriciler İçin
Text Generation WebUI, en kapsamlı özelliklere sahip, geliştiricilere yönelik web tabanlı arayüz.
Artıları:

✅ Her türlü model formatı desteği
✅ Fine-tuning özellikleri
✅ Extension ekosistemi
✅ Karakter/rol yapma modu

Eksileri:

❌ Kurulum kompleks
❌ Yeni başlayanlar için zor

Adım Adım Ollama Kurulumu
Şimdi en popüler ve kolay olan Ollama'yı kuralım. Her işletim sistemi için detaylı anlatım:
Windows Kurulumu

Ollama İndirme

# Tarayıcıdan indirin:
https://ollama.com/download/windows

# veya PowerShell ile:
winget install Ollama.Ollama

Kurulum Sihirbazı

İndirilen OllamaSetup.exe dosyasını çalıştırın
Kurulum dizinini seçin (önerilen: C:\Program Files\Ollama)
"Install" butonuna tıklayın
Kurulum tamamlandıktan sonra terminal/cmd açın

İlk Model İndirme

# Terminal/CMD'de:
ollama pull llama3.2:3b
# 3B parametreli Llama 3.2 modelini indirir (yaklaşık 2GB)

# Türkçe destekli model için:
ollama pull qwen2.5:7b

Modeli Çalıştırma

ollama run llama3.2:3b
# Interaktif sohbet modu başlar

macOS Kurulumu

Homebrew ile Kurulum

```
brew install ollama
```

Alternatif: DMG ile Kurulum

# https://ollama.com/download/mac adresinden indir
# Ollama.app'i Applications klasörüne sürükle

Ollama Servisini Başlatma

ollama serve
# Arka planda çalışmaya başlar

Linux (Ubuntu/Debian) Kurulumu

Tek Komutla Kurulum

curl -fsSL https://ollama.com/install.sh | sh

Manuel Kurulum

# Download binary
sudo curl -L https://ollama.com/download/ollama-linux-amd64 -o /usr/local/bin/ollama
sudo chmod +x /usr/local/bin/ollama

# Systemd servisi oluştur
sudo useradd -r -s /bin/false -m -d /usr/share/ollama ollama

GPU Desteği (NVIDIA)

# CUDA toolkit kurulu olmalı
nvidia-smi  # GPU'nuzu kontrol edin

# Ollama otomatik algılar, ekstra ayar gerekmez

Model Seçimi ve Karşılaştırma
Popüler Modeller ve Özellikleri
1. Llama 3.2 Serisi (Meta)

1B Model: Süper hızlı, basit görevler
3B Model: Denge noktası, genel kullanım
11B Model: Yüksek kalite, kod yazma
90B Model: ChatGPT seviyesinde (64GB+ RAM gerekli)

# Kurulum örnekleri:
ollama pull llama3.2:1b   # 650MB
ollama pull llama3.2:3b   # 2GB
ollama pull llama3.2:11b  # 7GB

2. Mistral/Mixtral Serisi

Fransız şirket Mistral AI'ın modelleri
Mükemmel kod anlama ve üretme
Çok dilli destek (Türkçe dahil)

ollama pull mistral:7b     # 4.1GB
ollama pull mixtral:8x7b   # 26GB - MoE mimarisi

3. Qwen 2.5 Serisi (Alibaba)

En iyi Türkçe desteği 🇹🇷
Matematik ve mantık problemlerinde başarılı
Çince-İngilizce-Türkçe üçlüsünde mükemmel

ollama pull qwen2.5:3b     # 1.9GB
ollama pull qwen2.5:7b     # 4.7GB
ollama pull qwen2.5:14b    # 9.1GB
ollama pull qwen2.5:32b    # 20GB

4. Phi-3 Serisi (Microsoft)

Küçük ama güçlü
Muhteşem mantık yürütme
Düşük kaynak tüketimi

ollama pull phi3:mini      # 2.3GB - 3.8B parametre
ollama pull phi3:medium    # 7.9GB - 14B parametre

5. Gemma 2 Serisi (Google)

Google kalitesi
Güvenlik odaklı
Akademik araştırmalar için ideal

ollama pull gemma2:2b      # 1.6GB
ollama pull gemma2:9b      # 5.5GB

Model Performans Karşılaştırması

Model	Türkçe	Kod	Hız	RAM	Genel Skor
Qwen 2.5 7B	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	8GB	95/100
Llama 3.2 3B	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	4GB	85/100
Mistral 7B	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐	8GB	90/100
Phi-3 Mini	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	4GB	82/100
Gemma 2 9B	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	10GB	78/100

Pratik Kullanım Senaryoları
1. Kod Yazma Asistanı

# DeepSeek Coder modelini indir
ollama pull deepseek-coder:6.7b

# Python kodu yazması için örnek
ollama run deepseek-coder:6.7b
> "Python'da bir REST API endpoint'i oluştur. Flask kullanarak kullanıcı CRUD işlemleri yapacak."

2. Terminal Entegrasyonu
.bashrc veya .zshrc dosyanıza ekleyin:

# AI asistan fonksiyonu
ai() {
    ollama run llama3.2:3b "$*"
}

# Kod açıklama fonksiyonu
explain() {
    echo "$*" | ollama run deepseek-coder:6.7b "Bu kodu açıkla:"
}

# Türkçe çeviri
cevir() {
    echo "$*" | ollama run qwen2.5:7b "İngilizceye çevir:"
}

Kullanım:

$ ai "Linux'ta port 8080'i hangi process kullanıyor nasıl bulurum?"
$ explain "ls -la | grep ^d | wc -l"
$ cevir "Merhaba dünya, nasılsınız?"

3. VS Code Entegrasyonu
Continue extension ile VS Code'da kullanım:

VS Code'da Continue extension'ı kurun
.continue/config.json dosyasını düzenleyin:

{
  "models": [
    {
      "title": "Ollama - Llama 3.2",
      "provider": "ollama",
      "model": "llama3.2:3b",
      "apiBase": "http://localhost:11434"
    },
    {
      "title": "Ollama - DeepSeek Coder",
      "provider": "ollama", 
      "model": "deepseek-coder:6.7b",
      "apiBase": "http://localhost:11434"
    }
  ]
}

4. Web API Olarak Kullanım
Ollama otomatik olarak REST API sunuyor:

# Python örneği
import requests
import json

def ollama_chat(prompt, model="llama3.2:3b"):
    url = "http://localhost:11434/api/generate"

    payload = {
        "model": model,
        "prompt": prompt,
        "stream": False
    }

    response = requests.post(url, json=payload)
    return response.json()['response']

# Kullanım
cevap = ollama_chat("Python'da fibonacci serisi nasıl yazılır?")
print(cevap)

// Node.js örneği
const axios = require('axios');

async function askOllama(prompt, model = 'llama3.2:3b') {
    const response = await axios.post('http://localhost:11434/api/generate', {
        model: model,
        prompt: prompt,
        stream: false
    });

    return response.data.response;
}

// Kullanım
askOllama('JavaScript ile API çağrısı nasıl yapılır?')
    .then(console.log);

5. Belge Analizi (RAG - Retrieval Augmented Generation)
Kendi belgelerinizi AI'ya yükleyerek soru sorabilirsiniz:

# pip install ollama chromadb pypdf2

import ollama
from chromadb import Client
from pypdf2 import PdfReader

# PDF'i oku
def read_pdf(file_path):
    reader = PdfReader(file_path)
    text = ""
    for page in reader.pages:
        text += page.extract_text()
    return text

# Vektör veritabanına ekle
def create_embeddings(text, collection_name="documents"):
    client = Client()
    collection = client.create_collection(collection_name)

    # Metni parçalara böl
    chunks = [text[i:i+1000] for i in range(0, len(text), 800)]

    for i, chunk in enumerate(chunks):
        # Embedding oluştur
        embedding = ollama.embeddings(
            model='llama3.2:3b',
            prompt=chunk
        )

        collection.add(
            embeddings=[embedding['embedding']],
            documents=[chunk],
            ids=[f"chunk_{i}"]
        )

    return collection

# Soru sor
def ask_document(question, collection):
    # Sorunun embedding'ini al
    q_embedding = ollama.embeddings(
        model='llama3.2:3b',
        prompt=question
    )

    # En alakalı belge parçasını bul
    results = collection.query(
        query_embeddings=[q_embedding['embedding']],
        n_results=3
    )

    # Kontekst oluştur
    context = "\n".join(results['documents'][0])

    # AI'ya sor
    prompt = f"""
    Kontekst: {context}
    
    Soru: {question}
    
    Yukarıdaki kontekste göre soruyu cevapla.
    """

    response = ollama.generate(
        model='llama3.2:3b',
        prompt=prompt
    )

    return response['response']

İleri Seviye Özellikler
Model Fine-Tuning
Kendi verilerinizle modeli özelleştirin:

# 1. Veri setini hazırlayın (JSONL formatında)
cat training_data.jsonl
{"prompt": "Başkent nedir?", "completion": "Ankara"}
{"prompt": "En büyük şehir?", "completion": "İstanbul"}

# 2. LoRA adaptör oluşturun
ollama create my-model --file Modelfile

# Modelfile içeriği:
FROM llama3.2:3b
ADAPTER ./lora-adapter
PARAMETER temperature 0.7
PARAMETER top_p 0.9
SYSTEM "Sen Türkiye hakkında uzman bir asistandsın."

Multi-Modal Modeller (Görüntü + Metin)

# LLaVA modelini indir (görüntü anlama)
ollama pull llava:7b

# Görüntü analizi
ollama run llava:7b "Bu görüntüde ne var? [resim.jpg]"

Model Quantization (Sıkıştırma)
Büyük modelleri küçültmek için:

# Model formatları:
# Q4_0: 4-bit quantization (en küçük)
# Q4_K_M: 4-bit dengan optimizasyon
# Q5_K_M: 5-bit (denge)
# Q8_0: 8-bit (en kaliteli)

ollama pull llama3.2:3b-q4_0  # %75 daha küçük
ollama pull llama3.2:3b-q8_0  # %25 daha küçük

Sistem Promptları ve Özelleştirme

# Özel sistem promptu ile model oluşturma
cat > Modelfile << EOF
FROM qwen2.5:7b

PARAMETER temperature 0.8
PARAMETER num_ctx 4096
PARAMETER top_k 40
PARAMETER top_p 0.9

SYSTEM """
Sen bir Python uzmanısın. 
Her zaman PEP 8 standartlarına uygun kod yazarsın.
Kodlarını docstring'lerle açıklarsın.
Type hint'ler kullanırsın.
"""
EOF

# Modeli oluştur
ollama create python-expert -f Modelfile

# Kullan
ollama run python-expert "Async web scraper yaz"

Performans Optimizasyonu
GPU Kullanımı

# NVIDIA GPU kontrolü
nvidia-smi

# GPU bellek ayarları
export OLLAMA_GPU_MEMORY=8192  # MB cinsinden

# Çoklu GPU
export CUDA_VISIBLE_DEVICES=0,1  # İki GPU kullan

# GPU'yu devre dışı bırak (sadece CPU)
export OLLAMA_GPU_LAYERS=0

RAM ve CPU Optimizasyonu

# Thread sayısını ayarla
export OLLAMA_NUM_THREAD=8

# Context uzunluğunu sınırla
export OLLAMA_NUM_CTX=2048  # Default: 2048

# Batch size ayarı
export OLLAMA_NUM_BATCH=512

# Model önbelleği
export OLLAMA_MODELS=/path/to/models  # SSD'de tutun

Benchmark ve Test

import time
import ollama

def benchmark_model(model_name, prompt, iterations=5):
    times = []

    for i in range(iterations):
        start = time.time()
        response = ollama.generate(
            model=model_name,
            prompt=prompt,
            stream=False
        )
        end = time.time()

        times.append(end - start)
        tokens = len(response['response'].split())
        tps = tokens / (end - start)

        print(f"İterasyon {i+1}: {end-start:.2f}s, {tps:.1f} token/s")

    avg_time = sum(times) / len(times)
    print(f"\nOrtalama süre: {avg_time:.2f}s")

# Test et
benchmark_model("llama3.2:3b", "Python'da quicksort algoritmasını yaz")

Güvenlik ve Gizlilik
Özel Ağ Kurulumu

# Ollama'yı sadece localhost'ta çalıştır (güvenli)
export OLLAMA_HOST=127.0.0.1:11434

# LAN'da paylaşım (dikkatli kullanın)
export OLLAMA_HOST=0.0.0.0:11434

# HTTPS ile güvenli bağlantı
ollama serve --tls-cert cert.pem --tls-key key.pem

Docker ile İzole Ortam

# Dockerfile
FROM ollama/ollama:latest

# Model önceden yükle
RUN ollama pull llama3.2:3b
RUN ollama pull qwen2.5:7b

EXPOSE 11434

CMD ["serve"]

# Docker ile çalıştır
docker build -t my-ollama .
docker run -d -p 11434:11434 --gpus all my-ollama

Sorun Giderme
Sık Karşılaşılan Hatalar
1. "Out of Memory" Hatası

# Çözüm: Daha küçük model kullan
ollama pull llama3.2:1b  # 3b yerine 1b

# veya quantized versiyon
ollama pull llama3.2:3b-q4_0

2. "GPU not detected"

# CUDA toolkit kurulumu kontrol
nvcc --version

# Ollama'yı yeniden başlat
ollama stop
ollama serve

3. "Model çok yavaş"

# CPU thread sayısını artır
export OMP_NUM_THREADS=8

# Daha hızlı model kullan
ollama pull phi3:mini  # Çok hızlı

Yararlı Kaynaklar ve Linkler
Resmi Dokümantasyon

Model Hub'ları

Türkçe Kaynaklar

Topluluklar

Gelecek ve Trendler
2025 sonuna doğru beklenen gelişmeler:

1B Parametre Modellerin Yükselişi: Telefonda bile çalışabilen süper küçük ama güçlü modeller
Özel Donanımlar: Apple M4 Ultra, NVIDIA RTX 5090 gibi AI odaklı çipler
Edge AI: IoT cihazlarda çalışan mikro modeller
Federated Learning: Modellerin birbirinden öğrenmesi
Türkçe Özel Modeller: Kültür ve Turizm Bakanlığı'nın TURNA projesi

Sonuç
Yerel AI modelleri, gizlilik, maliyet ve kontrol açısından muazzam avantajlar sunuyor. Ollama gibi araçlarla kurulum artık dakikalar alıyor ve ChatGPT'ye rakip kalitede sonuçlar elde edebiliyorsunuz.
Özellikle Qwen 2.5 serisi Türkçe desteği ile öne çıkıyor. 8GB RAM'li ortalama bir bilgisayarda bile tatmin edici sonuçlar alabilirsiniz.
Hemen şimdi başlayın:

# Hızlı başlangıç
curl -fsSL https://ollama.com/install.sh | sh
ollama pull qwen2.5:7b
ollama run qwen2.5:7b "Merhaba! Nasılsın?"

Unutmayın: Verileriniz sizindir, AI'nız da öyle olmalı! 🚀