Yerel AI Modelleri: Kendi Bilgisayarınızda ChatGPT Alternatiflerini Çalıştırma Rehberi

Yerel AI Modelleri: Kendi Bilgisayarınızda ChatGPT Alternatiflerini Çalıştırma Rehberi

Eylül 19, 2025

Okuma süresi: 12 dakika

Yerel AI Modelleri: Kendi Bilgisayarınızda ChatGPT Alternatiflerini Çalıştırma Rehberi

Giriş: Neden Yerel AI Modelleri?

2025 yılında yapay zeka kullanımı günlük hayatımızın ayrılmaz bir parçası haline geldi. ChatGPT, Claude, Gemini gibi bulut tabanlı AI servisleri harika olsa da, bazı önemli sınırlamalarla karşılaşıyoruz:

  • Gizlilik Endişeleri: Hassas verileriniz üçüncü taraf sunuculara gönderiliyor
  • İnternet Bağımlılığı: Çevrimdışı çalışamıyorsunuz
  • Maliyet: Aylık abonelik ücretleri (ChatGPT Plus $20/ay)
  • Hız Limitleri: Yoğun saatlerde yavaşlama ve kuyruk bekleme
  • Veri Sızıntısı Riski: Şirket verilerini dış servislerde işlemek güvenlik riski oluşturuyor

İşte tam bu noktada yerel AI modelleri devreye giriyor. Kendi bilgisayarınızda çalışan, internetinize bağımlı olmayan, tamamen ücretsiz ve gizliliğinizi koruyan AI asistanlarına sahip olabilirsiniz!

Yerel vs Bulut Tabanlı AI Modelleri Karşılaştırması

Özellik Yerel AI Modelleri Bulut Tabanlı AI
Gizlilik ✅ Tam kontrol, veri bilgisayarınızda kalır ❌ Veriler sunuculara gönderilir
Maliyet ✅ Tamamen ücretsiz ❌ Aylık $20-200 arası
İnternet ✅ Çevrimdışı çalışır ❌ Sürekli internet gerekli
Hız ✅ Donanımınıza bağlı, stabil ❌ Sunucu yoğunluğuna bağlı
Model Çeşitliliği ✅ Yüzlerce model seçeneği ❌ Sınırlı seçenek
Güncelleme ⚠️ Manuel güncelleme ✅ Otomatik güncellenir
Performans ⚠️ Donanıma bağlı ✅ Yüksek performanslı sunucular

Sistem Gereksinimleri

Yerel AI modelleri çalıştırmak için minimum ve önerilen sistem gereksinimleri:

Minimum Gereksinimler

  • İşlemci: 4 çekirdekli modern CPU (Intel i5 8.nesil / AMD Ryzen 5 3000+)
  • RAM: 8 GB (küçük modeller için)
  • Depolama: 20 GB boş alan
  • İşletim Sistemi: Windows 10/11, macOS 12+, Linux (Ubuntu 20.04+)

Önerilen Gereksinimler

  • İşlemci: 8+ çekirdekli CPU (Intel i7/i9, AMD Ryzen 7/9)
  • RAM: 16-32 GB
  • GPU: NVIDIA RTX 3060+ (CUDA 11.8+) veya AMD RX 6600+ (ROCm)
  • Depolama: 100 GB+ SSD

Model Boyutları ve RAM Gereksinimleri

3B parametre modeller → 4 GB RAM

7B parametre modeller  → 8 GB RAM
13B parametre modeller → 16 GB RAM
30B parametre modeller → 32 GB RAM
70B parametre modeller → 64 GB RAM
  • Popüler Yerel AI Araçları
  • 1. Ollama - En Kolay Başlangıç 🏆
  • Ollama, yerel AI dünyasının Docker'ı gibidir. Komut satırından tek komutla model indirip çalıştırabilirsiniz.
  • Artıları:
  • ✅ Süper kolay kurulum
  • ✅ 100+ hazır model
  • ✅ Otomatik GPU algılama
  • ✅ API desteği
  • ✅ Türkçe dil modelleri mevcut
  • Eksileri:
  • ❌ Sınırlı görsel arayüz
  • ❌ İleri seviye özelleştirme zor
  • Desteklediği Modeller:
  • Llama 3.2 (1B, 3B, 11B, 90B)
  • Mistral (7B, 8x7B)
  • Qwen 2.5 (0.5B - 72B)
  • Gemma 2 (2B, 9B, 27B)
  • Phi-3 (3.8B, 14B)
  • DeepSeek Coder
  • 2. LM Studio - Görsel Arayüz Sevenlere
  • LM Studio, Photoshop benzeri profesyonel bir arayüze sahip, kullanıcı dostu bir yerel AI uygulaması.
  • Artıları:
  • ✅ Mükemmel kullanıcı arayüzü
  • ✅ Model indirme merkezi
  • ✅ Sohbet geçmişi yönetimi
  • ✅ Detaylı performans metrikleri
  • ✅ GGUF format desteği
  • Eksileri:
  • ❌ Sadece masaüstü
  • ❌ API özellikleri sınırlı
  • 3. GPT4All - Çok Yönlü Çözüm
  • GPT4All, açık kaynaklı ve topluluk odaklı bir proje. Hem GUI hem CLI desteği sunuyor.
  • Artıları:
  • ✅ Açık kaynak
  • ✅ Belge işleme (PDF, Word)
  • ✅ Yerel RAG desteği
  • ✅ Python entegrasyonu
  • Eksileri:
  • ❌ Model seçimi sınırlı
  • ❌ Kurulum biraz karmaşık
  • 4. Jan.ai - Modern ve Şık
  • Jan.ai, Discord tarzı modern arayüzü ile dikkat çeken yeni nesil bir yerel AI uygulaması.
  • Artıları:
  • ✅ Çok güzel arayüz
  • ✅ Extension sistemi
  • ✅ Bulut senkronizasyon
  • ✅ Çoklu sohbet desteği
  • Eksileri:
  • ❌ Henüz beta aşamasında
  • ❌ Bazı modeller stabil değil
  • 5. Text Generation WebUI (Oobabooga) - Geliştiriciler İçin
  • Text Generation WebUI, en kapsamlı özelliklere sahip, geliştiricilere yönelik web tabanlı arayüz.
  • Artıları:
  • ✅ Her türlü model formatı desteği
  • ✅ Fine-tuning özellikleri
  • ✅ Extension ekosistemi
  • ✅ Karakter/rol yapma modu
  • Eksileri:
  • ❌ Kurulum kompleks
  • ❌ Yeni başlayanlar için zor
  • Adım Adım Ollama Kurulumu
  • Şimdi en popüler ve kolay olan Ollama'yı kuralım. Her işletim sistemi için detaylı anlatım:
  • Windows Kurulumu
  1. Ollama İndirme
  • # Tarayıcıdan indirin:
    https://ollama.com/download/windows
    
    # veya PowerShell ile:
    winget install Ollama.Ollama
  1. Kurulum Sihirbazı
  • İndirilen OllamaSetup.exe dosyasını çalıştırın
  • Kurulum dizinini seçin (önerilen: C:\Program Files\Ollama)
  • "Install" butonuna tıklayın
  • Kurulum tamamlandıktan sonra terminal/cmd açın
  1. İlk Model İndirme
  • # Terminal/CMD'de:
    ollama pull llama3.2:3b
    # 3B parametreli Llama 3.2 modelini indirir (yaklaşık 2GB)
    
    # Türkçe destekli model için:
    ollama pull qwen2.5:7b
  1. Modeli Çalıştırma
  • ollama run llama3.2:3b
    # Interaktif sohbet modu başlar
  • macOS Kurulumu
  1. Homebrew ile Kurulum
  • brew install ollama
  1. Alternatif: DMG ile Kurulum
  • # https://ollama.com/download/mac adresinden indir
    # Ollama.app'i Applications klasörüne sürükle
  1. Ollama Servisini Başlatma
  • ollama serve
    # Arka planda çalışmaya başlar
  • Linux (Ubuntu/Debian) Kurulumu
  1. Tek Komutla Kurulum
  • curl -fsSL https://ollama.com/install.sh | sh
  1. Manuel Kurulum
  • # Download binary
    sudo curl -L https://ollama.com/download/ollama-linux-amd64 -o /usr/local/bin/ollama
    sudo chmod +x /usr/local/bin/ollama
    
    # Systemd servisi oluştur
    sudo useradd -r -s /bin/false -m -d /usr/share/ollama ollama
  1. GPU Desteği (NVIDIA)
  • # CUDA toolkit kurulu olmalı
    nvidia-smi  # GPU'nuzu kontrol edin
    
    # Ollama otomatik algılar, ekstra ayar gerekmez
  • Model Seçimi ve Karşılaştırma
  • Popüler Modeller ve Özellikleri
  • 1. Llama 3.2 Serisi (Meta)
  • 1B Model: Süper hızlı, basit görevler
  • 3B Model: Denge noktası, genel kullanım
  • 11B Model: Yüksek kalite, kod yazma
  • 90B Model: ChatGPT seviyesinde (64GB+ RAM gerekli)
  • # Kurulum örnekleri:
    ollama pull llama3.2:1b   # 650MB
    ollama pull llama3.2:3b   # 2GB
    ollama pull llama3.2:11b  # 7GB
  • 2. Mistral/Mixtral Serisi
  • Fransız şirket Mistral AI'ın modelleri
  • Mükemmel kod anlama ve üretme
  • Çok dilli destek (Türkçe dahil)
  • ollama pull mistral:7b     # 4.1GB
    ollama pull mixtral:8x7b   # 26GB - MoE mimarisi
  • 3. Qwen 2.5 Serisi (Alibaba)
  • En iyi Türkçe desteği 🇹🇷
  • Matematik ve mantık problemlerinde başarılı
  • Çince-İngilizce-Türkçe üçlüsünde mükemmel
  • ollama pull qwen2.5:3b     # 1.9GB
    ollama pull qwen2.5:7b     # 4.7GB
    ollama pull qwen2.5:14b    # 9.1GB
    ollama pull qwen2.5:32b    # 20GB
  • 4. Phi-3 Serisi (Microsoft)
  • Küçük ama güçlü
  • Muhteşem mantık yürütme
  • Düşük kaynak tüketimi
  • ollama pull phi3:mini      # 2.3GB - 3.8B parametre
    ollama pull phi3:medium    # 7.9GB - 14B parametre
  • 5. Gemma 2 Serisi (Google)
  • Google kalitesi
  • Güvenlik odaklı
  • Akademik araştırmalar için ideal
  • ollama pull gemma2:2b      # 1.6GB
    ollama pull gemma2:9b      # 5.5GB
  • Model Performans Karşılaştırması
  • Model Türkçe Kod Hız RAM Genel Skor
    Qwen 2.5 7B ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐ 8GB 95/100
    Llama 3.2 3B ⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 4GB 85/100
    Mistral 7B ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐ 8GB 90/100
    Phi-3 Mini ⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 4GB 82/100
    Gemma 2 9B ⭐⭐⭐ ⭐⭐⭐ ⭐⭐⭐ 10GB 78/100
  • Pratik Kullanım Senaryoları
  • 1. Kod Yazma Asistanı
  • # DeepSeek Coder modelini indir
    ollama pull deepseek-coder:6.7b
    
    # Python kodu yazması için örnek
    ollama run deepseek-coder:6.7b
    > "Python'da bir REST API endpoint'i oluştur. Flask kullanarak kullanıcı CRUD işlemleri yapacak."
  • 2. Terminal Entegrasyonu
  • .bashrc veya .zshrc dosyanıza ekleyin:
  • # AI asistan fonksiyonu
    ai() {
        ollama run llama3.2:3b "$*"
    }
    
    # Kod açıklama fonksiyonu
    explain() {
        echo "$*" | ollama run deepseek-coder:6.7b "Bu kodu açıkla:"
    }
    
    # Türkçe çeviri
    cevir() {
        echo "$*" | ollama run qwen2.5:7b "İngilizceye çevir:"
    }
  • Kullanım:
  • $ ai "Linux'ta port 8080'i hangi process kullanıyor nasıl bulurum?"
    $ explain "ls -la | grep ^d | wc -l"
    $ cevir "Merhaba dünya, nasılsınız?"
  • 3. VS Code Entegrasyonu
  • Continue extension ile VS Code'da kullanım:
  1. VS Code'da Continue extension'ı kurun
  2. .continue/config.json dosyasını düzenleyin:
  • {
      "models": [
        {
          "title": "Ollama - Llama 3.2",
          "provider": "ollama",
          "model": "llama3.2:3b",
          "apiBase": "http://localhost:11434"
        },
        {
          "title": "Ollama - DeepSeek Coder",
          "provider": "ollama", 
          "model": "deepseek-coder:6.7b",
          "apiBase": "http://localhost:11434"
        }
      ]
    }
  • 4. Web API Olarak Kullanım
  • Ollama otomatik olarak REST API sunuyor:
  • # Python örneği
    import requests
    import json
    
    def ollama_chat(prompt, model="llama3.2:3b"):
        url = "http://localhost:11434/api/generate"
    
        payload = {
            "model": model,
            "prompt": prompt,
            "stream": False
        }
    
        response = requests.post(url, json=payload)
        return response.json()['response']
    
    # Kullanım
    cevap = ollama_chat("Python'da fibonacci serisi nasıl yazılır?")
    print(cevap)
  • // Node.js örneği
    const axios = require('axios');
    
    async function askOllama(prompt, model = 'llama3.2:3b') {
        const response = await axios.post('http://localhost:11434/api/generate', {
            model: model,
            prompt: prompt,
            stream: false
        });
    
        return response.data.response;
    }
    
    // Kullanım
    askOllama('JavaScript ile API çağrısı nasıl yapılır?')
        .then(console.log);
  • 5. Belge Analizi (RAG - Retrieval Augmented Generation)
  • Kendi belgelerinizi AI'ya yükleyerek soru sorabilirsiniz:
  • # pip install ollama chromadb pypdf2
    
    import ollama
    from chromadb import Client
    from pypdf2 import PdfReader
    
    # PDF'i oku
    def read_pdf(file_path):
        reader = PdfReader(file_path)
        text = ""
        for page in reader.pages:
            text += page.extract_text()
        return text
    
    # Vektör veritabanına ekle
    def create_embeddings(text, collection_name="documents"):
        client = Client()
        collection = client.create_collection(collection_name)
    
        # Metni parçalara böl
        chunks = [text[i:i+1000] for i in range(0, len(text), 800)]
    
        for i, chunk in enumerate(chunks):
            # Embedding oluştur
            embedding = ollama.embeddings(
                model='llama3.2:3b',
                prompt=chunk
            )
    
            collection.add(
                embeddings=[embedding['embedding']],
                documents=[chunk],
                ids=[f"chunk_{i}"]
            )
    
        return collection
    
    # Soru sor
    def ask_document(question, collection):
        # Sorunun embedding'ini al
        q_embedding = ollama.embeddings(
            model='llama3.2:3b',
            prompt=question
        )
    
        # En alakalı belge parçasını bul
        results = collection.query(
            query_embeddings=[q_embedding['embedding']],
            n_results=3
        )
    
        # Kontekst oluştur
        context = "\n".join(results['documents'][0])
    
        # AI'ya sor
        prompt = f"""
        Kontekst: {context}
        
        Soru: {question}
        
        Yukarıdaki kontekste göre soruyu cevapla.
        """
    
        response = ollama.generate(
            model='llama3.2:3b',
            prompt=prompt
        )
    
        return response['response']
  • İleri Seviye Özellikler
  • Model Fine-Tuning
  • Kendi verilerinizle modeli özelleştirin:
  • # 1. Veri setini hazırlayın (JSONL formatında)
    cat training_data.jsonl
    {"prompt": "Başkent nedir?", "completion": "Ankara"}
    {"prompt": "En büyük şehir?", "completion": "İstanbul"}
    
    # 2. LoRA adaptör oluşturun
    ollama create my-model --file Modelfile
    
    # Modelfile içeriği:
    FROM llama3.2:3b
    ADAPTER ./lora-adapter
    PARAMETER temperature 0.7
    PARAMETER top_p 0.9
    SYSTEM "Sen Türkiye hakkında uzman bir asistandsın."
  • Multi-Modal Modeller (Görüntü + Metin)
  • # LLaVA modelini indir (görüntü anlama)
    ollama pull llava:7b
    
    # Görüntü analizi
    ollama run llava:7b "Bu görüntüde ne var? [resim.jpg]"
  • Model Quantization (Sıkıştırma)
  • Büyük modelleri küçültmek için:
  • # Model formatları:
    # Q4_0: 4-bit quantization (en küçük)
    # Q4_K_M: 4-bit dengan optimizasyon
    # Q5_K_M: 5-bit (denge)
    # Q8_0: 8-bit (en kaliteli)
    
    ollama pull llama3.2:3b-q4_0  # %75 daha küçük
    ollama pull llama3.2:3b-q8_0  # %25 daha küçük
  • Sistem Promptları ve Özelleştirme
  • # Özel sistem promptu ile model oluşturma
    cat > Modelfile << EOF
    FROM qwen2.5:7b
    
    PARAMETER temperature 0.8
    PARAMETER num_ctx 4096
    PARAMETER top_k 40
    PARAMETER top_p 0.9
    
    SYSTEM """
    Sen bir Python uzmanısın. 
    Her zaman PEP 8 standartlarına uygun kod yazarsın.
    Kodlarını docstring'lerle açıklarsın.
    Type hint'ler kullanırsın.
    """
    EOF
    
    # Modeli oluştur
    ollama create python-expert -f Modelfile
    
    # Kullan
    ollama run python-expert "Async web scraper yaz"
  • Performans Optimizasyonu
  • GPU Kullanımı
  • # NVIDIA GPU kontrolü
    nvidia-smi
    
    # GPU bellek ayarları
    export OLLAMA_GPU_MEMORY=8192  # MB cinsinden
    
    # Çoklu GPU
    export CUDA_VISIBLE_DEVICES=0,1  # İki GPU kullan
    
    # GPU'yu devre dışı bırak (sadece CPU)
    export OLLAMA_GPU_LAYERS=0
  • RAM ve CPU Optimizasyonu
  • # Thread sayısını ayarla
    export OLLAMA_NUM_THREAD=8
    
    # Context uzunluğunu sınırla
    export OLLAMA_NUM_CTX=2048  # Default: 2048
    
    # Batch size ayarı
    export OLLAMA_NUM_BATCH=512
    
    # Model önbelleği
    export OLLAMA_MODELS=/path/to/models  # SSD'de tutun
  • Benchmark ve Test
  • import time
    import ollama
    
    def benchmark_model(model_name, prompt, iterations=5):
        times = []
    
        for i in range(iterations):
            start = time.time()
            response = ollama.generate(
                model=model_name,
                prompt=prompt,
                stream=False
            )
            end = time.time()
    
            times.append(end - start)
            tokens = len(response['response'].split())
            tps = tokens / (end - start)
    
            print(f"İterasyon {i+1}: {end-start:.2f}s, {tps:.1f} token/s")
    
        avg_time = sum(times) / len(times)
        print(f"\nOrtalama süre: {avg_time:.2f}s")
    
    # Test et
    benchmark_model("llama3.2:3b", "Python'da quicksort algoritmasını yaz")
  • Güvenlik ve Gizlilik
  • Özel Ağ Kurulumu
  • # Ollama'yı sadece localhost'ta çalıştır (güvenli)
    export OLLAMA_HOST=127.0.0.1:11434
    
    # LAN'da paylaşım (dikkatli kullanın)
    export OLLAMA_HOST=0.0.0.0:11434
    
    # HTTPS ile güvenli bağlantı
    ollama serve --tls-cert cert.pem --tls-key key.pem
  • Docker ile İzole Ortam
  • # Dockerfile
    FROM ollama/ollama:latest
    
    # Model önceden yükle
    RUN ollama pull llama3.2:3b
    RUN ollama pull qwen2.5:7b
    
    EXPOSE 11434
    
    CMD ["serve"]
  • # Docker ile çalıştır
    docker build -t my-ollama .
    docker run -d -p 11434:11434 --gpus all my-ollama
  • Sorun Giderme
  • Sık Karşılaşılan Hatalar
  • 1. "Out of Memory" Hatası
  • # Çözüm: Daha küçük model kullan
    ollama pull llama3.2:1b  # 3b yerine 1b
    
    # veya quantized versiyon
    ollama pull llama3.2:3b-q4_0
  • 2. "GPU not detected"
  • # CUDA toolkit kurulumu kontrol
    nvcc --version
    
    # Ollama'yı yeniden başlat
    ollama stop
    ollama serve
  • 3. "Model çok yavaş"
  • # CPU thread sayısını artır
    export OMP_NUM_THREADS=8
    
    # Daha hızlı model kullan
    ollama pull phi3:mini  # Çok hızlı
  • Yararlı Kaynaklar ve Linkler
  • Resmi Dokümantasyon
  • Model Hub'ları
  • Türkçe Kaynaklar
  • Topluluklar
  • Gelecek ve Trendler
  • 2025 sonuna doğru beklenen gelişmeler:
  1. 1B Parametre Modellerin Yükselişi: Telefonda bile çalışabilen süper küçük ama güçlü modeller
  2. Özel Donanımlar: Apple M4 Ultra, NVIDIA RTX 5090 gibi AI odaklı çipler
  3. Edge AI: IoT cihazlarda çalışan mikro modeller
  4. Federated Learning: Modellerin birbirinden öğrenmesi
  5. Türkçe Özel Modeller: Kültür ve Turizm Bakanlığı'nın TURNA projesi
  • Sonuç
  • Yerel AI modelleri, gizlilik, maliyet ve kontrol açısından muazzam avantajlar sunuyor. Ollama gibi araçlarla kurulum artık dakikalar alıyor ve ChatGPT'ye rakip kalitede sonuçlar elde edebiliyorsunuz.
  • Özellikle Qwen 2.5 serisi Türkçe desteği ile öne çıkıyor. 8GB RAM'li ortalama bir bilgisayarda bile tatmin edici sonuçlar alabilirsiniz.
  • Hemen şimdi başlayın:
  • # Hızlı başlangıç
    curl -fsSL https://ollama.com/install.sh | sh
    ollama pull qwen2.5:7b
    ollama run qwen2.5:7b "Merhaba! Nasılsın?"
  • Unutmayın: Verileriniz sizindir, AI'nız da öyle olmalı! 🚀