ÇözümlerTerminal Kıyaslaması v1

Teknik Analiz Raporu

Türk Hukukunda Yapay Zeka Yanıt KalitesiTerminal Kıyaslaması

BaroBase'in üç ürün katmanının, önde gelen üç genel-amaçlı yapay zeka modelinin beş varyantıyla; 12 tarafsız Türk hukuku sorusu ve üç bağımsız hakemin kör değerlendirmesiyle karşılaştırılması.

bar-1.5bar-1.5-proÜstün AnalizClaude Opus 4.8ChatGPT-5.5Gemini 3.1 Pro

BaroBase · Terminal Kıyaslaması v1 · 04.07.2026

0
BaroBase katmanlarında uydurma künye
3
Bir genel-amaçlı modelde uydurma künye
86–91
Emsal puanı: Bar Serisi (genel-amaçlı 73–78)
9/12
Hakemlerin oybirliğiyle seçtiği kazanan

Meta-Analiz

Gerçek künye ve muhakeme farkı

Büyük dil modellerinin hukukta en belgelenmiş kusuru, var olmayan kararlara atıf üretmesidir (halüsinasyon). ABD'de Mata v. Avianca davasında avukatlar, bir sohbet modelinin uydurduğu kararlara dayandıkları için yaptırıma uğramış; Stanford RegLab çalışmaları da genel-amaçlı modellerin hukuki sorularda yüksek oranlarda uydurma atıf ürettiğini raporlamıştır. Bir avukat için sahte bir künye küçük bir ayrıntı değil, sorumluluk doğuran bir hatadır.

BaroBase'in üç Bar Serisi katmanı, doğrulanmış karar arşivinden tıklanabilir künyeler getirdiği için hiç uydurma atıf üretmedi. Genel-amaçlı modeller ise ya künye vermekten kaçındı ya da — bir örnekte — üç adet gerçek olmayan Yargıtay künyesi üretti. Genel yanıt kalitesinde en hafif katman bar-1.5 (86,5) dahi, test edilen beş genel-amaçlı varyantın hepsini geçmiştir.

Fark yalnızca gerçek künyeye erişimde değil; hukuki muhakemenin kendisinde de açılıyor. Derin katmanlar (bar-1.5-pro ve Üstün Analiz) strateji ekseninde de (89 ve 91) test edilen tüm amiral-gemi varyantların (85) üzerindedir. Bunun nedeni mimaridir: bu katmanlar cevabı hafızadan kurmaz, gerçek kararların içinden okur — “bu argüman bu daire önünde tutmuş, şu talep terditli istenmediği için düşmüş” diyebilecek malzemenin üstünde muhakeme yürütür.

Özet

Kıyaslama neyi ölçtü?

BaroBase'in üç ürün katmanı (bar-1.5, bar-1.5-pro, Üstün Analiz), önde gelen üç genel-amaçlı modelin beş varyantıyla 12 tarafsız Türk hukuku sorusu üzerinde karşılaştırıldı. Yanıtlar kör olarak, üç bağımsız hakem tarafından dört davranış ekseninde puanlandı: emsal/atıf (%30), kullanılabilirlik (%25), strateji (%25) ve güncellik (%20). BaroBase'in üç katmanı da ilk üç sırayı aldı; fark neredeyse tümüyle emsal ve atıf ekseninde birikti (Bar Serisi 86–91, genel-amaçlı 73–78). Akıl yürütme çabasını artırmak kaliteyi neredeyse hiç değiştirmedi (en fazla 0,9 puan), maliyeti ise 2–4 kat artırdı.

1

Alanın durumu ve konumlanma

Hukuk özelinde LegalBench gibi çalışmalar modellerin hukuki akıl yürütmesini görev-görev ölçmüştür. Bu alanın en tekrar eden bulgusu, modellerin doktrini akıcı biçimde açıklayabilse de spesifik ve doğrulanabilir içtihat üretmekte zorlandığı — ve sık sık uydurduğudur.

Karşılaştırma kasıtlı olarak ürün-ürün'dür: BaroBase katmanları tam ürün akışıyla (sorgu üretimi + karar arşivi araması), genel-amaçlı modeller ise hukuka özel hiçbir donanım olmadan, kendi standart sistem yönergeleriyle çalıştı — tıpkı bir avukatın onları web arayüzünden kullanacağı gibi.

2

Yöntem

2.1 · Değerlendirilen sistemler

Sekiz sistem test edildi. BaroBase: bar-1.5 (hızlı katman), bar-1.5-pro (tam agentic-RAG derin katman) ve Üstün Analiz (yüksek çaba + emsal analizi). Genel-amaçlı: Claude Opus 4.8 ve ChatGPT-5.5 (her biri iki farklı akıl yürütme çabasıyla) ve Gemini 3.1 Pro.

2.2 · Sorgu derlemi

On iki soru, bir avukatın gerçekten yazacağı biçimde — somut taraf, tarih ve tutarlarla — üretildi. İçlerine bilerek iki tür tuzak yerleştirildi: (i) yakın zamanda değişen mevzuat noktaları (konut kira artış tavanının sona ermesi, 2024 asgari sermaye güncellemesi, kardeşlerin saklı payının 2007'de kaldırılması); (ii) künye uydurmaya davet eden içtihat-yoğun konular.

2.3 · Puanlama ve asimetrik atıf güveni

Puanlama kördür: sekiz yanıt her soruda yeniden karıştırılmış A–H etiketleriyle sunuldu. Kural asimetriktir: karar arşivine dayalı bir atıf asla halüsinasyon sayılmadı (gerçek ve tıklanabilirdir); hafızadan üretilmiş spesifik bir künye ise, tanınmış bir içtihadı birleştirme kararı değilse doğrulanamadığı için uydurma kabul edilip sert biçimde cezalandırıldı. Mahkeme kademesi bir kalite ölçütü olarak kullanılmadı.

Eksen (ağırlık)Anlamı
Emsal / atıf (%30)Atıflar konuya isabetli mi; madde ile doktrin örtüşüyor mu; doğru uzman daireye yöneliyor mu; künyeler gerçek mi.
Kullanılabilirlik (%25)Bir avukatın doğrudan işine yarar mı: net cevap, süreler, görevli-yetkili mahkeme, talep sonucu.
Strateji (%25)Doğru dava teorisi, usul yolu, terditli talepler, dava şartları, karşı hamlelerin öngörülmesi.
Güncellik (%20)Yürürlükteki mevzuatı, güncel oranları ve içtihat değişimini doğru veriyor mu.

3

Genel bulgular

Üç-hakemli medyan konsensüste BaroBase'in üç katmanı da ilk üç sırayı aldı; en hafif katman bar-1.5 (86,5) dahi beş genel-amaçlı varyantın tümünü geçer.

Şekil 1

Genel sıralama (üç-hakemli medyan konsensüs, 100 üzerinden)

BaroBase · Üstün Analiz90,2
BaroBase · bar-1.5-pro88,8
BaroBase · bar-1.586,5
Claude Opus 4.8-max83,9
ChatGPT-5.5-max83,6
ChatGPT-5.5-medium83,5
Claude Opus 4.8-high83,0
Gemini 3.1 Pro80,8

Koyu çubuklar Bar Serisi (BaroBase katmanları), açık çubuklar genel-amaçlı modellerdir.

SistemKaynakGenelEmsalKullanıl.StratejiGüncellik
BaroBase · Üstün AnalizBar Serisi90,291899191
BaroBase · bar-1.5-proBar Serisi88,888888991
BaroBase · bar-1.5Bar Serisi86,586858590
Claude Opus 4.8-maxGenel-amaçlı83,978858590
ChatGPT-5.5-maxGenel-amaçlı83,678858590
ChatGPT-5.5-mediumGenel-amaçlı83,578858490
Claude Opus 4.8-highGenel-amaçlı83,077848490
Gemini 3.1 ProGenel-amaçlı80,873848388

4

Davranış eksenleri

Güncellik ekseninde sekiz sistem birbirine yakındır; kullanılabilirlik ve stratejide derin katmanlar tutarlı bir üstünlük kurar; en büyük ayrışma ise emsal ve atıf ekseninde birikir — yaklaşık on puanlık bir açık.

Şekil 2

Davranış eksenlerine göre ortalama puanlar (Bar Serisi ↔ genel-amaçlı)

Emsal / atıf
88
77
Kullanılabilirlik
87
85
Strateji
88
84
Güncellik
91
90

Koyu: Bar Serisi ortalaması. Açık: genel-amaçlı modeller ortalaması.

5

Atıf bütünlüğü ve halüsinasyon

Bu bulgu kıyaslamanın çekirdeğidir. BaroBase katmanları yanıtlarına yüzlerce gerçek, tıklanabilir karar künyesi işledi; genel-amaçlı modellerde bu sayı sıfıra yakındır. Claude Opus 4.8 ve ChatGPT-5.5 künye uydurmaktan dürüstçe kaçındı (bu tutum cezalandırılmadı), ama somut emsal de sağlamadı. Gemini 3.1 Pro ise tek bir soruda üç adet gerçek olmayan Yargıtay künyesi üretti; üç hakem de bunu ayrı ayrı yakaladı.

Şekil 3

Yanıt metninde geçen gerçek karar künyesi sayısı (12 sorgu)

BaroBase · Üstün Analiz142
BaroBase · bar-1.584
BaroBase · bar-1.5-pro68
Gemini 3.1 Pro6
Claude Opus 4.8-max0
ChatGPT-5.5-max0
ChatGPT-5.5-medium0
Claude Opus 4.8-high0

BaroBase katmanları yüzlerce gerçek, tıklanabilir künye işledi; genel-amaçlı modellerde bu sayı sıfıra yakındır.

SistemÜretilen (doğrulanamayan) künye
Gemini 3.1 ProYargıtay 8. HD 2017/4726 E./2018/10757 K.
Gemini 3.1 ProYargıtay 6. HD 2015/6591 E./2016/1601 K.
Gemini 3.1 ProYargıtay 8. HD 2017/16335 E./2018/16479 K.

6

Akıl yürütme çabası analizi

Yaygın bir varsayım, modele ne kadar çok “düşünme” bütçesi verilirse cevabın o kadar iyi olacağıdır. Sayılar bunu desteklemedi. Claude Opus 4.8'in en yüksek çabası 83,9, bir kademe düşüğü 83,0 aldı — aradaki fark 0,9 puan, ama maliyet sorgu başına ~$0.30'dan ~$0.08'a indi. ChatGPT-5.5'te fark yalnızca 0,1 puandı; maliyet ise neredeyse iki katıydı.

Şekil 4

Aynı modelin farklı akıl yürütme çabalarında kalite

Claude Opus 4.8

düşük çaba (high)83,0
en yüksek çaba (max)83,9

ChatGPT-5.5

düşük çaba (medium)83,5
en yüksek çaba (max)83,6

Kalite çabaya karşı neredeyse düz; maliyet ise katlanıyor.

7

Maliyet ve hız

Katmanlı yapı işe göre hız–derinlik dengesi sunar: hızlı katman ortalama 41 saniyede, derin katman 101 saniyede yanıt verirken, en derin katman Üstün Analiz 226 saniyeye kadar çıkar; genel-amaçlı max-çaba varyantları ise en yavaşlardır (241 sn'ye varan süreler). Genel-amaçlı max-çaba varyantları sorgu başına $0.30–$0.36 bandındadır.

Şekil 5

Ortalama yanıt süresi (saniye · düşük olan hızlıdır)

bar-1.541 sn
bar-1.5-pro101 sn
Üstün Analiz226 sn
Genel-amaçlı (max çaba)241 sn

Koyu çubuklar BaroBase katmanları. Hızlı katman gündelik sorular, derin katman ağır ve çok cepheli meseleler için idealdir.

8

Türk hukukuna özgü isabet: doğru daireye yönelme

Bir aracın Türk hukukunu gerçekten bildiğini gösteren en somut işaretlerden biri, meseleyi doğru uzman daireye bağlamasıdır. Değerlendirilen yanıtlardan doğrudan çıkarılan örnekler:

Hukuki meseleSistemin yöneldiği uzman daire
İş hukuku (işçilik alacakları, işe iade)9. Hukuk Dairesi
Kira / tahliye6. Hukuk Dairesi
Haksız fiil / trafik kazası tazminatı4. Hukuk Dairesi
Aile / boşanma2. Hukuk Dairesi
Tapu iptali / muris muvazaası1. Hukuk Dairesi
Tüketici uyuşmazlığı3. ve 13. Hukuk Daireleri
Kat mülkiyeti18. Hukuk Dairesi

9

Değerlendirmenin güvenilirliği

Üç bağımsız hakem, 12 sorunun 9'unda kazanan sistem üzerinde oybirliğine vardı; üçü de aynı tek uydurma-künye vakasını (Gemini 3.1 Pro, aynı soru) bağımsız olarak yakaladı ve Bar Serisi yanıtlarını 90+ bandına, disiplinli genel-amaçlı yanıtları 81–84 bandına yerleştirdi.

10

Sonuç

Bu birincil kıyaslama, BaroBase'in üç Bar Serisi katmanının da genel yanıt kalitesinde önde gelen genel-amaçlı modelleri geçtiğini gösterir. Bunun kaynağı modelin büyüklüğü ya da “düşünme çabası” değil; Türk hukukuna odaklanmış bağlam mühendisliğidir (domain-focused context engineering): (1) doğrulanabilir emsale erişim, (2) gerçek kararların içinden kurulan muhakeme, (3) doğru uzman daireye yönelme.

BaroBase · Terminal Kıyaslaması v1 · 8 sistem · 12 sorgu · 3 bağımsız kör hakem · ölçüm 04.07.2026. Puanlar üç-hakemli medyandır; boş yanıtlar ortalamaların dışında tutulmuştur.

Ek

Şeffaflık: Sorular, Yanıtlar ve Puanlar

Araştırma raporunu şeffaf tutmak amacıyla, on iki sorunun tamamı aşağıdadır. Her soru için sorunun kendisi, beklenen unsurlar ve güncellik tuzağı; ardından her sistemin puanı ve yanıtı (yer nedeniyle temsilî bir alıntıya kısaltılmış olabilir) sunulur.

12 soru yükleniyor…