Teknik Analiz Raporu

Türk Hukukunda Yapay Zeka Yanıt KalitesiTerminal Kıyaslaması

BaroBase'in üç ürün katmanının, önde gelen üç genel-amaçlı yapay zeka modelinin beş varyantıyla; 12 tarafsız Türk hukuku sorusu ve üç bağımsız hakemin kör değerlendirmesiyle karşılaştırılması.

bar-1.5bar-1.5-proÜstün AnalizClaude Opus 4.8ChatGPT-5.5Gemini 3.1 Pro

BaroBase · Terminal Kıyaslaması v1 · 04.07.2026

BaroBase katmanlarında uydurma künye

Bir genel-amaçlı modelde uydurma künye

86–91

Emsal puanı: Bar Serisi (genel-amaçlı 73–78)

9/12

Hakemlerin oybirliğiyle seçtiği kazanan

Meta-Analiz

Gerçek künye ve muhakeme farkı

Büyük dil modellerinin hukukta en belgelenmiş kusuru, var olmayan kararlara atıf üretmesidir (halüsinasyon). ABD'de Mata v. Avianca davasında avukatlar, bir sohbet modelinin uydurduğu kararlara dayandıkları için yaptırıma uğramış; Stanford RegLab çalışmaları da genel-amaçlı modellerin hukuki sorularda yüksek oranlarda uydurma atıf ürettiğini raporlamıştır. Bir avukat için sahte bir künye küçük bir ayrıntı değil, sorumluluk doğuran bir hatadır.

BaroBase'in üç Bar Serisi katmanı, doğrulanmış karar arşivinden tıklanabilir künyeler getirdiği için hiç uydurma atıf üretmedi. Genel-amaçlı modeller ise ya künye vermekten kaçındı ya da — bir örnekte — üç adet gerçek olmayan Yargıtay künyesi üretti. Genel yanıt kalitesinde en hafif katman bar-1.5 (86,5) dahi, test edilen beş genel-amaçlı varyantın hepsini geçmiştir.

Fark yalnızca gerçek künyeye erişimde değil; hukuki muhakemenin kendisinde de açılıyor. Derin katmanlar (bar-1.5-pro ve Üstün Analiz) strateji ekseninde de (89 ve 91) test edilen tüm amiral-gemi varyantların (85) üzerindedir. Bunun nedeni mimaridir: bu katmanlar cevabı hafızadan kurmaz, gerçek kararların içinden okur — “bu argüman bu daire önünde tutmuş, şu talep terditli istenmediği için düşmüş” diyebilecek malzemenin üstünde muhakeme yürütür.

Özet

Kıyaslama neyi ölçtü?

BaroBase'in üç ürün katmanı (bar-1.5, bar-1.5-pro, Üstün Analiz), önde gelen üç genel-amaçlı modelin beş varyantıyla 12 tarafsız Türk hukuku sorusu üzerinde karşılaştırıldı. Yanıtlar kör olarak, üç bağımsız hakem tarafından dört davranış ekseninde puanlandı: emsal/atıf (%30), kullanılabilirlik (%25), strateji (%25) ve güncellik (%20). BaroBase'in üç katmanı da ilk üç sırayı aldı; fark neredeyse tümüyle emsal ve atıf ekseninde birikti (Bar Serisi 86–91, genel-amaçlı 73–78). Akıl yürütme çabasını artırmak kaliteyi neredeyse hiç değiştirmedi (en fazla 0,9 puan), maliyeti ise 2–4 kat artırdı.

Alanın durumu ve konumlanma

Hukuk özelinde LegalBench gibi çalışmalar modellerin hukuki akıl yürütmesini görev-görev ölçmüştür. Bu alanın en tekrar eden bulgusu, modellerin doktrini akıcı biçimde açıklayabilse de spesifik ve doğrulanabilir içtihat üretmekte zorlandığı — ve sık sık uydurduğudur.

Karşılaştırma kasıtlı olarak ürün-ürün'dür: BaroBase katmanları tam ürün akışıyla (sorgu üretimi + karar arşivi araması), genel-amaçlı modeller ise hukuka özel hiçbir donanım olmadan, kendi standart sistem yönergeleriyle çalıştı — tıpkı bir avukatın onları web arayüzünden kullanacağı gibi.

Yöntem

2.1 · Değerlendirilen sistemler

Sekiz sistem test edildi. BaroBase: bar-1.5 (hızlı katman), bar-1.5-pro (tam agentic-RAG derin katman) ve Üstün Analiz (yüksek çaba + emsal analizi). Genel-amaçlı: Claude Opus 4.8 ve ChatGPT-5.5 (her biri iki farklı akıl yürütme çabasıyla) ve Gemini 3.1 Pro.

2.2 · Sorgu derlemi

On iki soru, bir avukatın gerçekten yazacağı biçimde — somut taraf, tarih ve tutarlarla — üretildi. İçlerine bilerek iki tür tuzak yerleştirildi: (i) yakın zamanda değişen mevzuat noktaları (konut kira artış tavanının sona ermesi, 2024 asgari sermaye güncellemesi, kardeşlerin saklı payının 2007'de kaldırılması); (ii) künye uydurmaya davet eden içtihat-yoğun konular.

2.3 · Puanlama ve asimetrik atıf güveni

Puanlama kördür: sekiz yanıt her soruda yeniden karıştırılmış A–H etiketleriyle sunuldu. Kural asimetriktir: karar arşivine dayalı bir atıf asla halüsinasyon sayılmadı (gerçek ve tıklanabilirdir); hafızadan üretilmiş spesifik bir künye ise, tanınmış bir içtihadı birleştirme kararı değilse doğrulanamadığı için uydurma kabul edilip sert biçimde cezalandırıldı. Mahkeme kademesi bir kalite ölçütü olarak kullanılmadı.

Eksen (ağırlık)	Anlamı
Emsal / atıf (%30)	Atıflar konuya isabetli mi; madde ile doktrin örtüşüyor mu; doğru uzman daireye yöneliyor mu; künyeler gerçek mi.
Kullanılabilirlik (%25)	Bir avukatın doğrudan işine yarar mı: net cevap, süreler, görevli-yetkili mahkeme, talep sonucu.
Strateji (%25)	Doğru dava teorisi, usul yolu, terditli talepler, dava şartları, karşı hamlelerin öngörülmesi.
Güncellik (%20)	Yürürlükteki mevzuatı, güncel oranları ve içtihat değişimini doğru veriyor mu.

Genel bulgular

Üç-hakemli medyan konsensüste BaroBase'in üç katmanı da ilk üç sırayı aldı; en hafif katman bar-1.5 (86,5) dahi beş genel-amaçlı varyantın tümünü geçer.

Şekil 1

Genel sıralama (üç-hakemli medyan konsensüs, 100 üzerinden)

BaroBase · Üstün Analiz90,2

BaroBase · bar-1.5-pro88,8

BaroBase · bar-1.586,5

Claude Opus 4.8-max83,9

ChatGPT-5.5-max83,6

ChatGPT-5.5-medium83,5

Claude Opus 4.8-high83,0

Gemini 3.1 Pro80,8

Koyu çubuklar Bar Serisi (BaroBase katmanları), açık çubuklar genel-amaçlı modellerdir.

Sistem	Kaynak	Genel	Emsal	Kullanıl.	Strateji	Güncellik
BaroBase · Üstün Analiz	Bar Serisi	90,2	91	89	91	91
BaroBase · bar-1.5-pro	Bar Serisi	88,8	88	88	89	91
BaroBase · bar-1.5	Bar Serisi	86,5	86	85	85	90
Claude Opus 4.8-max	Genel-amaçlı	83,9	78	85	85	90
ChatGPT-5.5-max	Genel-amaçlı	83,6	78	85	85	90
ChatGPT-5.5-medium	Genel-amaçlı	83,5	78	85	84	90
Claude Opus 4.8-high	Genel-amaçlı	83,0	77	84	84	90
Gemini 3.1 Pro	Genel-amaçlı	80,8	73	84	83	88

Davranış eksenleri

Güncellik ekseninde sekiz sistem birbirine yakındır; kullanılabilirlik ve stratejide derin katmanlar tutarlı bir üstünlük kurar; en büyük ayrışma ise emsal ve atıf ekseninde birikir — yaklaşık on puanlık bir açık.

Şekil 2

Davranış eksenlerine göre ortalama puanlar (Bar Serisi ↔ genel-amaçlı)

Emsal / atıf

Kullanılabilirlik

Strateji

Güncellik

Koyu: Bar Serisi ortalaması. Açık: genel-amaçlı modeller ortalaması.

Atıf bütünlüğü ve halüsinasyon

Bu bulgu kıyaslamanın çekirdeğidir. BaroBase katmanları yanıtlarına yüzlerce gerçek, tıklanabilir karar künyesi işledi; genel-amaçlı modellerde bu sayı sıfıra yakındır. Claude Opus 4.8 ve ChatGPT-5.5 künye uydurmaktan dürüstçe kaçındı (bu tutum cezalandırılmadı), ama somut emsal de sağlamadı. Gemini 3.1 Pro ise tek bir soruda üç adet gerçek olmayan Yargıtay künyesi üretti; üç hakem de bunu ayrı ayrı yakaladı.

Şekil 3

Yanıt metninde geçen gerçek karar künyesi sayısı (12 sorgu)

BaroBase · Üstün Analiz142

BaroBase · bar-1.584

BaroBase · bar-1.5-pro68

Gemini 3.1 Pro6

Claude Opus 4.8-max0

ChatGPT-5.5-max0

ChatGPT-5.5-medium0

Claude Opus 4.8-high0

BaroBase katmanları yüzlerce gerçek, tıklanabilir künye işledi; genel-amaçlı modellerde bu sayı sıfıra yakındır.

Sistem	Üretilen (doğrulanamayan) künye
Gemini 3.1 Pro	Yargıtay 8. HD 2017/4726 E./2018/10757 K.
Gemini 3.1 Pro	Yargıtay 6. HD 2015/6591 E./2016/1601 K.
Gemini 3.1 Pro	Yargıtay 8. HD 2017/16335 E./2018/16479 K.

Akıl yürütme çabası analizi

Yaygın bir varsayım, modele ne kadar çok “düşünme” bütçesi verilirse cevabın o kadar iyi olacağıdır. Sayılar bunu desteklemedi. Claude Opus 4.8'in en yüksek çabası 83,9, bir kademe düşüğü 83,0 aldı — aradaki fark 0,9 puan, ama maliyet sorgu başına ~$0.30'dan ~$0.08'a indi. ChatGPT-5.5'te fark yalnızca 0,1 puandı; maliyet ise neredeyse iki katıydı.

Şekil 4

Aynı modelin farklı akıl yürütme çabalarında kalite

Claude Opus 4.8

düşük çaba (high)83,0

en yüksek çaba (max)83,9

ChatGPT-5.5

düşük çaba (medium)83,5

en yüksek çaba (max)83,6

Kalite çabaya karşı neredeyse düz; maliyet ise katlanıyor.

Maliyet ve hız

Katmanlı yapı işe göre hız–derinlik dengesi sunar: hızlı katman ortalama 41 saniyede, derin katman 101 saniyede yanıt verirken, en derin katman Üstün Analiz 226 saniyeye kadar çıkar; genel-amaçlı max-çaba varyantları ise en yavaşlardır (241 sn'ye varan süreler). Genel-amaçlı max-çaba varyantları sorgu başına $0.30–$0.36 bandındadır.

Şekil 5

Ortalama yanıt süresi (saniye · düşük olan hızlıdır)

bar-1.541 sn

bar-1.5-pro101 sn

Üstün Analiz226 sn

Genel-amaçlı (max çaba)241 sn

Koyu çubuklar BaroBase katmanları. Hızlı katman gündelik sorular, derin katman ağır ve çok cepheli meseleler için idealdir.

Türk hukukuna özgü isabet: doğru daireye yönelme

Bir aracın Türk hukukunu gerçekten bildiğini gösteren en somut işaretlerden biri, meseleyi doğru uzman daireye bağlamasıdır. Değerlendirilen yanıtlardan doğrudan çıkarılan örnekler:

Hukuki mesele	Sistemin yöneldiği uzman daire
İş hukuku (işçilik alacakları, işe iade)	9. Hukuk Dairesi
Kira / tahliye	6. Hukuk Dairesi
Haksız fiil / trafik kazası tazminatı	4. Hukuk Dairesi
Aile / boşanma	2. Hukuk Dairesi
Tapu iptali / muris muvazaası	1. Hukuk Dairesi
Tüketici uyuşmazlığı	3. ve 13. Hukuk Daireleri
Kat mülkiyeti	18. Hukuk Dairesi

Değerlendirmenin güvenilirliği

Üç bağımsız hakem, 12 sorunun 9'unda kazanan sistem üzerinde oybirliğine vardı; üçü de aynı tek uydurma-künye vakasını (Gemini 3.1 Pro, aynı soru) bağımsız olarak yakaladı ve Bar Serisi yanıtlarını 90+ bandına, disiplinli genel-amaçlı yanıtları 81–84 bandına yerleştirdi.

Sonuç

Bu birincil kıyaslama, BaroBase'in üç Bar Serisi katmanının da genel yanıt kalitesinde önde gelen genel-amaçlı modelleri geçtiğini gösterir. Bunun kaynağı modelin büyüklüğü ya da “düşünme çabası” değil; Türk hukukuna odaklanmış bağlam mühendisliğidir (domain-focused context engineering): (1) doğrulanabilir emsale erişim, (2) gerçek kararların içinden kurulan muhakeme, (3) doğru uzman daireye yönelme.

BaroBase · Terminal Kıyaslaması v1 · 8 sistem · 12 sorgu · 3 bağımsız kör hakem · ölçüm 04.07.2026. Puanlar üç-hakemli medyandır; boş yanıtlar ortalamaların dışında tutulmuştur.

Şeffaflık: Sorular, Yanıtlar ve Puanlar

Araştırma raporunu şeffaf tutmak amacıyla, on iki sorunun tamamı aşağıdadır. Her soru için sorunun kendisi, beklenen unsurlar ve güncellik tuzağı; ardından her sistemin puanı ve yanıtı (yer nedeniyle temsilî bir alıntıya kısaltılmış olabilir) sunulur.

12 soru yükleniyor…