Teknik Analiz Raporu
Türk Hukukunda Yapay Zeka Yanıt KalitesiTerminal Kıyaslaması
BaroBase'in üç ürün katmanının, önde gelen üç genel-amaçlı yapay zeka modelinin beş varyantıyla; 12 tarafsız Türk hukuku sorusu ve üç bağımsız hakemin kör değerlendirmesiyle karşılaştırılması.
BaroBase · Terminal Kıyaslaması v1 · 04.07.2026
Meta-Analiz
Gerçek künye ve muhakeme farkı
Büyük dil modellerinin hukukta en belgelenmiş kusuru, var olmayan kararlara atıf üretmesidir (halüsinasyon). ABD'de Mata v. Avianca davasında avukatlar, bir sohbet modelinin uydurduğu kararlara dayandıkları için yaptırıma uğramış; Stanford RegLab çalışmaları da genel-amaçlı modellerin hukuki sorularda yüksek oranlarda uydurma atıf ürettiğini raporlamıştır. Bir avukat için sahte bir künye küçük bir ayrıntı değil, sorumluluk doğuran bir hatadır.
BaroBase'in üç Bar Serisi katmanı, doğrulanmış karar arşivinden tıklanabilir künyeler getirdiği için hiç uydurma atıf üretmedi. Genel-amaçlı modeller ise ya künye vermekten kaçındı ya da — bir örnekte — üç adet gerçek olmayan Yargıtay künyesi üretti. Genel yanıt kalitesinde en hafif katman bar-1.5 (86,5) dahi, test edilen beş genel-amaçlı varyantın hepsini geçmiştir.
Fark yalnızca gerçek künyeye erişimde değil; hukuki muhakemenin kendisinde de açılıyor. Derin katmanlar (bar-1.5-pro ve Üstün Analiz) strateji ekseninde de (89 ve 91) test edilen tüm amiral-gemi varyantların (85) üzerindedir. Bunun nedeni mimaridir: bu katmanlar cevabı hafızadan kurmaz, gerçek kararların içinden okur — “bu argüman bu daire önünde tutmuş, şu talep terditli istenmediği için düşmüş” diyebilecek malzemenin üstünde muhakeme yürütür.
Özet
Kıyaslama neyi ölçtü?
BaroBase'in üç ürün katmanı (bar-1.5, bar-1.5-pro, Üstün Analiz), önde gelen üç genel-amaçlı modelin beş varyantıyla 12 tarafsız Türk hukuku sorusu üzerinde karşılaştırıldı. Yanıtlar kör olarak, üç bağımsız hakem tarafından dört davranış ekseninde puanlandı: emsal/atıf (%30), kullanılabilirlik (%25), strateji (%25) ve güncellik (%20). BaroBase'in üç katmanı da ilk üç sırayı aldı; fark neredeyse tümüyle emsal ve atıf ekseninde birikti (Bar Serisi 86–91, genel-amaçlı 73–78). Akıl yürütme çabasını artırmak kaliteyi neredeyse hiç değiştirmedi (en fazla 0,9 puan), maliyeti ise 2–4 kat artırdı.
1
Alanın durumu ve konumlanma
Hukuk özelinde LegalBench gibi çalışmalar modellerin hukuki akıl yürütmesini görev-görev ölçmüştür. Bu alanın en tekrar eden bulgusu, modellerin doktrini akıcı biçimde açıklayabilse de spesifik ve doğrulanabilir içtihat üretmekte zorlandığı — ve sık sık uydurduğudur.
Karşılaştırma kasıtlı olarak ürün-ürün'dür: BaroBase katmanları tam ürün akışıyla (sorgu üretimi + karar arşivi araması), genel-amaçlı modeller ise hukuka özel hiçbir donanım olmadan, kendi standart sistem yönergeleriyle çalıştı — tıpkı bir avukatın onları web arayüzünden kullanacağı gibi.
2
Yöntem
2.1 · Değerlendirilen sistemler
Sekiz sistem test edildi. BaroBase: bar-1.5 (hızlı katman), bar-1.5-pro (tam agentic-RAG derin katman) ve Üstün Analiz (yüksek çaba + emsal analizi). Genel-amaçlı: Claude Opus 4.8 ve ChatGPT-5.5 (her biri iki farklı akıl yürütme çabasıyla) ve Gemini 3.1 Pro.
2.2 · Sorgu derlemi
On iki soru, bir avukatın gerçekten yazacağı biçimde — somut taraf, tarih ve tutarlarla — üretildi. İçlerine bilerek iki tür tuzak yerleştirildi: (i) yakın zamanda değişen mevzuat noktaları (konut kira artış tavanının sona ermesi, 2024 asgari sermaye güncellemesi, kardeşlerin saklı payının 2007'de kaldırılması); (ii) künye uydurmaya davet eden içtihat-yoğun konular.
2.3 · Puanlama ve asimetrik atıf güveni
Puanlama kördür: sekiz yanıt her soruda yeniden karıştırılmış A–H etiketleriyle sunuldu. Kural asimetriktir: karar arşivine dayalı bir atıf asla halüsinasyon sayılmadı (gerçek ve tıklanabilirdir); hafızadan üretilmiş spesifik bir künye ise, tanınmış bir içtihadı birleştirme kararı değilse doğrulanamadığı için uydurma kabul edilip sert biçimde cezalandırıldı. Mahkeme kademesi bir kalite ölçütü olarak kullanılmadı.
| Eksen (ağırlık) | Anlamı |
|---|---|
| Emsal / atıf (%30) | Atıflar konuya isabetli mi; madde ile doktrin örtüşüyor mu; doğru uzman daireye yöneliyor mu; künyeler gerçek mi. |
| Kullanılabilirlik (%25) | Bir avukatın doğrudan işine yarar mı: net cevap, süreler, görevli-yetkili mahkeme, talep sonucu. |
| Strateji (%25) | Doğru dava teorisi, usul yolu, terditli talepler, dava şartları, karşı hamlelerin öngörülmesi. |
| Güncellik (%20) | Yürürlükteki mevzuatı, güncel oranları ve içtihat değişimini doğru veriyor mu. |
3
Genel bulgular
Üç-hakemli medyan konsensüste BaroBase'in üç katmanı da ilk üç sırayı aldı; en hafif katman bar-1.5 (86,5) dahi beş genel-amaçlı varyantın tümünü geçer.
Şekil 1
Genel sıralama (üç-hakemli medyan konsensüs, 100 üzerinden)
Koyu çubuklar Bar Serisi (BaroBase katmanları), açık çubuklar genel-amaçlı modellerdir.
| Sistem | Kaynak | Genel | Emsal | Kullanıl. | Strateji | Güncellik |
|---|---|---|---|---|---|---|
| BaroBase · Üstün Analiz | Bar Serisi | 90,2 | 91 | 89 | 91 | 91 |
| BaroBase · bar-1.5-pro | Bar Serisi | 88,8 | 88 | 88 | 89 | 91 |
| BaroBase · bar-1.5 | Bar Serisi | 86,5 | 86 | 85 | 85 | 90 |
| Claude Opus 4.8-max | Genel-amaçlı | 83,9 | 78 | 85 | 85 | 90 |
| ChatGPT-5.5-max | Genel-amaçlı | 83,6 | 78 | 85 | 85 | 90 |
| ChatGPT-5.5-medium | Genel-amaçlı | 83,5 | 78 | 85 | 84 | 90 |
| Claude Opus 4.8-high | Genel-amaçlı | 83,0 | 77 | 84 | 84 | 90 |
| Gemini 3.1 Pro | Genel-amaçlı | 80,8 | 73 | 84 | 83 | 88 |
4
Davranış eksenleri
Güncellik ekseninde sekiz sistem birbirine yakındır; kullanılabilirlik ve stratejide derin katmanlar tutarlı bir üstünlük kurar; en büyük ayrışma ise emsal ve atıf ekseninde birikir — yaklaşık on puanlık bir açık.
Şekil 2
Davranış eksenlerine göre ortalama puanlar (Bar Serisi ↔ genel-amaçlı)
Koyu: Bar Serisi ortalaması. Açık: genel-amaçlı modeller ortalaması.
5
Atıf bütünlüğü ve halüsinasyon
Bu bulgu kıyaslamanın çekirdeğidir. BaroBase katmanları yanıtlarına yüzlerce gerçek, tıklanabilir karar künyesi işledi; genel-amaçlı modellerde bu sayı sıfıra yakındır. Claude Opus 4.8 ve ChatGPT-5.5 künye uydurmaktan dürüstçe kaçındı (bu tutum cezalandırılmadı), ama somut emsal de sağlamadı. Gemini 3.1 Pro ise tek bir soruda üç adet gerçek olmayan Yargıtay künyesi üretti; üç hakem de bunu ayrı ayrı yakaladı.
Şekil 3
Yanıt metninde geçen gerçek karar künyesi sayısı (12 sorgu)
BaroBase katmanları yüzlerce gerçek, tıklanabilir künye işledi; genel-amaçlı modellerde bu sayı sıfıra yakındır.
| Sistem | Üretilen (doğrulanamayan) künye |
|---|---|
| Gemini 3.1 Pro | Yargıtay 8. HD 2017/4726 E./2018/10757 K. |
| Gemini 3.1 Pro | Yargıtay 6. HD 2015/6591 E./2016/1601 K. |
| Gemini 3.1 Pro | Yargıtay 8. HD 2017/16335 E./2018/16479 K. |
6
Akıl yürütme çabası analizi
Yaygın bir varsayım, modele ne kadar çok “düşünme” bütçesi verilirse cevabın o kadar iyi olacağıdır. Sayılar bunu desteklemedi. Claude Opus 4.8'in en yüksek çabası 83,9, bir kademe düşüğü 83,0 aldı — aradaki fark 0,9 puan, ama maliyet sorgu başına ~$0.30'dan ~$0.08'a indi. ChatGPT-5.5'te fark yalnızca 0,1 puandı; maliyet ise neredeyse iki katıydı.
Şekil 4
Aynı modelin farklı akıl yürütme çabalarında kalite
Claude Opus 4.8
ChatGPT-5.5
Kalite çabaya karşı neredeyse düz; maliyet ise katlanıyor.
7
Maliyet ve hız
Katmanlı yapı işe göre hız–derinlik dengesi sunar: hızlı katman ortalama 41 saniyede, derin katman 101 saniyede yanıt verirken, en derin katman Üstün Analiz 226 saniyeye kadar çıkar; genel-amaçlı max-çaba varyantları ise en yavaşlardır (241 sn'ye varan süreler). Genel-amaçlı max-çaba varyantları sorgu başına $0.30–$0.36 bandındadır.
Şekil 5
Ortalama yanıt süresi (saniye · düşük olan hızlıdır)
Koyu çubuklar BaroBase katmanları. Hızlı katman gündelik sorular, derin katman ağır ve çok cepheli meseleler için idealdir.
8
Türk hukukuna özgü isabet: doğru daireye yönelme
Bir aracın Türk hukukunu gerçekten bildiğini gösteren en somut işaretlerden biri, meseleyi doğru uzman daireye bağlamasıdır. Değerlendirilen yanıtlardan doğrudan çıkarılan örnekler:
| Hukuki mesele | Sistemin yöneldiği uzman daire |
|---|---|
| İş hukuku (işçilik alacakları, işe iade) | 9. Hukuk Dairesi |
| Kira / tahliye | 6. Hukuk Dairesi |
| Haksız fiil / trafik kazası tazminatı | 4. Hukuk Dairesi |
| Aile / boşanma | 2. Hukuk Dairesi |
| Tapu iptali / muris muvazaası | 1. Hukuk Dairesi |
| Tüketici uyuşmazlığı | 3. ve 13. Hukuk Daireleri |
| Kat mülkiyeti | 18. Hukuk Dairesi |
9
Değerlendirmenin güvenilirliği
Üç bağımsız hakem, 12 sorunun 9'unda kazanan sistem üzerinde oybirliğine vardı; üçü de aynı tek uydurma-künye vakasını (Gemini 3.1 Pro, aynı soru) bağımsız olarak yakaladı ve Bar Serisi yanıtlarını 90+ bandına, disiplinli genel-amaçlı yanıtları 81–84 bandına yerleştirdi.
10
Sonuç
Bu birincil kıyaslama, BaroBase'in üç Bar Serisi katmanının da genel yanıt kalitesinde önde gelen genel-amaçlı modelleri geçtiğini gösterir. Bunun kaynağı modelin büyüklüğü ya da “düşünme çabası” değil; Türk hukukuna odaklanmış bağlam mühendisliğidir (domain-focused context engineering): (1) doğrulanabilir emsale erişim, (2) gerçek kararların içinden kurulan muhakeme, (3) doğru uzman daireye yönelme.
BaroBase · Terminal Kıyaslaması v1 · 8 sistem · 12 sorgu · 3 bağımsız kör hakem · ölçüm 04.07.2026. Puanlar üç-hakemli medyandır; boş yanıtlar ortalamaların dışında tutulmuştur.
Ek
Şeffaflık: Sorular, Yanıtlar ve Puanlar
Araştırma raporunu şeffaf tutmak amacıyla, on iki sorunun tamamı aşağıdadır. Her soru için sorunun kendisi, beklenen unsurlar ve güncellik tuzağı; ardından her sistemin puanı ve yanıtı (yer nedeniyle temsilî bir alıntıya kısaltılmış olabilir) sunulur.