En Güçlü “Açık” Yapay Zeka

En Güçlü “Açık” Yapay Zeka

DeepSeek'in yeni yapay zeka modeli şimdiye kadarki en iyi 'açık' rakiplerden biri gibi görünüyor.

Çinli bir laboratuvar, bugüne kadarki en güçlü “açık” yapay zeka modellerinden birini yarattı.

DeepSeek V3 adlı model, yapay zeka firması DeepSeek tarafından geliştirildi ve Çarşamba günü, geliştiricilerin ticari olanlar da dahil olmak üzere çoğu uygulama için indirmesine ve değiştirmesine izin veren izin verici bir lisans altında yayınlandı.

DeepSeek V3, kodlama, çeviri ve açıklayıcı bir istemden deneme ve e-posta yazma gibi bir dizi metin tabanlı iş yükü ve görevin üstesinden gelebilir.

DeepSeek'in dahili kıyaslama testlerine göre, DeepSeek V3 hem indirilebilir, “açık” olarak kullanılabilen modellerden hem de yalnızca bir API aracılığıyla erişilebilen “kapalı” yapay zeka modellerinden daha iyi performans gösteriyor. Programlama yarışmaları için bir platform olan Codeforces'ta düzenlenen kodlama yarışmalarının bir alt kümesinde DeepSeek, Meta'nın Llama 3.1 405B, OpenAI'nin GPT-4o ve Alibaba'nın Qwen 2.5 72B gibi diğer modellerden daha iyi performans gösterdi.

DeepSeek V3 ayrıca, diğer şeylerin yanı sıra, bir modelin mevcut koda entegre olan yeni kodu başarılı bir şekilde yazıp yazamayacağını ölçmek için tasarlanmış bir test olan Aider Polyglot'ta da rekabeti ezip geçiyor. 

DeepSeek, DeepSeek V3'ün 14,8 trilyon jetondan oluşan bir veri kümesi üzerinde eğitildiğini iddia ediyor. Veri biliminde, jetonlar ham veri bitlerini temsil etmek için kullanılır - 1 milyon jeton yaklaşık 750.000 kelimeye eşittir.

Devasa olan sadece eğitim seti değil. DeepSeek V3'ün boyutu muazzam: 671 milyar parametre ya da yapay zeka geliştirme platformu Hugging Face'te 685 milyar parametre. (Parametreler, modellerin tahminlerde bulunmak ya da karar vermek için kullandığı dahili değişkenlerdir). Bu, 405 milyar parametreye sahip Llama 3.1 405B'nin boyutunun yaklaşık 1,6 katıdır.

Parametre sayısı genellikle (ancak her zaman değil) beceri ile ilişkilidir; daha fazla parametreye sahip modeller daha az parametreye sahip modellerden daha iyi performans gösterme eğilimindedir. Ancak büyük modellerin çalışması için daha güçlü donanımlar da gerekir. DeepSeek V3'ün optimize edilmemiş bir versiyonu, soruları makul hızlarda yanıtlamak için bir dizi üst düzey GPU'ya ihtiyaç duyacaktır.

En pratik model olmasa da, DeepSeek V3 bazı açılardan bir başarıdır. DeepSeek, Nvidia H800 GPU'lardan oluşan bir veri merkezi kullanarak modeli sadece iki ay gibi kısa bir sürede eğitebildi - Çinli şirketlerin yakın zamanda ABD Ticaret Bakanlığı tarafından tedarik etmeleri kısıtlanan GPU'lar. Şirket ayrıca DeepSeek V3'ü eğitmek için yalnızca 5,5 milyon dolar harcadığını, bunun da OpenAI'nin GPT-4'ü gibi modellerin geliştirme maliyetinin çok altında olduğunu iddia ediyor.

Dezavantajı ise modelin siyasi görüşlerinin biraz... yapmacık olması. Örneğin DeepSeek V3'e Tiananmen Meydanı'nı sorduğunuzda cevap vermeyecektir.

Çinli bir şirket olan DeepSeek, modellerinin yanıtlarının “temel sosyalist değerleri yansıttığından” emin olmak için Çin'in internet düzenleyicisi tarafından kıyaslamaya tabi tutuluyor. Birçok Çinli yapay zeka sistemi, Xi Jinping rejimi hakkındaki spekülasyonlar gibi düzenleyicilerin tepkisini çekebilecek konulara yanıt vermeyi reddediyor.

Kasım ayı sonunda OpenAI'nin o1 “akıl yürütme” modeline bir yanıt olan DeepSeek-R1'i tanıtan DeepSeek ilginç bir organizasyon. Alım satım kararlarında yapay zekayı kullanan Çinli bir kantitatif hedge fonu olan High-Flyer Capital Management tarafından destekleniyor.

High-Flyer, model eğitimi için kendi sunucu kümelerini oluşturuyor; en yenilerinden birinin 10.000 Nvidia A100 GPU'ya sahip olduğu ve 1 milyar yen'e (~138 milyon $) mal olduğu bildiriliyor. Bilgisayar bilimleri mezunu Liang Wenfeng tarafından kurulan High-Flyer, DeepSeek kuruluşu aracılığıyla “süper zeki” yapay zekaya ulaşmayı hedefliyor.

Bu yılın başlarında verdiği bir röportajda Wenfeng, OpenAI'ınki gibi kapalı kaynaklı yapay zekayı “geçici” bir hendek olarak nitelendirdi. “[Bu] diğerlerinin yetişmesini engellemedi,” diye belirtmişti.

Gerçekten de öyle.

0 Yorum
Onur Kara
Onur Kara

Elektrik-Elektronik Mühendisi

ADMİN
PROFİL

Yorum yazabilmek için ÜYE olmanız gerekiyor. Eğer ÜYE iseniz lütfen GİRİŞ yapınız.



0 Yorum

Üye Girişi

Önerilenler

En Yeniler

Öne Çıkan Videolar

Yapay Zeka Haberleri

Kuantum Bilişim Haberleri

Kategoriler

Etiketler