Ai2 OLMo 2: Açık Dil Modellerinde Çıtayı Yükseltiyor

Yapay Zeka
21:57, Kas 27
Onur Kara
378 Okunma
0 Yorum

Ai2, açık kaynaklı bir dil modelleri ailesi olan OLMo 2'yi piyasaya sürüyor.

Ai2, yapay zekanın demokratikleşmesini ilerleten ve açık ve tescilli çözümler arasındaki boşluğu daraltan açık kaynaklı bir dil modelleri ailesi olan OLMo 2'yi piyasaya sürüyor.

7B ve 13B parametreli versiyonları bulunan yeni modeller, 5 trilyona kadar token üzerinde eğitiliyor ve İngilizce akademik kıyaslamalarda Llama 3.1 gibi açık ağırlıklı modellerle rekabet ederken, karşılaştırılabilir tamamen açık modellerle eşleşen veya aşan performans seviyeleri gösteriyor.

Ai2, “Şubat 2024'te ilk OLMo'nun piyasaya sürülmesinden bu yana, açık dil modeli ekosisteminde hızlı bir büyüme ve açık ve tescilli modeller arasındaki performans farkının daraldığını gördük” dedi.

Geliştirme ekibi bu iyileştirmeleri, gelişmiş eğitim kararlılığı önlemleri, aşamalı eğitim yaklaşımları ve Tülu 3 çerçevesinden türetilen son teknoloji eğitim sonrası metodolojiler de dahil olmak üzere çeşitli yeniliklerle elde etti. Kayda değer teknik iyileştirmeler arasında parametrik olmayan katman normundan RMSNorm'a geçiş ve döner konumsal gömme uygulaması yer alıyor.

OLMo 2 model eğitimi atılımı

Eğitim sürecinde iki aşamalı sofistike bir yaklaşım kullanılmıştır. İlk aşamada DCLM, Dolma, Starcoder ve Proof Pile II'den elde edilen yaklaşık 3,9 trilyon jetonluk OLMo-Mix-1124 veri kümesi kullanılmıştır. İkinci aşamada, Dolmino-Mix-1124 veri kümesi aracılığıyla yüksek kaliteli web verilerinin ve alana özgü içeriğin özenle seçilmiş bir karışımı bir araya getirilmiştir.

Serideki en yetenekli model olan OLMo 2-Instruct-13B varyantı özellikle dikkat çekicidir. Model, çeşitli kıyaslamalarda Qwen 2.5 14B instruct, Tülu 3 8B ve Llama 3.1 8B instruct modellerine kıyasla üstün performans göstermektedir.

Açık bilime bağlılık

Açık bilime olan bağlılığını pekiştiren Ai2, ağırlıklar, veriler, kod, tarifler, ara kontrol noktaları ve talimat ayarlı modeller dahil olmak üzere kapsamlı belgeler yayınladı. Bu şeffaflık, sonuçların daha geniş YZ topluluğu tarafından tam olarak incelenmesine ve yeniden üretilmesine olanak tanır.

Sürüm ayrıca OLMES (Açık Dil Modelleme Değerlendirme Sistemi) adı verilen ve bilgi hatırlama, sağduyulu muhakeme ve matematiksel muhakeme gibi temel yetenekleri değerlendirmek için tasarlanmış 20 ölçütten oluşan bir değerlendirme çerçevesi de sunuyor.

OLMo 2, açık kaynaklı yapay zeka geliştirmede çıtayı yükseltmekte, şeffaflık ve erişilebilirliği korurken alandaki yeniliklerin hızını potansiyel olarak artırmaktadır.

0 Yorum