GPT-4.1: Daha İyi Kod, Daha Fazla Hız, Daha Az Bekleme
- YAPAY ZEKA
- 15:13, May 17
Üretken yapay zeka modellerinin ortaya çıkışı, var olmayanı yaratmamızı sağladı. İster rüyanızda gördüğünüz bir görüntü, ister planlamayı unuttuğunuz bir akşam yemeği partisi için fikirler olsun, tek yapmanız gereken doğru modele sormak. Nvidia'nın Fugatto olarak bilinen en son yapay zeka demosu, güçlü ses yapay zekası üretiminin kapılarını açıyor. Fugatto'ya metin veya ses girdisi sağlayabilirsiniz ve o da havlayan bir saksafon veya bir ambulans korosu gibi son ateşli rüyanızdan fırlamış bir şey bile olsa ne isterseniz yaratacaktır.
Fugatto, ChatGPT gibi robotların çalışmasını sağlayan aynı teknolojiye dayanan temel bir üretken dönüştürücü modelidir. Ancak Fugatto metinle beslenmek yerine bir yığın ses verisiyle beslendi. Nihai model 2,5 milyar parametreye sahip ve 32 H100 Hopper AI hızlandırıcılı bir Nvidia DGX sistemi üzerinde eğitildi.
Nvidia'ya göre, Fugatto'yu oluşturmanın en zor kısımlarından biri eğitim için uygun veri setini oluşturmaktı. Doğal olarak, çok sayıda ses örneği (yaklaşık 50 milyon saat) içeriyordu, ancak ekip modeli nispeten kompakt tutmak için çalıştı. Modelin yeteneklerini genişleten veriler ve talimatlar üretmek için çalıştılar ve yeni veri eklemeden modeli daha yaratıcı hale getirdiler. Proje bir yıldan uzun sürdü, ancak sonuçlar kelimenin tam anlamıyla kendi adlarına konuşuyor. Google geçen yıl bir müzik oluşturma modeli göstermişti, ancak bu nispeten oldukça basitti.
Ekip, eğitim verilerinin nasıl etkileşime girdiğine dair daha kapsamlı bir anlayış kazanarak Fugatto'yu gerçekliğin ötesine taşıyabildi. Model, araştırmacıların erken dönem üretken yapay zeka sistemlerinin popüler bir görsel testine atıfta bulunarak “avokado sandalyesi” adını verdikleri bir yeteneğe sahip. Bu, tamamen YZ tarafından yaratılan, var olmayan yenilikleri ifade ediyor. Havlayan saksafonlara bu şekilde ulaşıyoruz. Eğitim verilerinin kurnazca kullanımı, ComposableART adı verilen bir teknik sayesinde, eğitimde birlikte görülmemiş olsalar bile birden fazla ses özelliğinin birleştirilmesine de yardımcı oluyor. Örneğin, Fugatto oluşturulan seslere hem duygu hem de aksan ekleyebiliyor. Bu, kullanıcıya nihai ürün üzerinde çok daha fazla kontrol sağlıyor.
Fugatto'nun bazı yetenekleri müzisyenler ve yapımcılar için gerçek bir fayda sağlayabilir gibi görünüyor. Örneğin, modele bir ses dosyası sağlayabilir ve sesi izole etmek veya yerinde yeni bir enstrüman parçası eklemek gibi yararlı değişiklikler isteyebilirsiniz. Ayrıca metin komutlarına dayanarak sıfırdan sesler de oluşturabilir. Nvidia ses araştırmacısı Rafael Valle, “Bir komuttan ilk kez müzik ürettiğinde aklımızı başımızdan aldı” dedi.
Fugatto henüz halka açık testler için mevcut değil, ancak Nvidia neler yapabileceğine dair çeşitli örnekler içeren bir web sitesi oluşturdu. Bu örnekler, modelin daha önce hiç duyulmamış sesler yaratmada ne kadar ileri gidebileceğini gösteriyor. Muhtemelen bugün çığlık atan bir çello duymayı bekleyerek uyanmadınız, ama Nvidia yine de bunu gerçekleştirdi.