GPT-4, 1 milyon saat YouTube videosuyla eğitildi

OpenAI yeni gelişmiş büyük dil modeli GPT-4'ü 1 milyon saatten fazla YouTube videosuyla telif haklarını gözetmeksizin izinsiz bir şekilde eğitti. Aynı şekilde Google ve diğer yapay zeka geliştiricileri de YouTube, Facebook ve Instagram içeriklerini yapay zekalarını eğitmek için izinsiz bir şekilde kullanıyor.

13 Nisan 2024 - 05:01

Geçtiğimiz ay Wall Street Journal’dan Joanna Stern ve OpenAI CTO’su Mira Murati şirketin en son metinden videoya dönüştürme aracı Sora’yı konuşmak için bir araya geldi. Sohbet sırasında Stern, Murati’ye Sora’nın YouTube, Instagram ve Facebook’taki videoları kullanarak eğitim alıp almadığını sordu ve Murati, "Kamuya açık verileri ve lisanslı verileri kullandık." dedi. Stern "Peki YouTube’daki videolar?" diye üstelediğindeyse Murati yüzünü buruşturup "Aslında bundan emin değilim." sözleriyle karşılık verdi.

CTO’nun bu sorudan rahatsız olması şaşırtıcı değil. Çünkü New York Times’ın haberini yaptığı üzere Open AI, GPT-4 büyük dil modelini (LLM) bir milyondan fazla YouTube videosuyla gizlice eğitti. Kaynaklar gazeteye, transkriptlerin GPT-4’e aktarıldığını söyledi. Üstelik bunu yapan sadece OpenAI değil. YouTube’un sahibi Google da kendi yapay zeka modellerini eğitmek için transkriptleri topladı. Bu durum, yapay zeka şirketlerinin modellerini eğitmek için telif haklarını sorgusuzca nasıl ihlal ettiklerini gösteriyor ve bu şirketler izin almak bir yana hak sahiplerine adil bir tazminat bile ödemiyor. Konu hakkında makale yayınlayan NYT’nin kendisi bile OpenAI ve Microsoft’a karşı onları telif hakkı ihlaliyle suçalayan bir davayla uğraşıyor. Google sözcüsü Matt Bryant, NYT’ye YouTube’un "YouTube içeriğinin izinsiz olarak kopyalanmasını ya da indirilmesini" yasakladığını söyledi. Bir başka röportajındaysa şirketin OpenAI faaliyetlerine ilişkin "doğrulanmamış raporlar" gördüğünü belirtti.

Ancak asıl soru, bir milyon saatlik YouTube videosunun izinsiz kopyalamanın hırsızlık anlamına gelip gelmediği. ABD’deki telif hakkı yasası, özellikle adil kullanım söz konusu olduğunda yasal olarak gri bir alanda kalmaya devam ediyor. Uzmanlar ve avukatlar ise yapay zeka şirketlerinin internetin tamamında dolaşırken tüm içeriği lisanslamanın muhtemelen imkansız olacağını söylüyor. Yapay zeka şirketleri verileri fütursuzca kullanmaya devam etse de yakında çok da ilginç bir sorunla karşı karşıya kalacak gibi görünüyor: Eğitim verilerinin tükenmesi. Araştırmacılar, 2026’ya kadar yapay zeka şirketlerinin modellerini besleyecek yüksek kaliteli verilerin tükenme ihtimalinin %90 olduğunu söylüyor.

Kaynak: Diken