DeepSeek-V3-0324 resmen tanıtıldı! İşte tüm yenilikler

Çin merkezli yapay zeka girişimi DeepSeek, MIT lisansı ile yayınladığı yeni büyük dil modeli DeepSeek-V3-0324’ü kullanıcıların erişimine açtı. Model, Hugging Face platformunda ücretsiz olarak indirilebiliyor ve ticari kullanım için de tamamen açık …

DeepSeek-V3-0324 resmen tanıtıldı! İşte tüm yenilikler

Çin merkezli yapay zeka girişimi DeepSeek, MIT lisansı ile yayınladığı yeni büyük dil modeli DeepSeek-V3-0324’ü kullanıcıların erişimine açtı. Model, Hugging Face platformunda ücretsiz olarak indirilebiliyor ve ticari kullanım için de tamamen açık durumda.

Yeni DeepSeek-V3-0324 görücüye çıktı

641 gigabayt boyutundaki model, özellikle tüketici sınıfı donanımlarda çalışabilir olmasıyla dikkat çekiyor. Apple’ın M3 Ultra çipine sahip Mac Studio cihazlarında bile sorunsuz şekilde çalıştığı belirtilen teknoloji, 685 milyar parametreli bir yapıya sahip.

Yapay zeka araştırmacısı Xeophon, bu modelin Anthropic’in Claude Sonnet 3.5 modeline ciddi bir rakip olabileceğini belirtiyor. Özellikle Sonnet’in abonelikle sunulmasının aksine, DeepSeek-V3-0324’ün tamamen ücretsiz bir şekilde erişilebilir olması büyük fark yaratacak.

ChatGPT kullanmak yalnızlık hissini artırıyor! Peki neden?

Yapılan bir araştırmaya göre, ChatGPT kullanmak bazı kişilerde yalnızlık hissini artırıyor. Bu durum, birçok endişeye yol açtı.

Model, Mixture of Experts (MoE) mimarisine dayanıyor. Geleneksel büyük dil modellerinin aksine, DeepSeek-V3-0324 yalnızca en gerekli parametreleri etkinleştiriyor. 685 milyar parametreden yalnızca yaklaşık 37 milyarı aktif hale getiriliyor.

Bu yaklaşım, hesaplama süresini ciddi şekilde azaltırken performanstan da ödün vermiyor. Performans testlerinde, daha büyük ve daha yoğun etkinleştirme yapan modellerle oldukça benzer sonuçlar elde edildi.

DeepSeek-V3-0324 ayrıca Multi-Head Latent Attention (MLA) ve Multi-Token Prediction (MTP) gibi iki önemli yenilik içeriyor. MLA, uzun metinler arasında bağlamı koruma yeteneğini geliştirirken, MTP her adımda birden fazla token üretme imkanı sağlıyor.

Bu teknolojiler, modelin çıktı hızını yaklaşık yüzde 80 oranında artıracak. Apple araştırma grubundan Awni Hannun, modeli Mac Studio üzerinde test ederek saniyede yaklaşık 20 token hızında çıktı ürettiklerini açıkladı.

Kullanıcılar, modelin iletişim tarzında önceki sürümlere kıyasla belirgin bir değişiklik olduğunu belirtiyor. Daha önce insan benzeri ve konuşkan bir tona sahip olan DeepSeek modellerinin aksine, V3-0324 daha resmi ve teknik bir üsluba sahip.

DeepSeek’in bu hamlesi, büyük dil modelleri arasındaki rekabeti yeni bir boyuta taşıdı. 

Kaynak: Shiftdelete

ZİYARETÇİ YORUMLARI

Henüz yorum yapılmamış. İlk yorumu aşağıdaki form aracılığıyla siz yapabilirsiniz.

BİR YORUM YAZ
kamera sistemleri güvenlik kamerası