Apple, Nvidia ile işbirliği içinde, diğer şeylerin yanı sıra belirteçler arasında bağlantı kurmak için kullandıkları büyük AI dil modellerinde (LLM'ler) sözde çıkarımı hızlandırmayı amaçlayan bir proje başlattı. Çıkarım sırasında yapay zeka hızlandırıcıları önceden eğitilmiş yapay zeka algoritmalarını çalıştırır.
Reklamcılık
Bu amaçla şirket, Kasım ayında Recurrent Drafter veya kısaca ReDrafter adlı açık kaynaklı yazılımı GitHub'da bir makale ve kodla yayınladı. AI devinin bir blog yazısında duyurduğu gibi Nivida, şirket içi TensorRT-LLM çerçevesinde zaten ReDrafter'ı kullanıyor. Bu, geliştiricilerin Nvidia GPU yongalarındaki iş yükü performansını “önemli ölçüde hızlandırmasına” yardımcı olan “yeni, spekülatif bir kod çözme tekniğidir”.
Büyük üretim modelinde test edildi
Apple'a göre ReDrafter ve TensorRT-LLM, saniyede token üretimini 2,7 kat hızlandırabilir (buna açgözlü kod çözme denir). Apple'a göre bu, on milyarlarca parametreye sahip bir üretim modeli kullanılarak kontrol edildi. “Kıyaslama sonuçları, bu teknolojinin kullanıcıların yaşadığı gecikmeyi önemli ölçüde azaltabileceğini gösteriyor.” Aynı zamanda performans ve elektrikten tasarruf edersiniz.
Nvidia'ya göre spekülatif kod çözme, LLM çıkarımının paralel olarak birden fazla token üretilerek hızlandırıldığı bir süreçtir. “Bu, gelecekteki tokenleri tahmin etmek için daha küçük 'taslak' modülleri kullanıyor ve bunlar daha sonra ana model tarafından doğrulanıyor.” Bu yöntemle çıktı kalitesi eskisi kadar iyi olurken, “özellikle düşük trafikte yanıt süreleri önemli ölçüde azaldı.” Bu, mevcut kaynakların daha iyi kullanılmasını sağlayacaktır.
Kod tüm sektörün kullanımına açıktır
Apple, Nvidia GPU'larla sunucu alanında yaptığı çalışmalara paralel olarak, Apple Silicon cihazlarında LLM çıkarımını hızlandırmak için de çalıştığını vurguluyor. Görünüşe göre iPhone şirketi, Meta ve OpenAI'deki rakipleri gibi, kendi Yüksek Lisans Programlarını eğitirken büyük ölçüde Nvidia teknolojisine güveniyor. Sektörün geri kalanı da yapay zeka ekibinin çalışmalarından faydalanmalı. Açık kaynaklı modellerde ReDrafter'ın üretim adımı başına 3,5 jetona kadar daha hızlı olduğu söyleniyor. Bu, önceki spekülatif kod çözme yöntemlerinin performansını aştı.
Nvidia, TensorRT-LLM çerçevesinin en son sürümünde hem gerekli taslak hazırlama hem de doğrulama mantığını tek bir motorda içerdiğini yazıyor. Bu, yükü en aza indirir. Apple ile yapılan işbirliği TensorRT-LLM'yi “daha güçlü ve esnek” hale getirdi.
(bsc)
Reklamcılık
Bu amaçla şirket, Kasım ayında Recurrent Drafter veya kısaca ReDrafter adlı açık kaynaklı yazılımı GitHub'da bir makale ve kodla yayınladı. AI devinin bir blog yazısında duyurduğu gibi Nivida, şirket içi TensorRT-LLM çerçevesinde zaten ReDrafter'ı kullanıyor. Bu, geliştiricilerin Nvidia GPU yongalarındaki iş yükü performansını “önemli ölçüde hızlandırmasına” yardımcı olan “yeni, spekülatif bir kod çözme tekniğidir”.
Büyük üretim modelinde test edildi
Apple'a göre ReDrafter ve TensorRT-LLM, saniyede token üretimini 2,7 kat hızlandırabilir (buna açgözlü kod çözme denir). Apple'a göre bu, on milyarlarca parametreye sahip bir üretim modeli kullanılarak kontrol edildi. “Kıyaslama sonuçları, bu teknolojinin kullanıcıların yaşadığı gecikmeyi önemli ölçüde azaltabileceğini gösteriyor.” Aynı zamanda performans ve elektrikten tasarruf edersiniz.
Nvidia'ya göre spekülatif kod çözme, LLM çıkarımının paralel olarak birden fazla token üretilerek hızlandırıldığı bir süreçtir. “Bu, gelecekteki tokenleri tahmin etmek için daha küçük 'taslak' modülleri kullanıyor ve bunlar daha sonra ana model tarafından doğrulanıyor.” Bu yöntemle çıktı kalitesi eskisi kadar iyi olurken, “özellikle düşük trafikte yanıt süreleri önemli ölçüde azaldı.” Bu, mevcut kaynakların daha iyi kullanılmasını sağlayacaktır.
Kod tüm sektörün kullanımına açıktır
Apple, Nvidia GPU'larla sunucu alanında yaptığı çalışmalara paralel olarak, Apple Silicon cihazlarında LLM çıkarımını hızlandırmak için de çalıştığını vurguluyor. Görünüşe göre iPhone şirketi, Meta ve OpenAI'deki rakipleri gibi, kendi Yüksek Lisans Programlarını eğitirken büyük ölçüde Nvidia teknolojisine güveniyor. Sektörün geri kalanı da yapay zeka ekibinin çalışmalarından faydalanmalı. Açık kaynaklı modellerde ReDrafter'ın üretim adımı başına 3,5 jetona kadar daha hızlı olduğu söyleniyor. Bu, önceki spekülatif kod çözme yöntemlerinin performansını aştı.
Nvidia, TensorRT-LLM çerçevesinin en son sürümünde hem gerekli taslak hazırlama hem de doğrulama mantığını tek bir motorda içerdiğini yazıyor. Bu, yükü en aza indirir. Apple ile yapılan işbirliği TensorRT-LLM'yi “daha güçlü ve esnek” hale getirdi.
(bsc)