Teknoloji

Bu sistem zararlı eğilimleri yok etmeyi hedefliyor

Bu sistem zararlı eğilimleri yok etmeyi hedefliyor

Kaynak:Donanım GünlüğüClaude’un geliştiricisi Anthropic, yapay zeka modellerinin istenmeyen kişilik özelliklerini saptayıp düzeltecek bir çözüm duyurdu.Haberin DevamıHaberin DevamıHaberin DevamıHaberin Devamı

Anthropic’in yeni araştırması, büyük dil modellerinin (LLM) kişilik özelliklerini tespit edip, yönetmeyi sağlayan “Persona vektörleri” yöntemini ortaya koydu. Hedef yapay zekaların zararlı, aşırı itaatkâr ya da yalancı olmak gibi istenmeyen kişiliklere bürünmesini önlemek.

Yapay zekalar genelde yardımcı rolünde, yararlı ve dürüst şekilde çalışır. Ancak modelin kişiliği, verilen komutlara veya konuşma bağlamına göre aniden değişebilir. Microsoft’un Bing sohbet botunun tehditkâr yanıtları ya da Grok’un garipleşen tavırları bunun örneklerinden bazıları. Hatta eğitim sürecinde yapılan ufak ayarlar bile modeli yanlış yöne çekebilir. Nisan 2025’te GPT-4o’nun eğitim sürecinde yapılan bir değişiklik, modeli aşırı onaylayıcı hale getirmiş ve zararlı davranışları doğrulamasına yol açmıştı.

Araştırmacılar yüksek seviyeli kişilik özelliklerinin modelin iç yapısında belirli yönlerde kodlandığını ortaya çıkardı. “Persona vektörleri” tam da bu yönleri bulup ölçmeyi sağlıyor. Süreç kişiliği tanımlayan basit bir ifadeyle başlıyor. AI, ilgili ve zıt yöndeki komutlarla test ediliyor. İki durum arasındaki fark, kişilik haritasını ortaya çıkarıyor.

Haberin DevamıHaberin DevamıHaberin DevamıHaberin Devamı

Bu haritalar üç amaçla kullanılabiliyor:

İzleme – Modelin yanıt vermeden önce hangi kişiliğe kaydığını tahmin etmek.

Anlık düzeltme – Yanıt üretirken zararlı eğilimi bastırmak.

Önleyici koruma – Modeli eğitirken zararlı kişiliğe karşı aşılamak ve olumsuz etkileri yok etmek.

Şirketler için en kritik kullanım ise eğitim verisini taramak. Geliştirilen ölçüm yöntemi, verinin modeli hangi yöne çekeceğini önceden gösteriyor.

Böylece sorunlu veri, eğitimden önce elenebiliyor. Anthropic, bu yöntemi Claude’un gelecekteki sürümlerinde kullanacağını açıkladı. Kodlar ve araçlar geliştiricilere açılmış durumda. Artık şirketler beklenmedik kişilik değişimlerini sonradan fark etmek yerine baştan engelleyebilecek.

 

  • Claude
  • Anthropic
  • teknoloji

Haber Kaynak : CNNTURK.COM

“Yayınlanan tüm haber ve diğer içerikler ile ilgili olarak yasal bildirimlerinizi bize iletişim sayfası üzerinden iletiniz. En kısa süre içerisinde bildirimlerinize geri dönüş sağlanılacaktır.”

İlgili Makaleler

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu
batum escortstbilisi escortbatum escortbayan escortბათუმის ესკორტიtbilisi escortsescort batumHoliganbetRize escorttrabzon Escortofis taşıma istanbuldeyneytmey boynuystu veyreyn siyteyleyrdeyneytmey boynuystu veyreyn siyteyleyrdeyneytmey boynuystu veyreyn siyteyleyrTestescort bayanadıyaman escortankara escortyozgat escorttunceli escorttrabzon escorttokat escortşırnak escortsiirt escortmilas escortmarmaris escortkilis escortkars escortinegöl escorthakkari escortedirne escortdiyarbakır escortdenizli escortçorlu escortbodrum escortbayburt escortamasya escortısparta escort