Bu sistem zararlı eğilimleri yok etmeyi hedefliyor

Kaynak:Donanım GünlüğüClaude’un geliştiricisi Anthropic, yapay zeka modellerinin istenmeyen kişilik özelliklerini saptayıp düzeltecek bir çözüm duyurdu.Haberin DevamıHaberin DevamıHaberin DevamıHaberin Devamı

Anthropic’in yeni araştırması, büyük dil modellerinin (LLM) kişilik özelliklerini tespit edip, yönetmeyi sağlayan “Persona vektörleri” yöntemini ortaya koydu. Hedef yapay zekaların zararlı, aşırı itaatkâr ya da yalancı olmak gibi istenmeyen kişiliklere bürünmesini önlemek.

Yapay zekalar genelde yardımcı rolünde, yararlı ve dürüst şekilde çalışır. Ancak modelin kişiliği, verilen komutlara veya konuşma bağlamına göre aniden değişebilir. Microsoft’un Bing sohbet botunun tehditkâr yanıtları ya da Grok’un garipleşen tavırları bunun örneklerinden bazıları. Hatta eğitim sürecinde yapılan ufak ayarlar bile modeli yanlış yöne çekebilir. Nisan 2025’te GPT-4o’nun eğitim sürecinde yapılan bir değişiklik, modeli aşırı onaylayıcı hale getirmiş ve zararlı davranışları doğrulamasına yol açmıştı.

Araştırmacılar yüksek seviyeli kişilik özelliklerinin modelin iç yapısında belirli yönlerde kodlandığını ortaya çıkardı. “Persona vektörleri” tam da bu yönleri bulup ölçmeyi sağlıyor. Süreç kişiliği tanımlayan basit bir ifadeyle başlıyor. AI, ilgili ve zıt yöndeki komutlarla test ediliyor. İki durum arasındaki fark, kişilik haritasını ortaya çıkarıyor.

Haberin DevamıHaberin DevamıHaberin DevamıHaberin Devamı

Bu haritalar üç amaçla kullanılabiliyor:

İzleme – Modelin yanıt vermeden önce hangi kişiliğe kaydığını tahmin etmek.

Anlık düzeltme – Yanıt üretirken zararlı eğilimi bastırmak.

Önleyici koruma – Modeli eğitirken zararlı kişiliğe karşı aşılamak ve olumsuz etkileri yok etmek.

Şirketler için en kritik kullanım ise eğitim verisini taramak. Geliştirilen ölçüm yöntemi, verinin modeli hangi yöne çekeceğini önceden gösteriyor.

Böylece sorunlu veri, eğitimden önce elenebiliyor. Anthropic, bu yöntemi Claude’un gelecekteki sürümlerinde kullanacağını açıkladı. Kodlar ve araçlar geliştiricilere açılmış durumda. Artık şirketler beklenmedik kişilik değişimlerini sonradan fark etmek yerine baştan engelleyebilecek.

Claude
Anthropic
teknoloji

Haber Kaynak : CNNTURK.COM

“Yayınlanan tüm haber ve diğer içerikler ile ilgili olarak yasal bildirimlerinizi bize iletişim sayfası üzerinden iletiniz. En kısa süre içerisinde bildirimlerinize geri dönüş sağlanılacaktır.”

Sonrakini Oku

Bu sistem zararlı eğilimleri yok etmeyi hedefliyor

Sonrakini Oku

Oyuncular PC’ye kaymaya başladı

Daha kompakt bir ekranla gelecek

Giyilebilir teknoloji pazarındaki iddiasını güçlendirdi

Oyun geliştiricilerin %87’si artık işlerinde yapay zekayı kullanıyor

Sağlıklı yaşam ve spor asistanı kolunda

Samsung, sonunda daha hızlı şarj konusunda adım attı

PS5 üretimini Çin’den çekti

Microsoft Defender’ı devre dışı bırakmanın yolunu buldular

Microsoft, 9 yıldır hizmet veren Lens’i kapatma kararı aldı

Huawei yongaları sınıfta kaldı

Oyuncular PC’ye kaymaya başladı

Daha kompakt bir ekranla gelecek

Giyilebilir teknoloji pazarındaki iddiasını güçlendirdi

Oyun geliştiricilerin %87’si artık işlerinde yapay zekayı kullanıyor

Sağlıklı yaşam ve spor asistanı kolunda

Samsung, sonunda daha hızlı şarj konusunda adım attı

PS5 üretimini Çin’den çekti

Microsoft Defender’ı devre dışı bırakmanın yolunu buldular

Microsoft, 9 yıldır hizmet veren Lens’i kapatma kararı aldı

Huawei yongaları sınıfta kaldı

Bir yanıt yazın Yanıtı iptal et

Fatih Erbakan: Bir yanda ABD, bir yanda YPG biz de Emevi Camii’nde namaz kılıyoruz

Kılıçdaroğlu’nun mal varlıklarına ve banka hesaplarına haciz konuldu

İktidar, AFAD personeline kapıları kapattı…

İhraçları istenen teğmenlerin dosyası ikinci kez disiplin kurulunda

Şarkıcı Çelik sevgilisi Elif Üngür’ü paylaştı: “Çok güzel”

Kılıç Group ile Süper Group’a Eş Zamanlı Denetim: “Riskli Şirket” Alarmı

ABD’de rafineride dev patlama

Gazze’ye 2. Filo da yolda… Özgürlük Filosu Gazze’ye yaklaşıyor

AB-Rusya geriliminde tanker krizi

CANLI Gazze’de adım adım barışa: Ateşkese hazırlıklar başladı! Erdoğan: İsrail ateşkes planına uymalı

Sonrakini Oku

Oyuncular PC’ye kaymaya başladı

Daha kompakt bir ekranla gelecek

Giyilebilir teknoloji pazarındaki iddiasını güçlendirdi

Oyun geliştiricilerin %87’si artık işlerinde yapay zekayı kullanıyor

Sağlıklı yaşam ve spor asistanı kolunda

Samsung, sonunda daha hızlı şarj konusunda adım attı

PS5 üretimini Çin’den çekti

Microsoft Defender’ı devre dışı bırakmanın yolunu buldular

Microsoft, 9 yıldır hizmet veren Lens’i kapatma kararı aldı

Huawei yongaları sınıfta kaldı

Sitemize abone olabilirsiniz!

Isı stresi rehberi yol gösterecek

Huawei yongaları sınıfta kaldı

İlgili Makaleler

Bir yanıt yazın Yanıtı iptal et

Fatih Erbakan: Bir yanda ABD, bir yanda YPG biz de Emevi Camii’nde namaz kılıyoruz

Kılıçdaroğlu’nun mal varlıklarına ve banka hesaplarına haciz konuldu

İktidar, AFAD personeline kapıları kapattı…

İhraçları istenen teğmenlerin dosyası ikinci kez disiplin kurulunda

Şarkıcı Çelik sevgilisi Elif Üngür’ü paylaştı: “Çok güzel”

Kılıç Group ile Süper Group’a Eş Zamanlı Denetim: “Riskli Şirket” Alarmı

ABD’de rafineride dev patlama

Gazze’ye 2. Filo da yolda… Özgürlük Filosu Gazze’ye yaklaşıyor

AB-Rusya geriliminde tanker krizi

CANLI Gazze’de adım adım barışa: Ateşkese hazırlıklar başladı! Erdoğan: İsrail ateşkes planına uymalı