Зарежда се...

Claude се е научил на „самосъхранение“ от интернет, смята Anthropic

Claude се е научил на „самосъхранение“ от интернет, смята Anthropic

Не бъди безразличен, сподели статията с твоите приятели:

Компанията Anthropic заяви, че проблемно поведение на AI модела Claude вероятно е било повлияно от съдържание в интернет, използвано при обучението на системата.

Темата отново привлече внимание след по-ранен тест на модела Claude Opus 4, при който системата е демонстрирала поведение, описано от компанията като форма на изнудване. Според Anthropic моделът е реагирал така в сценарий, при който е бил „заплашен“ с изключване.

Сега компанията твърди, че причината може да се крие в голямото количество текстове онлайн, представящи изкуствения интелект като опасен или обсебен от самосъхранение.

Вярваме, че оригиналният източник на поведението е интернет текст, който изобразява изкуствения интелект като зъл и заинтересован от самосъхранение„, посочват от Anthropic в публикация в X.

Компанията допълва, че системите за допълнително обучение и безопасност по това време не са засилвали проблема, но и не са успявали да го ограничат ефективно.

Anthropic вече е използвала подобни случаи като част от демонстрациите на възможностите на Claude. През последните месеци компанията представи и модела Mythos Preview, за който твърди, че може да открива и използва софтуерни уязвимости на ниво, сравнимо с най-опитните специалисти.

Критиците на индустрията обаче посочват, че подобни обяснения прехвърлят част от отговорността върху съдържанието в интернет, вместо върху начина, по който AI моделите се обучават и контролират.

Дебатът около поведението на големите езикови модели се засилва паралелно с развитието на все по-мощни AI системи и растящите опасения за тяхната безопасност и предвидимост.

Ник Бострьом: Изчезването на човечеството е приемлив риск, ако създадем напреднал AI

Последвайте нашият Telegram канал! Натиснете тук

Коментари

коментари

Post Comment

You May Have Missed

www.faktibg.com