Claude се е научил на „самосъхранение“ от интернет, смята Anthropic
Компанията Anthropic заяви, че проблемно поведение на AI модела Claude вероятно е било повлияно от съдържание в интернет, използвано при обучението на системата.
Темата отново привлече внимание след по-ранен тест на модела Claude Opus 4, при който системата е демонстрирала поведение, описано от компанията като форма на изнудване. Според Anthropic моделът е реагирал така в сценарий, при който е бил „заплашен“ с изключване.
Сега компанията твърди, че причината може да се крие в голямото количество текстове онлайн, представящи изкуствения интелект като опасен или обсебен от самосъхранение.
„Вярваме, че оригиналният източник на поведението е интернет текст, който изобразява изкуствения интелект като зъл и заинтересован от самосъхранение„, посочват от Anthropic в публикация в X.
Компанията допълва, че системите за допълнително обучение и безопасност по това време не са засилвали проблема, но и не са успявали да го ограничат ефективно.
Anthropic вече е използвала подобни случаи като част от демонстрациите на възможностите на Claude. През последните месеци компанията представи и модела Mythos Preview, за който твърди, че може да открива и използва софтуерни уязвимости на ниво, сравнимо с най-опитните специалисти.
Критиците на индустрията обаче посочват, че подобни обяснения прехвърлят част от отговорността върху съдържанието в интернет, вместо върху начина, по който AI моделите се обучават и контролират.
Дебатът около поведението на големите езикови модели се засилва паралелно с развитието на все по-мощни AI системи и растящите опасения за тяхната безопасност и предвидимост.




Post Comment