Опитвали ли сте се някога умишлено да забравите нещо, което вече сте научили? Подобна задача изглежда изключително трудна.

Както се оказва, за моделите на машинно обучение също е трудно да забравят информация. Какво се случва, например, когато тези алгоритми се обучават на базата на остарели, неправилни или лични данни?

Преобучаването на модела "от нулата" всеки път, когато възникне проблем с оригиналния набор от данни, е изключително непрактично. Това налага нов метод на работа, който някои експерти наричат "машинно отучване", пише електронното издание Venture Beat. 

На фона на увеличаващия се брой съдебни дела в тази област, необходимостта системите за машинно обучение ефективно да „забравят“ информация стават първостепенни за бизнеса.

Алгоритмите се оказаха невероятно полезни в много области, но невъзможността да се изтрие информация от техните бази данни, след като веднъж е въведена в тях, има значителни последици за поверителността, сигурността и етиката.

Какво става, когато AI моделите научат нещо, което не трябва да научават? 

Най-често, когато възникне проблем с определен набор от данни, той може да бъде модифициран или просто изтрит. Но в случаите, когато данните са били използвани за обучение на модел, нещата стават малко по-сложни.

Много е трудно да се разбере как точно конкретен набор от данни е повлиял на алгоритъма по време на обучението, а още по-трудно е да се отменят ефектите от потенциална проблемна информация.

OpenAI - създателите на ChatGPT, многократно са били критикувани по отношение на данните, използвани за обучение на техните модели. Редица инструменти за генеративен изкуствен интелект също са изправени пред съдебни битки заради използваните от тях данни за обучение.

Бяха повдигнати и опасения за поверителността, след като стана ясно, че моделите могат потенциално да разкрият информация за лицата, чиито данни са използвани за обучението им.

Въпреки че машинното отучване може да не предпази компаниите от съда, то със сигурност би им помогнало да докажат, че проблемните данни са били премахнати изцяло от системата. 

С настоящата технология, ако потребител поиска изтриване на данни, целият модел ще трябва да бъде преквалифициран, което е изключително непрактично.

Нуждата от ефективен начин за обработка на заявките за премахване на данни е наложителна за развитието на широкодостъпни AI инструменти, смятат експертите. 

Най-простото решение за създаване на "забравящ" модел е да се идентифицират проблемните набори от данни, да се изключат и алгоритъмът да се обучи отново от самото начало. Въпреки че този метод в момента е най-простият и най-ефективният, той е непосилно скъп и отнема много време.

Последните оценки показват, че обучението на един алгоритъм за изкуствен интелект в момента струва около 4 млн. долара. Поради увеличаването на размера на набора от данни, а също и на необходимата изчислителна мощност, тази сума се очаква да нарасне до колосалните 500 млн. долара до 2030 г.

Подходът за преквалификация с „груба сила“ може да е подходящ като последна мярка при екстремни обстоятелства, но далеч не е идеалното решение.

Има ли алтернативен подход? 

Машинното отучване е сериозно предизвикателство, тъй като трябва да постигне забравяне на "лошите" данни, като същевременно запази полезността на модела и то с висока ефективност.

Няма смисъл да се разработва алгоритъм за отучване на машините, който използва повече енергия, отколкото тяхната пълна преквалификация.

Първите опити в тази посока се правят още през 2015 г., след което различни проучвания предлагат все по-ефективни методи за машинно отучване. Но въпреки значителния напредък, цялостно решение все още не е намерено.

Понастоящем методологията, използвана за оценка на ефективността на алгоритмите за машинно отучаване, варира между отделните изследвания. За да се правят по-добри сравнения, трябва да се идентифицират стандартни показатели. 

Освен това, след като алгоритъмът за машинно обучение е инструктиран да забрави определен набор от данни, как можем да сме сигурни, че той наистина ги е забравил? За да се отговори на този въпрос са необходими солидни механизми за валидиране.

Машинното отучване трябва да гарантира, че няма да компрометира по невнимание чувствителни данни в усилията си да ги забрави и трябва да се внимава да не се оставят следи от тези данни в процеса на "забравяне". 

Другият проблем е, че алгоритмите за отучване на машини в идеалния случай трябва да са съвместими със съществуващите модели за машинно обучение. Това означава, че те трябва да бъдат проектирани така, че да могат лесно да бъдат внедрени в различни системи.

И, тъй като наборите от данни стават все по-големи и моделите по-сложни, е важно алгоритмите да могат да обработват големи количества данни. 

Google наскоро обяви първото предизвикателство за отучаване на машини. То има за цел да отговори на очертаните дотук проблеми. Компанията се надява да обедини и стандартизира показателите за оценка на алгоритмите за отучване, както и да насърчи нови решения на проблема.

Състезанието, което разглежда инструмент за предсказване на възрастта, който трябва да "забрави" определени данни за обучение, за да защити поверителността на определени лица, започна през юли тази година и ще продължи до средата на септември. 

Междувременно, непрекъснатото натрупване на съдебни дела срещу AI компаниите несъмнено стимулира напредъка в тази сфера, пише още изданието. 

Машинното отучване със сигурност ще привлече вниманието на законодателите и регулаторите, което потенциално ще доведе до нови политики и разпоредби.

И тъй като въпросите за поверителността на данните продължават да са в центъра на вниманието, повишената обществена осведоменост може също да повлияе на развитието и прилагането на  подобни механизми.