Миналата седмица новоизбраният представител на САЩ Александрия Окасио-Кортес направи заглавия, когато каза, като част от четвъртото годишно събитие MLK Now, че технологиите и алгоритмите за разпознаване на лица "винаги имат тези расови неравенства, които се превеждат, защото алгоритмите все още се правят от човешки същества и тези алгоритми все още са привързани към основните човешки предположения. Те са просто автоматизирани. И автоматизирани предположения - ако не коригирате пристрастията, вие просто автоматизирате пристрастията. "
Това означава ли, че алгоритмите, които теоретично се основават на обективните истини на математиката, могат да бъдат "расистки?" И ако е така, какво може да се направи, за да се премахнат тези пристрастия?
Оказва се, че изходът от алгоритмите наистина може да доведе до пристрастни резултати. Учените за данни казват, че компютърните програми, невронните мрежи, алгоритмите за машинно обучение и изкуствения интелект (AI) работят, защото се научават как да се държат от данните, които им се дават. Софтуерът е написан от хора, които имат пристрастия, а данните за обучение се генерират и от хора, които имат пристрастия.
Двата етапа на машинно обучение показват как това пристрастие може да пропълзи в привидно автоматизиран процес. На първия етап, етап на обучение, алгоритъм се учи въз основа на набор от данни или на определени правила или ограничения. Вторият етап е изводният етап, при който алгоритъм прилага наученото на практика. Този втори етап разкрива пристрастията на алгоритъма. Например, ако алгоритъмът е обучен със снимки само на жени, които имат дълга коса, тогава ще мисли, че всеки с къса коса е мъж.
Google позорно попадна под обстрел през 2015 г., когато Google Photos определи етикета на чернокожите като горили, вероятно защото това бяха единствените тъмнокожи същества в тренировъчния комплект.
И пристрастията могат да се промъкнат през много пътища. "Често срещана грешка е да се тренира алгоритъм, за да се правят прогнози въз основа на минали решения от предубедени хора", заяви пред Live Science Софи Сиърси, старши учен в данните в bootcamp в Metis bootcamp. "Ако направя алгоритъм за автоматизиране на решения, взети по-рано от група кредитни служители, бих могъл да направя лесния път и да обуча алгоритъма за минали решения от тези кредитни служители. Но тогава, разбира се, ако тези кредитни служители бяха предубедени, тогава алгоритъмът, който изграждам, ще продължи тези пристрастия. "
Searcy цитира примера на COMPAS, инструмент за предсказване, използван в цялата система за наказателно правосъдие в САЩ, който се опитва да предвиди къде ще се случи престъпността. ProPublica извърши анализ на COMPAS и установи, че след като контролира за други статистически обяснения, инструментът надцени риска от рецидивизъм на чернокожи обвиняеми и постоянно подценява риска за белите обвиняеми.
За да помогнат в борбата с алгоритмичните пристрастия, Searcy каза на Live Science, инженерите и учените по данни трябва да създават по-разнообразни набори от данни за нови проблеми, както и да се опитват да разберат и смекчат пристрастията, вградени в съществуващите масиви от данни.
На първо място, каза Ира Коен, специалист по данни на аналитичната компания Anodot, инженерите трябва да разполагат с обучителен набор с относително еднакво представяне на всички видове популация, ако тренират алгоритъм за идентифициране на етнически или полови признаци. "Важно е да се представят достатъчно примери от всяка група от населението, дори ако те са малцинство в общото население, което се изследва", каза Коен пред Live Science. И накрая, Коен препоръчва да се провери дали има пристрастия към тестов набор, който включва хора от всички тези групи. "Ако за определено състезание точността е статистически значително по-ниска от останалите категории, алгоритъмът може да има отклонение и бих оценил данните за тренировките, които са били използвани за него", каза Коен пред LiveScience. Например, ако алгоритъмът може да идентифицира правилно 900 от 1000 бели лица, но правилно разпознава само 600 от 1000 азиатски лица, тогава алгоритъмът може да има пристрастие "срещу" азиатци, добави Коен.
Премахването на пристрастия може да бъде невероятно предизвикателно за AI.
Дори Google, считан за предшественик на комерсиалния AI, очевидно не можеше да измисли цялостно решение на проблема си с горилата от 2015 г. Wired откри, че вместо да намери начин алгоритмите му да разграничават хората от цвят и горили, Google просто блокира неговите алгоритми за разпознаване на изображения от изобщо идентифициране на горили.
Примерът на Google е добро напомняне, че обучението на AI софтуер може да бъде трудно упражнение, особено когато софтуерът не се тества или обучава от представителна и разнообразна група хора.