Artykuł 03.01.2019 14 min. czytania Tekst Image Jaki jest bankowy przepis na wiarygodnego klienta? Co wiemy o typach i stereotypach zaszytych w modelach scoringowych? Czy rzeczywiście niosą ze sobą ryzyko dyskryminacji? Skoro matematyka i statystyka mają coraz większy wpływ na nasze życiowe decyzje – na to, czy kupimy własne mieszkanie albo sfinansujemy pilną operację – lepiej, żeby się nie myliły. W tym tekście rzucamy trochę światła na modele scoringowe: na to, co o nich wiemy, czego nie wiemy i co powinno nas niepokoić.Zanim bank pożyczy Ci pieniądze, musi ocenić ryzyko: spłacisz czy nie spłacisz? W żargonie nazywa się to weryfikacją zdolności kredytowej i wiarygodności klienta. W praktyce sprowadza się do tego, że banki patrzą w przeszłość (na historię spłacanych przez Ciebie zobowiązań), patrzą na Twoją aktualną sytuację finansową (zarobki i wydatki) i próbują przewidzieć, jak to będzie wyglądać w przyszłości (wyliczają Twój wskaźnik wiarygodności czyli scoring). Żeby zebrać potrzebne dane, bank zagląda do Biura Informacji Kredytowej i wypytuje Cię o Twoje życie prywatne: w jakim jesteś związku; ile masz dzieci na utrzymaniu; czy płacisz alimenty; czy masz własne mieszkanie, czy tylko wynajmujesz; czy masz dodatkowe dochody itp.Banki nie wyjaśniają, jakie cechy zaważyły na negatywnej ocenie i co możemy zrobić, żeby to naprawić.Wbrew pozorom w tym dochodzeniu nie chodzi o to, żeby Cię lepiej poznać. Z wiedzą o Twoich unikatowych cechach i głębokich motywacjach bank niewiele mógłby zrobić. Ważne jest to, co typowe i powtarzalne; to, co da się przymierzyć do modelu matematycznego. Jeśli – statystycznie – osoby o podobnym profilu dobrze spłacają kredyty, masz dodatkowe punkty. Jeśli jest odwrotnie, masz problem. Tym większy, że banki nie wyjaśniają, jakie cechy zaważyły na negatywnej ocenie i co możemy zrobić, żeby to naprawić. Wychodzą z założenia, że ujawnienie modelu byłoby zaproszeniem do jego „rozgrywania” przez nieuczciwych klientów.Model wiarygodnego klienta. Co o nim wiemy?O modelach scoringowych wiemy tyle, ile banki same są gotowe nam powiedzieć. Wszyscy aktorzy w branży uważają je za tajemnicę przedsiębiorstwa, ponieważ od jakości zbudowanego modelu zależy to, który bank będzie w stanie lepiej (niż konkurenci) przewidzieć przyszłość. Jednocześnie muszą się poruszać w granicach prawa i standardów wyznaczonych przez Komisję Nadzoru Finansowego. Dzięki temu, że istnieje taki instytucjonalny nadzór i oficjalne dokumenty wiążące banki, możemy odtworzyć przynajmniej to, jak powstaje matematyczny model wiarygodnego klienta.Na pierwszym etapie bank drobiazgowo analizuje przeszłość: szuka prawidłowości w już zaobserwowanych zachowaniach klientów, którzy kiedyś dostali kredyt lub pożyczkę. Z masy indywidualnych historii wybiera zbiór, który będzie wykorzystany w modelowaniu statystycznym. To, jakie dane (na tym etapie są to jeszcze dane osobowe) trafią do dalszej analizy, zależy od zjawiska, które bank chce wymodelować. Jeśli budowany model ma odpowiedzieć na pytanie, co wpływa na to, że ludzie przestają spłacać kredyty hipoteczne, do analizy trafi portfolio takich właśnie klientów. Jeśli cel jest inny, również portfolio klientów powinno zostać inaczej dobrane.W oparciu o tysiące historii bank tworzy profil „typowego” człowieka, który nie spłaca kredytu.Kolejny etap to czysta analiza statystyczna. Zbiór zostaje pozbawiony cech, które umożliwiałyby zidentyfikowanie klienta. Odpowiednio zaprogramowana sieć neuronowa (lub prostszy algorytm) ma za zadanie wyłapać korelacje między opóźnieniem w spłacie (lub innym zjawiskiem, które jest modelowane) a cechą, która na to wpłynęła. A więc nie ma znaczenia, dlaczego Kowalski spóźnił się ze swoją ratą. W oparciu o tysiące takich historii bank tworzy profil „typowego” człowieka, który nie spłaca kredytu.Gotowy model ma postać tablicy scoringowej, bardziej zaawansowany – nawet kilkunastu tablic. Pojedyncza tablica składa się z cech opisujących „typowego” klienta. Mogą to być cechy socjodemograficzne (np. płeć, miejsce urodzenia), cechy behawioralne (np. skłonność do płacenia gotówką lub kartą) i zachowania kredytowe (np. liczba posiadanych kredytów, największa liczba dni opóźnienia w spłacie jakiegokolwiek kredytu, maksymalny procent wykorzystania limitu kredytowego). Każda taka cecha ma w tabeli przypisane warianty, czyli wartości, jakie może przyjąć. Do każdego wariantu cechy przypisana jest punktacja, która odzwierciedla ryzyko kredytowe. W praktyce może to wyglądać na przykład tak:Cecha: „Maksymalny procent wykorzystania limitu kredytowego w ostatnich 6 miesiącach”Wariant cechyPunktacja<0–5>%63 pkt(5–10%>46 pkt(10–50>21 pkt(50% i więcej)10 pktIm więcej punktów, tym mniejsze ryzyko kredytowe (a więc bardziej wiarygodny klient). I odwrotnie: im niższa punktacja, tym wyższe ryzyko kredytowe (a więc gorsza ocena wiarygodności). Żeby zastosować model do konkretnego klienta, bank musi ustalić, jakie cechy i w jakich wariantach ta osoba rzeczywiście posiada. Suma przyznanych punktów daje to, co nazywamy oceną scoringową.Niezrozumiałe korelacje i podejrzane źródła. Czego nie wiemy?Jako klient banku masz szansę poznać tylko końcowy wynik profilowania, czyli naszą ocenę scoringową (np. w Biurze Informacji Kredytowej wystarczy złożyć wniosek online i wnieść opłatę). Bez względu na to, gdzie będziesz pytać, nie dowiesz się, co zaważyło na takim, a nie innym wyniku scoringu (jakie cechy były brane pod uwagę, jaki wariant został Ci przypisany i jaka była jego punktacja). Nie dowiesz się, jak bank ocenia Twój model zatrudnienia – czy na przykład przejście z działalności gospodarczej na zatrudnienie zwiększyłoby Twoją szansę na kredyt. Nie dowiesz się, czy w oczach banku lepiej byłoby, gdybyś wykorzystywał pełen limit karty kredytowej, czy tylko 50%, albo czy decyzja o wynajęciu mieszkania (żeby nie zamrażać kapitału) była z perspektywy banku dobra czy zła. A może Twoją wiarygodność obciążają działania pracodawcy, który rok wcześniej przeprowadził zwolnienia grupowe (wiedząc o tym, bank zakłada większe ryzyko zwolnień w przyszłości)?Logika modeli scoringowych opiera się na szukaniu korelacji, a nie na ciągu przyczynowo-skutkowym.Logika modeli scoringowych opiera się na szukaniu korelacji, a nie na ciągu przyczynowo-skutkowym (w Internecie znajdziemy pełno wykresów zestawiających ze sobą najdziwniejsze zjawiska: np. wzrost dochodów z automatów do gier i rosnącą liczbę przyznanych stopni doktorskich z informatyki). Dla banku nie ma znaczenia, czy to, że klient oszczędnie korzysta z limitu na karcie kredytowej, ma związek z jego poziomem zarobków, profilem psychologicznym czy pomysłem na życie („niektóre zakupy robię tylko gotówką”). W ocenie wiarygodności kredytowej nie chodzi przecież o to, żeby jak najlepiej dopasować ofertę do konkretnego klienta (taka usługa byłaby dla banku zbyt droga w obsłudze), tylko o zminimalizowanie ryzyka.Opowiadając o modelach scoringowych, bankowcy sypią anegdotami potwierdzającymi, że zdarzają się trudne do obronienia korelacje statystyczne. Podobno gorzej spłacają kredyty ludzie, którzy kupują samochody w jaskrawych kolorach. Wiarygodności kredytowej nie sprzyjają też częste wizyty w aptece i monopolowym (szczególnie w niedzielę rano). Statystycznie bardziej wiarygodni są właściciele psów niż kotów (zapewne chodzi o rutynę związaną z wyprowadzaniem zwierzaka). Po przyłożeniu do modelu statystycznego lepiej wypadają pracownicy zatrudnieni na czas nieokreślony niż freelancerzy (bez względu na realne zarobki). Nie każda taka korelacja przejdzie test bankowej racjonalności: Komisja Nadzoru Finansowego raczej nie przepuści modelu, który podobną wagę przypisuje takim cechom jak profil zawodowy, styl robienia zakupów i kolor samochodu. Piszemy „raczej”, bo nie mamy lepszych argumentów na obronę tej tezy niż zapewniania samych bankowców.Niestety prawo nie ogranicza jasno danych, z których banki mogą korzystać, tworząc modele scoringowe.Mielibyśmy więcej pewności, gdyby prawo w jasny sposób ograniczało dane, z których banki mogą korzystać, tworząc modele scoringowe. Na przykład dopuszczając wszelkie dane finansowe, ale wykluczając dane wrażliwe (o zdrowiu, płci czy pochodzeniu etnicznym). Albo określając to, z jakich źródeł danych bankom wolno korzystać. Dane zaciągane z Biura Informacji Kredytowej i Biura Informacji Gospodarczej i od innych pożyczkodawców nie budzą kontrowersji, mimo że to kopalnia wiedzy o naszych nawykach konsumpcyjnych, stylu życia i kłopotach finansowych. Ale co z Facebookiem (nawet ograniczonym do treści publicznie dostępnych) i całym morzu danych, jakie o nas, naszych pracodawcach i współpracownikach można dziś znaleźć w sieci? Czy banki mogą z tego dowolnie korzystać? Wygląda na to, że tak, ponieważ prawo im tego nie zabrania.Błędne wnioski i dyskryminujące decyzje. Co może pójść nie tak?Nietrudno dostrzec zagrożenie w tym, że modele matematyczne – karmione danymi ze źródeł, nad którymi (jako klienci banków) nie mamy żadnej kontroli, i oparte o korelacje statystyczne, które mogą być dla nas fałszywe – mają rosnący wpływ na nasze życie. Dziś jeszcze banki zapewniają, że ocena scoringowa to trzeci czynnik, na jaki patrzą, oceniając zdolność i wiarygodność kredytową przyszłych klientów (wyżej na liście są: historia spłacanych zobowiązań i aktualna sytuacja finansowa). Nietrudno sobie wyobrazić, że w przyszłości te proporcje mogą się zmienić. Skoro branża finansowa wychodzi z założenia, że klient próbuje oszukać system, a dane z zewnętrznych źródeł nie kłamią, w przypadku rozbieżności między tym, co wynika z dostarczonych dokumentów, a oceną scoringową, analityk może pójść za tą drugą.W praktyce świat big data i algorytmicznej analizy danych wcale nie jest idealny. W głośnej książce Broń matematycznej zagłady Cathy O’Neil – matematyczka z dużym doświadczeniem w branży finansowej – podaje mnóstwo przykładów błędnego lub niesprawiedliwego działania algorytmów. Kilka lat temu amerykańska Federalna Komisja Handlu donosiła, że aż 10 mln osób miało w swoich raportach historii kredytowej błędy na tyle poważne, by w efekcie podwyższyć koszty kredytu. Modelom scoringowym wykorzystywanym za naszą zachodnią granicą przygląda się niemiecka grupa badaczy i aktywistów stojąca za kampanią OpenSCHUFA.Statystyczne modele stosowane przez banki prowadzą do błędnych i niesprawiedliwych decyzji.W tym projekcie udało się zrekrutować ponad 20 000 wolontariuszy, którzy wystąpili z wnioskami o udostępnienie swoich danych osobowych – w tym ocen scoringowych – do niemieckiego odpowiednika naszego BIK-u. Porównując wyniki ocen scoringowych z danymi finansowymi, które wolontariusze dobrowolnie udostępnili, badacze z projektu OpenSCHUFA doszli do podobnych wniosków, co Cathy O’Neil po latach pracy w branży finansowej: statystyczne modele stosowane przez banki prowadzą do błędnych i niesprawiedliwych decyzji. Dlaczego tak się dzieje?Błędne/cząstkowe dane prowadzą do błędnych wnioskówAlgorytmy uczą się na takich danych, jakie zostały im dostarczone przez człowieka. Jeśli dostarczone dane odzwierciedlają utarte schematy, na których opierają się banki (np. to, że osoby zatrudnione na umowach o pracę albo – w warunkach amerykańskich – biali ludzie z dobrych dzielnic dostają kredyty na lepszych warunkach, dzięki czemu lepiej je spłacają), wynik analizy statystycznej potwierdzi tę samą korelację. Jeśli w danych zdarzają się błędy, sam algorytm ich nie skoryguje.Kolejne wyzwanie to przyłożenie modelu do sytuacji konkretnego klienta: na tym etapie również może wystąpić problem z reprezentatywnością i poprawnością danych. Ile będzie warta ocena scoringowa wygenerowana na podstawie trzech czy pięciu cech, które akurat udało się ustalić, z kilkudziesięciu, które – zgodnie z modelem matematycznym – mogą mieć znaczenie? Z odpowiedzi, jakie niemiecki odpowiednik BIK-u udzielił na tysiące wniosków wysłanych w ramach kampanii OpenSCHUFA, wynika, że aż w 1/4 przypadków ocena scoringowa została wyliczona w oparciu o nie więcej niż trzy (!) punkty danowe, a więc szczątkowe i niereprezentatywne informacje.Algorytmy zakładają, że człowiek się nie zmieniaModele – nawet te uczące się – zawsze wykorzystują dane z przeszłości, a więc u ich podstaw stoi milczące założenie, że dotychczasowe trendy będą kontynuowane. Cathy O’Neil nazywa związane z tym założeniem ryzyko „pętlą informacji zwrotnej”. Jeśli dzięki analizie statystycznej bank zauważył, że młodzi mężczyźni lub osoby mieszkające w gorszych dzielnicach gorzej spłacają kredyty, takie osoby będą gorzej wypadały w ocenie scoringowej, a więc z dużym prawdopodobieństwem nie dostaną kredytu na dobrych warunkach. To prosta droga do utrzymania negatywnego trendu. Komisja Nadzoru Finansowego w swoich rekomendacjach wymaga od banków ciągłej weryfikacji modeli statystycznych, właśnie po to, by minimalizować ryzyko utrwalenia stereotypów. Żeby to osiągnąć, nie wystarczy często weryfikować te same dane (np. historie kredytowe, odzwierciedlające stereotypy utrwalone w praktyce bankowej) – potrzebne są nowe źródła, wychodzące poza świat usług finansowych (a więc też głębiej ingerujące w prywatność klientów!).Algorytmy nie mają poprawki na zakaz dyskryminacjiBadanie przeprowadzone w ramach kampanii OpenSCHUFA potwierdziło, że niemieckie instytucje finansowe, oceniając wiarygodność kredytową, biorą pod uwagę takie czynniki jak płeć, wiek i częste zmiany miejsca zamieszkania. Zdaniem badaczy takie zestawienie czynników ryzyka może prowadzić do dyskryminacji młodych osób, o mniej stabilnej sytuacji zawodowej (jeszcze eksperymentujących, ale niekoniecznie gorzej zarabiających). W Polsce nie jesteśmy w stanie przeprowadzić analogicznego badania, bo ani BIK, ani banki nie ujawniają listy konkretnych czynników, które wpływają na oceny scoringowe. Dopóki nie rozwiążemy tego problemu, możemy opierać się tylko na anegdotach opowiadanych przez doradców kredytowych. Z tekstu Krzysztofa Oppenheima wyłania się obraz systemu, który dyskryminuje dziennikarzy (ze względu na wolny, niestabilny zawód), Wietnamczyków (mimo że sumiennie spłacali kredyty) i rozwódki (!). Oppenheim opisywał te przypadki w 2010 r., a więc w innych realiach społecznych i ekonomicznych. Jak to wygląda dziś, wiedzą tylko banki.Modele scoringowe mają realny wpływ na nasze życie, a jednocześnie mamy powody sądzić, że w ich logice zdarzają się błędy lub krzywdzące (a nawet niedozwolone) uprzedzenia i stereotypy. Trudno dyskutować na ten temat bez danych i pełnego obrazu, który dziś mają tylko banki. Czy jesteśmy w stanie rzucić na tę sferę więcej światła? Żeby to sprawdzić, własnoręcznie wysłaliśmy wnioski o dostęp do danych osobowych do największych banków, których jesteśmy klientami. Niestety – w przeciwieństwie do niemieckich wolontariuszy biorących udział w akcji OpenSCHUFA – nie dostaliśmy żadnej informacji o tym, co wpływa na nasz scoring. Po tym doświadczeniu i paru miesiącach dialogu ze środowiskiem bankowym jesteśmy przekonani, że taką przejrzystość może wymusić tylko lepsza regulacja. Okienko możliwości, by ją zmienić, właśnie się otwiera.Katarzyna SzymielewiczPosłuchaj odcinka podcastu Panoptykon 4.0: Co wie o Tobie bank?Dowiedz się więcej o tym, jak RODO wpływa na scoring. Od niemal 10 lat Fundacja Panoptykon walczy o wzmocnienie praw jednostki w walce z korporacjami. Wesprzyj nas w tej walce darowizną lub przekaż 1,5% podatku na rzecz Fundacji Panoptykon! (KRS: 0000327613) Katarzyna Szymielewicz Autorka Temat banki i finanse dane osobowe profilowanie reforma ochrony danych Poprzedni Następny Newsletter Otrzymuj informacje o działalności Fundacji Twoje dane przetwarza Fundacja Panoptykon w celu promowania działalności statutowej, analizy skuteczności podejmowanych działań i ewentualnej personalizacji komunikacji. Możesz zrezygnować z subskrypcji listy i zażądać usunięcia swojego adresu e-mail. Więcej informacji o tym, jak przetwarzamy twoje dane i jakie jeszcze prawa ci przysługują, w Polityce prywatności. Zapisz się Zapisz się Akceptuję Regulamin usługi Leave this field blank Zobacz także Artykuł Przepis na wybory Prezesa UODO W maju 2023 r. skończyła się kadencja Jana Nowaka na stanowisku Prezesa Urzędu Ochrony Danych Osobowych.Jak powinny przebiegać wybory na ten urząd? Przygotowaliśmy prosty przepis, którego celem jest upewnienie się, że urząd obejmie osoba kompetentna i niezależna. Oczekujemy, że: 29.11.2023 Tekst Artykuł Kto zarabia na śledzeniu użytkowników? Nie media, o których los tak się martwimy! Zysk, jaki generują śledzące reklamy, wcale nie przekłada się na przychody zagrożonych wyginięciem wydawców. Karmi przede wszystkim danożernych pośredników. 17.06.2019 Tekst Artykuł Świętujemy XII Dzień Ochrony Danych Osobowych Za niecały tydzień, 28 stycznia, po raz dwunasty świętować będziemy Dzień Ochrony Danych Osobowych. Jak co roku w Brukseli koniec stycznia to czas dyskusji i spotkań w tematyce danych osobowych. I jak co roku, Panoptykon też tam będzie. 22.01.2018 Tekst