23 czerwca 2010

Wycieki danych z ocenzurowanych zdjęć

Wszyscy pamiętamy za pewne niedawny wyciek ponad stu tysięcy adresów e-mailowych oraz identyfikatorów ICC-ID należących do użytkowników iPada z serwisu zarządzanego przez firmę AT&T. Jak się ostatecznie okazało, amerykańskie identyfikatory ICC-ID (ang. Integrated Circuit Card Identifier) mogą zostać w sposób jednoznaczny zamienione na unikalny numer IMSI (ang. International Mobile Subscriber Identity), który z kolei może nas doprowadzić do szczegółowych danych personalnych konkretnego abonenta. Dane początkowo uważane za mało istotne, okazały się więc bardzo znaczące. Co ciekawe, częściowo zasłonięte ilustracje przedstawiające problematyczne dane, pozwalają na odczytanie ich zawartości.

Spójrzmy na zdjęcie ilustrujące wyciek, przedstawiające niektóre z adresów e-mailowych wraz z odpowiadającymi im identyfikatorami ICC-ID, które to zostało pierwotnie opublikowane przez serwis Gawker.com:
Z punktu widzenia zagrożeń omówionych we wstępie, dobrze, że newralgiczne dane zostały zasłonięte. Czy jednak rzeczywiście nie możemy skutecznie odczytać poszczególnych znaków?

Jeśli przyjrzymy się rysunkowi dokładnie, to okazuje się, że poszczególne znaki nie są zazwyczaj całkowicie zasłonięte:
Można również zauważyć, że algorytm odpowiedzialny za antyaliasing spowodował powstanie różnokolorowych pikseli:
Okazuje się, że na tej podstawie (zdjęcie udostępnia nam dla porównania większość cyfr w pełnej postaci) każdą z cyfr można swobodnie zidentyfikować wyłącznie na podstawie np. dolnego rzędu pikseli:
W taki oto sposób, możliwe jest odczytanie praktycznie wszystkich zasłoniętych kodów ICC-ID zawartych na powyższym zdjęciu.

W podobny sposób można postąpić w przypadku adresów e-mailowych:
W tym przypadku sprawa nieco się jednak komplikuje, ze względu na znacznie większy zbiór możliwych znaków. W większości przypadków, biorąc pod uwagę również takie informacje jak długość ciągów oraz typowe informacje znajdujące się w adresie (mające najczęściej związek z imieniem i nazwiskiem), możliwe jest jednak odgadnięcie poszczególnych adresów.

Oczywiście mówimy o danych, które już wyciekły, w związku z tym analiza powyższego zdjęcia ma wyłącznie charakter przykładowy. Nie mniej jednak, jest to właśnie świetny przykład na to, że cenzurowanie zdjęć poprzez nadpisywanie poszczególnych fragmentów inną zawartością, może być w wielu przypadkach niebezpieczne i może pozwalać na późniejsze odczytanie pierwotnej zawartości.

Należy więc pamiętać, że do zidentyfikowania konkretnego zbioru danych może wystarczyć już jego niewielki fragment. Wobec tego niedokładne zasłonięcie jakiegoś obiektu na cyfrowej fotografii może pozostawiać zbiór pikseli wystarczający do dokonania skutecznej identyfikacji.

[źródło]