03 września 2009

Google Hacking na kofeinie…


Jakiś czas temu Google udostępnił do publicznych testów swój nowy silnik wyszukujący (nazwa kodowa: Caffeine). Pod adresem www2.sandbox.google.com każdy zainteresowany może sprawdzić, jak w najbliższej przyszłości będzie się zachowywała największa internetowa wyszukiwarka. Nowy engine ma być ponoć bardziej odporny na sztuczki specjalistów od SEO oraz zwracać wyniki bardziej wartościowe dla samych użytkowników. Po kilku przykładowych zapytaniach, już na pierwszy rzut oka można zauważyć, że zwracane wyniki różnią się od tych pochodzących z obecnie wykorzystywanego silnika.

Nie chciałbym się jednak rozwodzić nad teoretycznymi różnicami pomiędzy nowym i starym silnikiem. Chciałbym natomiast przyjrzeć się Kofeinie z punktu widzenia Google Hackingu. Google hacking to technika polegająca na stosowaniu specjalnie dobranych zapytań w wyszukiwarce Google, które pozwalają na odszukanie informacji interesujących z punktu widzenia bezpieczeństwa informatycznego. Wyszukiwarki internetowe mogą w pewnych sytuacjach indeksować przypadkowo udostępnione przez autorów serwisów listy użytkowników lub haseł, zbiory z numerami kart kredytowych, adresy domyślnych interfejsów konfiguracyjnych oraz inne interesujące informacje. Osoby zbierające informacje za pomocą techniki GH, stosują specjalnie spreparowane zapytania. Przeanalizujmy klika przykładów takich zapytań w nowej oraz obecnej wersji silnika stosowanego przez Google.

Pierwszym z przeanalizowanych przeze mnie zapytań była fraza: inurl:hp/device/this.LCDispatcher. Jest to zapytanie pozwalające na odnalezienie interfejsów webowych służących do zarządzania wieloma modelami drukarek firmy HP. Oba silniki zwróciły podobną liczbę wyników (nieco poniżej 3000), w obu przypadkach wyniki były również zgodne z oczekiwaniami. Otrzymujemy dostęp do szeregu stron zarządzania drukarkami HP. Uwagę zwracają jedynie znaczne rozbieżności w kolejności prezentowanych wyników. Kolejne zapytanie stanowiła fraza: lista płac filetype:xls | filetype:xlsx. To stosunkowo proste zapytanie wynajduje udostępnione w Internecie listy płac w formacie arkusza programu Excel (XLS oraz XLSX). Ponownie, w obu przypadkach otrzymujemy podobną liczbę wyników (około 300), uporządkowanych jednak w znacznie różniącej się kolejności. Ostatnim przetestowanym przeze mnie zapytaniem była fraza: "vnc desktop" inurl:5800. Jest to zapytanie pozwalające na odnalezienie stron umożliwiających zalogowanie się do zdalnego pulpitu komputerów udostępnionych poprzez usługę Java VNC Viewer. Tym razem również obyło się bez niespodzianek, otrzymałem podobną liczbę (około 120) wyników posortowanych przez oba silniki w różnej kolejności.

Wniosek z tego taki, że nowy silnik firmy Google rzeczywiście w odmienny sposób wartościuje poszczególne strony, stąd kolejność otrzymywanych wyników jest zupełnie inna. Jednak zakres wyników jest niemal identyczny, obecne różnice w ilości wyników wydają się raczej pomijalne. Dobra wiadomość dla osób zbierających informacje za pomocą techniki znanej jako Google Hacking jest taka, że nie straci ona raczej swego potencjału. W nowej wersji silnika, firma Google nie zrobiła absolutnie nic, by zapobiec tego rodzaju praktykom. Nic w tym jednak dziwnego, skoro osoby prywatne i instytucje nie robią nic by uchronić swe poufne dane przed wyciekiem do Internetu, nie liczmy na to, że Google wyręczy nas w zabezpieczaniu własnych informacji. Osobom zainteresowanym tematem GH, polecam Google Hacking Database (GHDB). Jest to ogromna baza zapytań, mogących służyć do zbierania informacji za pomocą najpopularniejszej wyszukiwarki…

Artykuł autorski HCSL - Wojciech Smol