A Google-lel a web 99 százalékán nem tudsz keresni

anarki

Egyéb 2014. október 8. 12:06

Azt még egy kisgyerek is tudja, hogy a világon ma praktikusan egyetlen webkereső létezik. De azt nem minden kisgyerek tudja, hogy a Google a neten fellelhető információk legfeljebb 1 százalékát találja meg, sőt nem is olyan régen még 0,004 százalékról beszéltek.

Persze vannak trükkök, amikkel a Google-t is rá lehet bírni némi extramunkára: az amerikai titkosszolgálat, az NSA 643 oldalas kézikönyvben oktatja az ügynökeit arra, hogyan
keressenek legális eszközökkel orosz szájtokon jelszavakat tartalmazó Excel-fájlokat.

Egyébként nem nagy ügy, így:

filetype:xls site:ru login

Na de ez még mindig csak a felszín. Hogyhogy nem találja meg a maradék 99 százalékot a Google?

Úgy, hogy az információ túlnyomó része elavult, már nem használatos fájlformátumokban található meg a neten, vagy nincs hozzá olyan, az adatokat leíró metaadat, amit a hagyományos keresők fel tudnának dolgozni (az előbbi jelenségre külön szakkifejezés is született, digital obsolescence, digitális feledés - hiába van meg neked nagyflopin az örök élet titka, ha nincs hová dugnod, sose tudod meg).

Amerikában szerencsére létezik egy jó nevű intézet, a National Center for Supercomputing Applications (NCSA), ami az Illinois-i Egyetem kebelén belül működik, kormányzati támogatással. Az NCSA-nak pedig van egy elemző alosztálya, ami éppen olyan eszközöket fejleszt, amikkel a maradék 99 százaléknak legalább egy részét elő lehet bányászni.

És most előálltak a Brown Doggal, a Barna Kutyával.

Az elavult, értelmezhetetlen fájlformátumok lefordítására elkészítették a Data Access Proxyt (DAP), ami megvizsgálja, hogy az illető fájlt el tudja-e olvasni a felhasználó által használt eszköz. És ha nem, a háttérben munkába áll a DAP, ami proxyként lefordítja az adatokat úgy, hogy azokkal lehessen is valamit kezdeni.

Itt egy videó róla:

Az NCSA másik találmányát úgy hívják, hogy Data Tilling Service (DTS), és arra való, hogy nagy adathalmazokat, például különböző képeket elemezzen tartalmi szempontból, és metaadatokat kreáljon, amiknek alapján aztán a képek könnyen kereshetővé válnak. Képzeld el, hogy találsz valahol egy vagon pornóképet, és szeretnéd tudni, honnan vannak, kit ábrázolnak, mekkorák, hol készültek. A DTS rámegy, elemzi a képeket, megróbálja például felismerni az arcokat, és ha sikerül, a képekhez csatolja a metaadatokat.

Itt egy szemléltető videó (nem pornóval):

És persze ha a DTS olyan képformátumot talál, amit a felhasználó gépe nem tud feldolgozni, ott a DAP, és indul a fordítás.

Részletek az nsf.gov-on és az NCSA szájtján.

Egyéb