A Google-lel a web 99 százalékán nem tudsz keresni

Egyéb
2014 október 08., 10:06
comments 45

Azt még egy kisgyerek is tudja, hogy a világon ma praktikusan egyetlen webkereső létezik. De azt nem minden kisgyerek tudja, hogy a Google a neten fellelhető információk legfeljebb 1 százalékát találja meg, sőt nem is olyan régen még 0,004 százalékról beszéltek.

Persze vannak trükkök, amikkel a Google-t is rá lehet bírni némi extramunkára: az amerikai titkosszolgálat, az NSA 643 oldalas kézikönyvben oktatja az ügynökeit arra, hogyan
keressenek legális eszközökkel orosz szájtokon jelszavakat tartalmazó Excel-fájlokat.

Egyébként nem nagy ügy, így:

filetype:xls site:ru login

Na de ez még mindig csak a felszín. Hogyhogy nem találja meg a maradék 99 százalékot a Google?

Úgy, hogy az információ túlnyomó része elavult, már nem használatos fájlformátumokban található meg a neten, vagy nincs hozzá olyan, az adatokat leíró metaadat, amit a hagyományos keresők fel tudnának dolgozni (az előbbi jelenségre külön szakkifejezés is született, digital obsolescence, digitális feledés - hiába van meg neked nagyflopin az örök élet titka, ha nincs hová dugnod, sose tudod meg).

Amerikában szerencsére létezik egy jó nevű intézet, a National Center for Supercomputing Applications (NCSA), ami az Illinois-i Egyetem kebelén belül működik, kormányzati támogatással. Az NCSA-nak pedig van egy elemző alosztálya, ami éppen olyan eszközöket fejleszt, amikkel a maradék 99 százaléknak legalább egy részét elő lehet bányászni.

És most előálltak a Brown Doggal, a Barna Kutyával.

Az elavult, értelmezhetetlen fájlformátumok lefordítására elkészítették a Data Access Proxyt (DAP), ami megvizsgálja, hogy az illető fájlt el tudja-e olvasni a felhasználó által használt eszköz. És ha nem, a háttérben munkába áll a DAP, ami proxyként lefordítja az adatokat úgy, hogy azokkal lehessen is valamit kezdeni.

Itt egy videó róla:

Az NCSA másik találmányát úgy hívják, hogy Data Tilling Service (DTS), és arra való, hogy nagy adathalmazokat, például különböző képeket elemezzen tartalmi szempontból, és metaadatokat kreáljon, amiknek alapján aztán a képek könnyen kereshetővé válnak. Képzeld el, hogy találsz valahol egy vagon pornóképet, és szeretnéd tudni, honnan vannak, kit ábrázolnak, mekkorák, hol készültek. A DTS rámegy, elemzi a képeket, megróbálja például felismerni az arcokat, és ha sikerül, a képekhez csatolja a metaadatokat.

Itt egy szemléltető videó (nem pornóval):

És persze ha a DTS olyan képformátumot talál, amit a felhasználó gépe nem tud feldolgozni, ott a DAP, és indul a fordítás.

Részletek az nsf.gov-on és az NCSA szájtján.

Kommentek

Közösségünk messze túlnyomó többségének jószándéka és minden moderációs igyekezetünk ellenére cikkeink alatt időről-időre a kollégáinkat durván sértő, bántó megjegyzések jelentek meg.
Hosszas mérlegelés és a lehetőségeink alapos vizsgálata után úgy döntöttünk, hogy a jövőben a közösségépítés más útjait támogatjuk, és a cikkek alatti kommentelés lehetőségét megszüntetjük. Közösség és Belső kör csomaggal rendelkező előfizetőinket továbbra is várjuk zárt Facebook csoportunkba, a Közértbe, ahol hozzászólhatnak a cikkeinkhez, és kérdezhetnek a szerzőinktől is.