Azt még egy kisgyerek is tudja, hogy a világon ma praktikusan egyetlen webkereső létezik. De azt nem minden kisgyerek tudja, hogy a Google a neten fellelhető információk legfeljebb 1 százalékát találja meg, sőt nem is olyan régen még 0,004 százalékról beszéltek.
Persze vannak trükkök, amikkel a Google-t is rá lehet bírni némi extramunkára: az amerikai titkosszolgálat, az NSA 643 oldalas kézikönyvben oktatja az ügynökeit arra, hogyan
keressenek legális eszközökkel orosz szájtokon jelszavakat tartalmazó Excel-fájlokat.
Egyébként nem nagy ügy, így:
filetype:xls site:ru login
Na de ez még mindig csak a felszín. Hogyhogy nem találja meg a maradék 99 százalékot a Google?
Úgy, hogy az információ túlnyomó része elavult, már nem használatos fájlformátumokban található meg a neten, vagy nincs hozzá olyan, az adatokat leíró metaadat, amit a hagyományos keresők fel tudnának dolgozni (az előbbi jelenségre külön szakkifejezés is született, digital obsolescence, digitális feledés - hiába van meg neked nagyflopin az örök élet titka, ha nincs hová dugnod, sose tudod meg).
Amerikában szerencsére létezik egy jó nevű intézet, a National Center for Supercomputing Applications (NCSA), ami az Illinois-i Egyetem kebelén belül működik, kormányzati támogatással. Az NCSA-nak pedig van egy elemző alosztálya, ami éppen olyan eszközöket fejleszt, amikkel a maradék 99 százaléknak legalább egy részét elő lehet bányászni.
És most előálltak a Brown Doggal, a Barna Kutyával.
Az elavult, értelmezhetetlen fájlformátumok lefordítására elkészítették a Data Access Proxyt (DAP), ami megvizsgálja, hogy az illető fájlt el tudja-e olvasni a felhasználó által használt eszköz. És ha nem, a háttérben munkába áll a DAP, ami proxyként lefordítja az adatokat úgy, hogy azokkal lehessen is valamit kezdeni.
Itt egy videó róla:
Az NCSA másik találmányát úgy hívják, hogy Data Tilling Service (DTS), és arra való, hogy nagy adathalmazokat, például különböző képeket elemezzen tartalmi szempontból, és metaadatokat kreáljon, amiknek alapján aztán a képek könnyen kereshetővé válnak. Képzeld el, hogy találsz valahol egy vagon pornóképet, és szeretnéd tudni, honnan vannak, kit ábrázolnak, mekkorák, hol készültek. A DTS rámegy, elemzi a képeket, megróbálja például felismerni az arcokat, és ha sikerül, a képekhez csatolja a metaadatokat.
Itt egy szemléltető videó (nem pornóval):
És persze ha a DTS olyan képformátumot talál, amit a felhasználó gépe nem tud feldolgozni, ott a DAP, és indul a fordítás.
Részletek az nsf.gov-on és az NCSA szájtján.
Kommentek
Közösségünk messze túlnyomó többségének jószándéka és minden moderációs igyekezetünk ellenére cikkeink alatt időről-időre a kollégáinkat durván sértő, bántó megjegyzések jelentek meg.
Hosszas mérlegelés és a lehetőségeink alapos vizsgálata után úgy döntöttünk, hogy a jövőben a közösségépítés más útjait támogatjuk, és a cikkek alatti kommentelés lehetőségét megszüntetjük. Közösség és Belső kör csomaggal rendelkező előfizetőinket továbbra is várjuk zárt Facebook csoportunkba, a Közértbe, ahol hozzászólhatnak a cikkeinkhez, és kérdezhetnek a szerzőinktől is.