don't be evil Dobrica Pavlinusi dpavlin@rot13.org http://www.rot13.org/~dpavlin/ Kako u nestrukturiranom svijetu nai nestrukturirane informacije? This presentation is made without any affiliation with Google. Google logo and artwork is a trademark of Google Inc. Don't be evil? Sjeate li se Altaviste? Sjeate li se kako je u izgledao Yahoo? .com boom je sve promjenio Internet vise nije samo za power usere previse informacija kako nai informaciju koju trebam? semantic web je jedan od nacina... Google je drugi... Ali, sve je pocelo sa... informacijom (ne)strukturirane informacije strukturirane informacije ­ ­ ­ ­ ­ baze podataka (u sirem smislu) rijecnici i kazala bibliografski podaci telefonski imenici oglasi dokumenti, slike, zvuk, filmovi moj stol (u neredu) nestrukturirane informacije ­ ­ karakteristike strukturirane informacije ­ ­ ­ ­ ­ tocno razdjeljuju pojmove i fraze meusobne veze izmeu pojmova ureenje po nekoj logici ili abecedi fiksan broj polja sa podacima ponekad kontrolirani rijecnik za pojmove jednostavniji i bogatiji za izrazavanje visestruko vei broj korisnika nestrukturirane informacije ­ ­ pregledavanje strukturirane informacije ­ ­ ­ ­ ­ prema odreenoj strukturi prema meusobnim vezama prema vremenskim razdobljima prema skupu podataka (filtriranje i agregiranje) kombinacijom prema eventualnim vezama (web) jedan po jedan nestrukturirane informacije ­ ­ pretrazivanje strukturirane informacije ­ ­ ­ ­ ­ relativno mala kolicina tocan oblik pojma ordeene kljucne rijeci logicki operatori jezik za pretrazivanje ogromna kolicina podataka (web i vise) nekoliko rijeci iz punog teksta nestrukturirane informacije ­ ­ Semanticki web tocno opisan odnos izmeu razlicitih pojmova i stranica na webu Tim Berners-Lee (HTML, HTTP) zahtjeva od korisnika definiranje veza jednostavno i veoma mono pretrazivanje Da li je lakse natjerati ljude da opisuju veze ili nauciti racunalo da samo shvati veze? Internet je pun... nestrukturiranih informacija Kako pretraziti Internet? instalirate nekoliko masina napisete software koji skida sve stranice napravite indeks svih rijeci i pretrazujete ga napravite formu u koju korisnici upisuju upit prikazete korisnicima rezultate Po cemu je Google drugaciji? Zelim pretraziti Internet! korisnik ­ ­ forma sa poljem za upis upita rangirani rezultati racunala kopija cijelog sadrzaja weba indeks svih rijeci pretrazivanje povezivanje sa strukturiranim podacima Google ­ ­ ­ ­ ­ PageRank algoritam iza rangiranja rezultata poredak po broju citiranja stranice (broju linkova koji na webu vode prema stranici) vise povezane stranice su "vaznije" nepovezani ili najnoviji dijelovi weba ostaju nepretrazeni mogui pokusaji prijevare (for fun and profit) Pretrazivanje prema nekoliko rijeci (1-3 u prosjeku) operatori (AND, OR) sa ili bez rijeci (+knjiznice, -google) prema frazi ("pretrazivanje interneta") prema URL adresi stranice (site:hr) linkovima prema stranici (link:www.szi.hr) Advanced search sucelje Spremljena (cache) verzija stranice Sitnice u pretrazivanju similar pages kako se ono pise? (Did you mean?) ­ nije rijecnik, samo statisticki uzorak! ogranicavanje po jeziku (Language Tools) kalkulator i konvertor ­ 30 + 12, 1 ft, 3 tea spoons, 10 in + 25 cm US adrese, dionice, UPS, FedEx, FCC... strukturirani podaci ­ news.google.com mnogo brzi ciklus obnavnjanja nego za web sadrzaj izbor iz sredstava "javnog informiranja" nema hrvatskih sadrzaja Google News Alert ­ dobivajte obavijesti emailom groups.google.com Usenet ­ mrezne vijesti hijerarhijska podjela sadrzaja po temama ­ npr. hr.org.ffzg, hr.comp.linux veza izmeu pojedinih postova pojedini rezultati mnogo specificniji nego na webu (tocniji!) tamna povijest Useneta ­ www.archive.org za stare web stranice images.google.com pretrazivanje slika ali, racunalo ne "vidi" sliku! pretrazivanje po nazivu datoteke, okolnim pojmovima... filter za "nepoudan" sadrzaj Picasa ­ pretrazuje slike na vasem disku gmail.google.com "jos da mogu tako pretraziti i svoj e-mail" webmail sa pretrazivanjem i konceptom razgovora automatsko oznacavanje maila 1Gb prostora ­ nikada ne brisite e-mail! clanstvo mogue samo uz poziv (ali imamo ih nekoliko) pitanja privatnosti print.google.com dio testnog, beta programa upit: books on digital photography pretrazivanje punog teksta knjiga bez mogunosti ispisa ili kopiranja testa veoma slicno Amazonom "search inside this book" nije DRM, ali je izdavacima dovoljno sigurno za veinu korisnika desktop.google.com "jednostavnije mi je nesto nai na Internetu nego ma mom racunalu" pretrazite svoje racunalo! samo 500K (0.5Mb) datoteka pretrazuje Outlook, presurfani Web, Word, PowerPoint, Excel i tekstualne datoteke na disku integracija sa internet searchom (uz usporenje!) adwords.google.com od necega se mora i zivjeti... oglasi prema kljucnim rijecima More informacija pronaite ono sto trazite snaite se u njemu pomognite svojim korisnicima da se snau Nemojte se navui na pretrazivanje kao ja! Pitanja? I nadam se odgovori...