Už delší dobu se mi zdá, že Google nepoužívá obyčejný invertovaný soubor lehce okořeněný page rankem.
Dneska jsem hledal pravidla pro karetní hru UNO. Zadal jsem uno pravidla
a výsledek mě šokoval.
Jako první vypadla pravidla pro hru UNO, ale v angličtině! Zcela jistě v tom PDF-ku není slovo pravidla a přesto je ten výsledek správný. Sémanticky, ne syntakticky!
To, že Google dokáže opravovat automaticky překlepy (zkuste local time in tokio
), skloňovat česká slova, aniž by měl český slovník, na to jsem si zvyknul.
Ale nad tímhle mi zůstává rozum stát…
Update: Pravidla UNO v češtině
Jak si Vindra všiml a napsal do komentáře pod článek, Google velice rychle zaindexoval tento příspěvěk a celkem vysoko zařadil na klíčová slova “uno pravidla
“. Tady je tedy link na pravidla pro hru UNO v češtině.
Jo a dobra je i rychlost indexace – google me uz tvoji stranku zobrazuje jako druhou na tento dotaz. Coz na to, ze jsi to napsal pred hodinou docela jde…
Já bych to viděl možná trochu jinak.
Mě ten dotaz teď vrací asi úplně jiné výsledky, než tobě. Po původním odkazu na anglický dokument není v prvních dvou stránkách ani památky. Zato tvůj blog je už na prvním místě (docela by mě zajímalo, zda ho během dvou dnů skutečně dvakrát přeindexoval… docela bych se divil…).
Je totiž vidět, že ani Google si s tvým dotazem nevěděl moc rady. První, co ti tedy nabídl je tip, abys hledal pouze anglické dokumenty (viz screen shot). K takovému kroku ho podlě mě mohlo vést to, že původní dozat vracel málo relevantní výsledky, tak se pokusil hádat. Slovo "pravidla" se v anglickém slovníku nevyskytuje. Tak ho přeložil (tedy Google podlě mě má česko-anglický slovník). Ty jsi v té chvíli byl přihlášený, takže bylo snadné uhodnout, že to neznámé slovo může být v čestině. Díky tomu, že jsi byl přihlášený mohl Google také hledat pomoc v profilech podobných uživatelů (tedy lidí, kteří ve výsledcích na stejný dotaz klikají na stejné dokumenty jako ty). Pro takové účely se dá použít např neuronová síť (viz Programming Collective Intelligence, pokud si tu knížku chceš přečíst, tak řekni). Výhodou takového přístupu je totiž v tom, že může dávat relevantní odpovědi i na dotazy, které předtím ještě nikdo nepoložil. Stačí jenom to, aby byla siť dostatečně naučená předchozími uživateli.
Vlastně Google nemusel tvůj blog během dvou dnů dvakrát přeindexovat, to je neslysl, stačilo jednou, ale rozhodně u něh musí velmi rychle a dynamicky měnit rank.
[3] Nikoliv. Opravdu byl u mě na webu několikrát za víkend. Podívej se, že už ukazuje v title Updated.
Nicméně Google Sitemap za to nemůže, tam je poslední download 9. listopadu 2007.
[2] Myslím že tohle je jasným důkazem že Google už dávno není jen invertovaný soubor, jakkoliv vylepšený (viz úvodní věta článku).
Kolektivní inteligence je pravděpodobně jediný účinný způsob jak zabránit spamování indexu.
Pokud jde o slovník, moc nevěřím, že ho Google koupil, myslím že ho zas tak moc nepotřebuje.
Taky myslím, že díky objemu dat a rychlosti jakou je schopen je zprácovávat, Google získává obrovskou konkurenční výhodu, díky které během několika let převálcuje Seznam.cz v relevanci výsledků fulltextu i v České republice.
Možná jsem to příliš překomplikoval, ale ať tak či onak, Google podle mě rozhodně neuvažuje semanticky. Pouze dokáže využít potenciálu, který má. Analýza click streamu je velkou vědou a příklad s jednoduchou aplikaci neuronové sítě je jen špičkou ledovce.
[6] No právě. Google jsou lidi, co mu dodávají data. On je jenom prostředník.
Douglas Merrill, viceprezident společnosti Google nedávno prohlásil, že kdyby mohli prohledávat náš mozek, tak by to udělali.
Ale to bylo jen uklidňující prohlášení pro tisk, protože Oni už to dávno dělají 😉
Celkem zajimavy zjisteni, ze kde google vidi slovo google, tak to indexuje rychleji 🙂 Jestli je to pravda, tak je to malinko zneuzitelny ne ? 🙂
[8] Nevěřím, že slovo Google funguje magicky 😉 V poslední době jsem psal hodně i o jiných tématech a obvykle se o tom Google dozvěděl během jedné hodiny.
Já si prostě myslím, že jsou hodně dobří… 😉
A třeba mi to zdvihne page rank 🙂