Keresőrendszer

Keresőmotor ( eng. keresőmotor ) - algoritmusok és az ezeket megvalósító számítógépes programok (a kifejezés tág értelmében, beleértve az első generációs automatizált információfeldolgozás analóg rendszereit is ), amelyek lehetővé teszik a felhasználó számára a gyors hozzáférést a rendelkezésére álló adatok hatalmas gyűjteményében való kereséssel [1] . A keresőmotorok egyik legismertebb alkalmazása a webszolgáltatások szöveges vagy grafikus információk keresésére a világhálón . Vannak olyan rendszerek is, amelyek képesek fájlokat keresni FTP szervereken, áruk az online áruházakban , információk a Usenet hírcsoportokban .

A keresőmotor segítségével történő információkereséshez a felhasználó keresési lekérdezést fogalmaz meg [2] . A kereső feladata, hogy a felhasználó kérésére megtalálja a megadott kulcsszavakat vagy a kulcsszavakhoz valamilyen módon kapcsolódó szavakat tartalmazó dokumentumokat [3] . Ennek során a keresőmotor létrehoz egy keresési eredményoldalt . Az ilyen keresési eredmények különféle típusú találatokat tartalmazhatnak, például: weboldalak , képek , hangfájlok . Egyes keresőmotorok az interneten található releváns adatbázisokból és erőforrás-könyvtárakból is gyűjtenek információkat . A szükséges információk megtalálásához a legkényelmesebb a modern keresőmotorok használata, amelyek lehetővé teszik a szükséges információk gyors megtalálását, és biztosítják a keresés pontosságát és teljességét. Amikor ezekkel a gépekkel dolgozik, elegendő olyan kulcsszavakat megadni, amelyek a legpontosabban tükrözik a keresett információt, vagy a kulcsszavak összetettebb lekérdezését végezzük a keresési terület finomításához. A keresési lekérdezés megadása után egy listát kap az interneten található dokumentumokra mutató hivatkozásokról, amelyeket általában weboldalaknak vagy egyszerűen oldalaknak neveznek, és amelyek a megadott kulcsszavakat tartalmazzák. Általában a hivatkozásokat a talált dokumentumból származó szövegrészletekkel egészítik ki, amelyek gyakran segítenek azonnal meghatározni a talált oldal tárgyát. A hivatkozásra kattintva a kiválasztott dokumentumhoz juthat.

A kereső jobb, minél több a felhasználó lekérdezésének releváns dokumentuma , az vissza fog térni. A keresési eredmények kevésbé relevánsak lehetnek az algoritmusok sajátosságai vagy az emberi tényező miatt . 2020-tól a világ és különösen Oroszország legnépszerűbb keresőmotorja a Google. .

A keresési és karbantartási módszerek szerint négyféle keresőmotort különböztetünk meg: keresőrobotokat használó rendszerek, embervezérelt rendszerek, hibrid rendszerek és metarendszerek . A keresőmotor architektúrája általában a következőket tartalmazza:

keresőrobot, amely internetes oldalakról vagy más dokumentumokból gyűjt információkat;
indexelő , amely gyors keresést biztosít a felhalmozott információk között;
kereső - grafikus felhasználói felület [ .

Történelem

Kronológia
Év	Rendszer	Esemény
1993	W3 katalógus	dob
	Aliweb	dob
	JumpStation	dob
1994	WebCrawler	dob
	infoseek	dob
	Lycos	dob
1995	AltaVista	dob
	Daum	Bázis
	Nyissa meg a Szöveges	dob
	Magellán	dob
	Izgat	dob
	SAPO	dob
	Jehu!	dob
1996	Dogpile	dob
	Inktomi	Bázis
	Turista	Bázis
	HotBot_	Bázis
	Kérdezd meg Jeevest	Bázis
1997	Northern Light	dob
1997	Yandex	dob
1998	Google	dob
1999	AlltheWeb	dob
	GenieKnows	Bázis
	Naver	dob
	Teoma	Bázis
	Vivisimo	Bázis
2000	Baidu	Bázis
2000	Exalead	Bázis
2003	info.com	dob
2004	Jehu! Keresés	Végső indítás
	A9.com	dob
	sogou	dob
2005	MSN keresés	Végső indítás
	Ask.com	dob
	Nigma	dob
	GoodSearch	dob
	SearchMe	Bázis
2006	wikiseek	Bázis
	Quaero	Bázis
	Élő keresés	dob
	ChaCha	Indítás ( béta )
	Guruji.com	Indítás ( béta )
2007	wikikeresés	dob
	Sproose	dob
	Wikia keresés	dob
	blackle.com	dob
2008	DuckDuckGo	dob
	Tooby	dob
	Picollator	dob
	Viewzi	dob
	Cuil	dob
	Boogami_	dob
	LeapFish	Indítás ( béta )
	forestle	dob
	VADLO	dob
	powerset	dob
2009	Bing	dob
	KAZ.KZ	dob
	Yebol	Indítás ( béta )
	Mugurdy_	bezárás
	Scout	dob
2010	Cuil	bezárás
	Blekko	Indítás ( béta )
	Viewzi	bezárás
2012	WAZZUB	dob
2014	Műhold	Indítás ( béta )

Az internet fejlesztésének korai szakaszában Tim Berners-Lee a CERN honlapján közzétett webszerverek listáját [4] vezette . Egyre több oldal volt, és egy ilyen lista manuális karbantartása egyre nehezebbé vált. Az NCSA webhelyén volt egy külön „Újdonságok!” rész. ( angolul What's New! ) [5] , ahol új oldalakra mutató hivatkozásokat tettek közzé.

Az első számítógépes program az interneten való kereséshez az Archie program volt ( angol. archie - archívum "c" betű nélkül). 1990-ben hozták létre Alan Emtage, Bill Heelan és J. Peter Deutsch, a montreali McGill Egyetem informatikus hallgatói . A program letöltötte az összes fájl listáját az összes elérhető névtelen FTP -kiszolgálóról, és létrehozott egy adatbázist, amelyben fájlnevek alapján lehetett keresni. Az Archie programja azonban nem indexelte ezeknek a fájloknak a tartalmát, mivel az adatmennyiség olyan kicsi volt, hogy mindent könnyen meg lehetett találni kézzel.

A Gopher hálózati protokoll fejlesztése és terjesztése , amelyet 1991-ben Mark McCahill alkotott meg a Minnesotai Egyetemen , két új keresőprogram, a Veronica és a Jughead létrehozásához vezetett . Archie-hoz hasonlóan megkeresték a Gopher indexrendszereiben tárolt fájlneveket és fejléceket. A Veronica ( angolul: Very Easy Rodent-Oriented Net-wide Index to Computerized Archives ) lehetővé tette a kulcsszavas keresést a legtöbb Gopher menücímre az összes Gopher listán. A Jughead program ( Jonzy Universal Gopher Hierarchy Excavation And Display ) menüinformációkat kért le bizonyos Gopher szerverekről. Bár az Archie keresőmotor nevének semmi köze nem volt az Archie képregényekhez , Veronica és Jughead ennek ellenére karakterei ezekben a képregényekben.

1993 nyarára még nem létezett egyetlen rendszer a weben való kereséshez, bár számos speciális címtárat karbantartottak manuálisan. Oscar Nierstrasz a Genfi Egyetemen egy sor Perl -szkriptet írt , amelyek rendszeresen lemásolták ezeket az oldalakat, és átírták őket egy szabványos formátumra. Ez lett az alapja a W3Catalognak , a web első primitív keresőjének, amelyet 1993. szeptember 2-án indítottak el [6] .

Valószínűleg az első Perl nyelven írt webrobot a " World Wide Web Wanderer " bot volt, amelyet Matthew Gray készített az MIT -n 1993 júniusában. Ez a robot létrehozta a " Wandex " keresési indexet . A Wanderer robot célja az volt, hogy megmérje a világháló méretét, és megtalálja az összes olyan weboldalt, amely a lekérdezésben szereplő szavakat tartalmazza. 1993-ban megjelent a második keresőmotor " Aliweb ". Az Aliweb nem használt bejárót , hanem a webhelyek adminisztrátorainak értesítésére várt egy bizonyos formátumú indexfájl jelenlétéről a webhelyükön.

A JumpStation , [7] 1993 decemberében, Jonathan Fletcher által létrehozott weblapokon keresett és indexelt egy bejáró segítségével, valamint webes űrlapot használt felületként a keresési lekérdezések megfogalmazásához. Ez volt az első internetes keresőeszköz, amely egyesítette a keresőmotor három alapvető funkcióját (ellenőrzés, indexelés és tényleges keresés). A korabeli korlátozott számítógépes erőforrások miatt az indexelés, így a keresés csak a bejáró által talált weboldalak címeire és címeire korlátozódott.

Az első teljes szövegű indexelési erőforrás, amely robotot („craweller-alapú”) keresőmotort használ , az 1994-ben elindított „WebCrawler” Elődjeivel ellentétben lehetővé tette a felhasználók számára, hogy bármilyen szóra rákeressenek bármely weboldalon, ami azóta a legtöbb keresőmotor szabványává vált. Ráadásul ez volt az első széles körben használt keresőmotor. 1994- ben indult a „ Lycos ” rendszer, amelyet a Carnegie Mellon Egyetemen fejlesztettek ki, és komoly kereskedelmi vállalkozássá vált.

Hamarosan sok más versengő keresőmotor is megjelent, mint például: "Magellan" , " Excite ", "Infoseek" , "Inktomi" , "Northern Light" és " AltaVista ". Bizonyos értelemben olyan népszerű online címtárakkal versenyeztek, mint a Yahoo! ". De a címtárak keresési lehetőségei magukban a könyvtárakban való keresésre korlátozódtak, nem pedig a weboldalak szövegei között. Később a címtárakat egyesítették vagy keresőrobotokkal látták el a keresés javítása érdekében.

1996-ban a Netscape exkluzív üzletet akart kötni az egyik keresőmotorral, így ez lett a Netscape webböngésző alapértelmezett keresője . Ez akkora érdeklődést váltott ki, hogy a Netscape egyszerre kötött szerződést öt legnagyobb keresőmotorral (Yahoo!, Magellan, Lycos, Infoseek és Excite). Évi 5 millió dollárért sorra kínálták őket a Netscape keresőoldalán [8] [9] .

A keresőmotorok részt vettek az 1990- es évek végén a " Dot-com buborékban " [10] . Számos társaság látványos módon lépett be a piacra, rekord nyereséget produkálva a kezdeti nyilvános ajánlattétel során . Néhányan eltávolodtak a nyilvános keresőmotorok piacától, hogy csak a vállalati szektorral dolgozzanak, mint például a Northern Light .

A Google 1998-ban vette fel a kulcsszavak értékesítésének ötletét, amikor egy kis cég volt, amely keresőmotort üzemeltetett a goto.com címen . Ez a lépés azt jelentette, hogy a keresőmotorok az egymással való versengésről az egyik legjövedelmezőbb internetes üzleti vállalkozássá váltak [11] . A keresőmotorok elkezdték eladni a keresési eredmények első helyeit az egyes cégeknek.

A Google keresőmotorja a 2000-es évek eleje óta előkelő helyen van [12] . A cég magas pozíciót ért el a PageRank algoritmussal végzett jó keresési eredményeknek köszönhetően . Az algoritmust Sergey Brin és Larry Page, a Google alapítói "The Anatomy of Search Engine" című cikkében mutatták be a nyilvánosságnak [13] . Ez az iteratív algoritmus a weboldalakat a weboldalra mutató hiperhivatkozások becsült száma alapján rangsorolja , feltételezve, hogy a „jó” és „fontos” oldalak több hivatkozást kapnak, mint mások. A Google felülete spártai stílusban készült, ahol nincs semmi felesleges, ellentétben sok versenytársával, akik a keresőt egy internetes portálba építették . A Google kereső annyira népszerűvé vált, hogy megjelentek utánzók is, mint például a Mystery Seeker (titkos kereső).

2000-re a Yahoo! keresést végzett az Inktomi rendszer alapján. Jehu! 2002-ben megvásárolta az Inktomit, 2003-ban pedig az Overture-t, amely az AlltheWeb és az AltaVista tulajdonosa volt Akkor a Yahoo! 2004-ig a Google keresője alapján dolgozott, míg végül minden korábban vásárolt technológián alapuló saját keresőt indított.

A Microsoft először 1998 őszén indította el a Microsoft Network Search (MSN Search) szolgáltatást az Inktomi keresési eredményeinek felhasználásával. Nagyon hamar, 1999 elején az oldal elkezdte megjeleníteni a Looksmart eredményeit az Inktomi eredményekkel keverve. Rövid ideig (1999-ben) az MSN keresés az AltaVista keresési eredményeit használta. 2004-ben a Microsoft megkezdte az átállást a saját keresési technológiájára, saját keresőrobotjával – msnbot . A Microsoft általi márkaváltás után a Bing keresőmotor 2009. június 1-jén indult el . 2009. július 29. Yahoo! és a Microsoft aláírt egy megállapodást, amelynek értelmében a Yahoo! A keresést a Microsoft Bing technológia hajtotta végre. 2015-től a Bing és a Yahoo! meghozta az első igazi gyümölcsöt. Most a Bing birtokolja a piac 20,1%-át, és a Yahoo! 12,7%, amely a különböző forrásokból származó adatok szerint az Egyesült Államok teljes keresőmotor-piacának 32,60%-át foglalja el .

Információ keresése orosz nyelven

1996-ban az orosz morfológiát figyelembe véve keresést hajtottak végre az Altavista keresőmotoron, és elindították az eredeti orosz Rambler és Aport keresőmotorokat . 1997. szeptember 23-án megnyílt a Yandex kereső . 2014. május 22-én a Rostelecom megnyitotta a Szputnyik országos keresőt , amely 2015-ben béta tesztelés alatt áll. 2015. április 22-én új Szputnyik szolgáltatás indult. Gyermekek kifejezetten fokozott biztonságú gyermekek számára.

A klaszteranalízis és a metaadatkeresés módszerei nagy népszerűségre tettek szert . Az ilyen típusú nemzetközi gépek közül a Vivisimo 's Clusty leghíresebb . 2005-ben a Moszkvai Állami Egyetem támogatásával Oroszországban elindították a Nigma keresőmotort , amely támogatja az automatikus klaszterezést . 2006-ban megnyílt az orosz Quintura metagép , amely vizuális klaszterezést kínál címkefelhő formájában . Nigma vizuális klaszterezéssel is kísérletezett [14] .

Hogyan működik a keresőmotor

A keresőmotor fő összetevői: keresőrobot , indexelő , kereső [15] .

A rendszerek általában szakaszosan működnek. Először a bejáró megkapja a tartalmat, majd az indexelő létrehoz egy kereshető indexet, végül pedig a bejáró biztosítja az indexelt adatok keresésének funkcióját. A keresőmotor frissítéséhez ez az indexelési ciklus megismétlődik [15] .

A keresőmotorok úgy működnek, hogy sok olyan weboldalról tárolnak információkat, amelyeket a HTML - oldalakról kapnak. A keresőrobot vagy "bejáró" ( eng. Crawler ) egy olyan program, amely automatikusan követi az oldalon található összes hivatkozást, és kiemeli azokat. A bejáró hivatkozások vagy előre meghatározott címlista alapján olyan új dokumentumokat keres, amelyeket még nem ismer a kereső. A webhely tulajdonosa kizárhat bizonyos oldalakat a robots.txt segítségével , amellyel megakadályozhatja a webhely fájlok, oldalak vagy könyvtárak indexelését.

A kereső elemzi az egyes oldalak tartalmát a további indexelés érdekében. A szavak kivonhatók címekből, oldalszövegekből vagy speciális mezőkből - metacímkékből . Az indexelő egy olyan modul, amely elemzi az oldalt, miután részekre bontja, saját lexikai és morfológiai algoritmusai alapján. A weboldal minden eleme elkülönítve van, és külön elemzi. A weboldal adatait egy index-adatbázis tárolja a későbbi kérésekben való felhasználás céljából. Az index lehetővé teszi, hogy a felhasználó kérésére gyorsan információt találjon [16] .

Számos keresőmotor, például a Google, tárolja az eredeti oldal egészét vagy egy részét, az úgynevezett gyorsítótárat , valamint különféle információkat a weboldalról. Más rendszerek, például az AltaVista, minden talált oldal minden szavát tárolják. A gyorsítótár használata segít felgyorsítani az információk kinyerését a már meglátogatott oldalakról [16] . A gyorsítótárazott oldalak mindig azt a szöveget tartalmazzák, amelyet a felhasználó a keresési lekérdezésben megadott. Ez akkor lehet hasznos, ha a weboldal frissítésre került, vagyis már nem tartalmazza a felhasználó kérésének szövegét, és a gyorsítótárban lévő oldal még régi [16] . Ez a helyzet a linkek elvesztésével ( eng. linkrot ) és a Google felhasználóbarát ( usability ) megközelítésével kapcsolatos. Ez magában foglalja a rövid szövegrészek kiadását a lekérdezés szövegét tartalmazó gyorsítótárból. A legkevesebb meglepetés elve érvényesül , a felhasználó általában azt várja, hogy a kapott oldalak szövegében a keresett szavakat látja ( Felhasználói elvárások ). A gyorsítótárazott oldalak használatával végzett keresések felgyorsítása mellett a gyorsítótárazott oldalak olyan információkat is tartalmazhatnak, amelyek máshol már nem elérhetők.

A keresőmotor az indexelőtől kapott kimeneti fájlokkal dolgozik. A keresőmotor elfogadja a felhasználói kéréseket, index segítségével feldolgozza azokat, és visszaadja a keresési eredményeket [15] .

Amikor a felhasználó beír egy lekérdezést egy keresőbe (általában kulcsszavak használatával ), a rendszer ellenőrzi az indexét, és visszaadja a legrelevánsabb weboldalak listáját (valamilyen kritérium szerint rendezve), általában egy rövid megjegyzéssel, amely tartalmazza a dokumentum címét és néha a szöveg egyes részei [16 ] . A keresőindex egy speciális technika szerint épül fel, weboldalakról kinyert információk alapján [12] . A Google kereső 2007 óta lehetővé teszi a keresett dokumentumok létrehozási idejének figyelembe vételével (a "Keresőeszközök" menü megnyitásával és az időtartomány megadásával) történő keresést.

A legtöbb keresőmotor támogatja az AND, OR, NOT logikai operátorok használatát a lekérdezésekben, ami lehetővé teszi a keresett kulcsszavak listájának finomítását vagy bővítését. Ebben az esetben a rendszer pontosan a beírt szavakat vagy kifejezéseket keresi. Egyes keresőmotorokban van lehetőség közelítő keresésre , ebben az esetben a felhasználók bővítik a keresési területet a kulcsszavak távolságának megadásával [16] . Létezik egy fogalmi keresés is , amely a keresett szavak és kifejezések weboldalak szövegeiben való használatának statisztikai elemzését használja. Ezek a rendszerek lehetővé teszik a természetes nyelvű lekérdezések összeállítását.

A keresőmotor hasznossága a talált oldalak relevanciájától függ. Míg több millió weboldal tartalmazhat szót vagy kifejezést, egyesek relevánsabbak, népszerűbbek vagy hitelesebbek lehetnek, mint mások. A legtöbb keresőmotor rangsorolási módszereket használ , hogy a "legjobb" eredményeket a lista elejére hozza. A keresőmotorok döntik el, hogy mely oldalak relevánsabbak, és milyen sorrendben jelenítsék meg az eredményeket különböző módokon [16] . A keresési módszerek, mint maga az internet, idővel változnak. Így a keresőmotorok két fő típusa jelent meg: előre definiált és hierarchikusan rendezett kulcsszavak rendszerei, illetve olyan rendszerek, amelyekben szövegelemzés alapján fordított indexet generálnak.

A keresőmotorok többsége kereskedelmi vállalkozás, amely a reklámozásból profitál , egyes keresőkben térítés ellenében az adott kulcsszavakra a legfelső pozíciókat vásárolhatja meg a keresési eredmények között. Azok a keresőmotorok, amelyek nem kérnek pénzt a találati sorrendért, a kontextuális hirdetéssel keresnek , míg a reklámüzenetek a felhasználó kérésének felelnek meg. Az ilyen hirdetések a keresési eredmények listáját tartalmazó oldalon jelennek meg, és a keresőmotorok minden alkalommal keresnek, amikor a felhasználó a hirdetési üzenetekre kattint.

Keresőmotor típusok

Négy típusú keresőmotor létezik: robotizált, embervezérelt, hibrid és metarendszerek [17] .

keresőrobotokat használó rendszerek . Három részből állnak: egy bejáróból ("bot", "robot" vagy "pók"), egy indexből és egy keresőszoftverből. A bejáróra a hálózat megkerüléséhez és a weboldalak listájának létrehozásához van szükség. Az index a weboldalak másolatainak nagy archívuma. A szoftver célja a keresési eredmények értékelése. Tekintettel arra, hogy ebben a mechanizmusban a bejáró folyamatosan feltárja a hálózatot, az információk naprakészebbek. A legtöbb modern keresőmotor ilyen típusú rendszer.
embervezérelt rendszerek (erőforrás-könyvtárak) . Ezek a keresőmotorok listákat kapnak a weboldalakról. A címtár tartalmazza a címet, a címet és a webhely rövid leírását. Az erőforrás-katalógus csak a webmesterek által beküldött oldalleírásokból keresi az eredményeket. A könyvtárak előnye, hogy minden erőforrást manuálisan ellenőriznek, így a tartalom minősége jobb lesz az első típusú rendszer által automatikusan kapott eredményekhez képest. De van egy hátránya is - ezeknek a katalógusoknak a frissítése manuálisan történik, és jelentősen elmaradhat a dolgok valós állapotától. Az oldalak rangsorolása nem változhat azonnal. Ilyen rendszerek például a Yahoo könyvtár , a dmoz és a Galaxy .
hibrid rendszerek . Az olyan keresőmotorok, mint a Yahoo , Google, MSN egyesítik a keresőrobotokat és az ember által irányított rendszereket használó rendszerek funkcióit.
meta-rendszerek . A metakeresők kombinálják és rangsorolják egyszerre több keresőmotor eredményeit. Ezek a keresőmotorok akkor voltak hasznosak, ha minden keresőmotornak egyedi indexe volt, és a keresőmotorok kevésbé voltak "okosak". Mivel a keresés mostanra sokat fejlődött, csökkent az igény rájuk. Példák: MetaCrawler és MSN Search.

Keresőpiac

A Google a világ legnépszerűbb keresője 92,16%-os piaci részesedéssel. A Bing a második helyet foglalja el, részesedése 2,88% [18] .

A világ legnépszerűbb keresőmotorjai [19] :

Keresőrendszer	Piaci részesedés 2014 júliusában	Piaci részesedés 2014 októberében	Piaci részesedés 2017 szeptemberében	Piaci részesedés 2020 szeptemberében [20]	Piaci részesedés 2021 decemberében [21]
Google	68,69%	58,01%	69,24%	92,16%	91,94%
Bing	17,17%	29,06%	12,26%	2,88%	2,86%
Baidu	6,22%	8,01%	6,48%	1,14%	1,37%
Jehu!	6,74%	4,01%	5,19%	1,52%	1,5%
AOL	0,13%	0,21%	1,11%
Izgat	0,22%	0,00%	0,00%
Kérdez	0,13%	0,10%	0,24%

Ázsia

A kelet-ázsiai országokban és Oroszországban a Google nem a legnépszerűbb keresőmotor. Kínában például a Soso keresőmotor népszerűbb .

Dél-Koreában a Naver nevű saját keresőportált a lakosság mintegy 70%-a használja [22] A Yahoo! Japán és a Yahoo! Tajvan a legnépszerűbb keresőmotorok Japánban, illetve Tajvanon [23] .

Oroszország és orosz nyelvű keresők

A Google keresőt az oroszországi felhasználók 50,3%-a, a Yandex 47,9%-a használja [24] .

A LiveInternet 2017. decemberi adatai szerint az orosz nyelvű keresési lekérdezések lefedettségéről [25] :

Minden nyelven:
- Google (42,9%)
- Bing (0,3%)
- Jehu! (0,0%) és ennek a cégnek a tulajdonában lévő keresőmotorok: Inktomi , AltaVista , Alltheweb
Angolul beszélő és nemzetközi:
- AskJeeves ( Teoma mechanizmus)
Oroszul beszélő - a legtöbb "orosz nyelvű" keresőmotor számos nyelven indexel és keres szövegeket - ukrán , fehérorosz , angol , tatár és mások. Abban különböznek a „minden nyelvű” rendszerektől, amelyek sorban indexelnek minden dokumentumot , mivel elsősorban az orosz nyelv domináns tartományi zónáiban található erőforrásokat indexelik , vagy más módon az orosz nyelvű oldalakra korlátozzák robotjaikat.
- Yandex (60,4%)
- Mail.ru (3,5%)
- Rambler (0,2%)

Egyes keresőmotorok külső keresőalgoritmusokat használnak.

Kvantitatív adatok a Google keresőből

Folyamatosan növekszik az internetezők és a keresőmotorok száma, valamint az ezekre a rendszerekre vonatkozó felhasználói követelmények. A szükséges információk keresésének sebességének növelése érdekében a nagy keresőmotorok nagyszámú szervert tartalmaznak. A szervereket általában szerverközpontokba (adatközpontokba) csoportosítják. A népszerű keresőmotorok szerverközpontjai szerte a világon szétszórva vannak.

2012 októberében a Google elindította a Where the Internet Lives projektet, ahol a felhasználóknak lehetőségük nyílik megismerkedni a cég adatközpontjaival [26] .

A Google keresőmotorja a következőket tudja az adatközpontok munkájáról [27] :

Az összes Google adatközpont teljes kapacitását 2011-ben 220 MW-ra becsülték.
Amikor a Google 2008-ban egy új, három épületből álló komplexum megnyitását tervezte Oregonban 6,5 millió négyzetméter összterülettel, a Harper's Magazine számításai szerint egy ekkora komplexum több mint 100 MW áramot fogyaszt, ami összemérhető az ország energiafogyasztásával. 300 000 lakosú város.
A Google szervereinek becsült száma 2012-ben 1 millió.
A Google adatközponti kiadásai 2006-ban 1,9 milliárd dollárt, 2007-ben pedig 2,4 milliárd dollárt tettek ki.

A Google által indexelt világháló mérete 2014 decemberében körülbelül 4,36 milliárd oldal [28] .

Keresőmotorok, amelyek figyelembe veszik a vallási tabukat

Az internet globális elterjedése és az elektronikus eszközök növekvő népszerűsége az arab és a muszlim világban, különösen a Közel-Kelet és az indiai szubkontinens országaiban, hozzájárultak az iszlám hagyományokat figyelembe vevő helyi keresőmotorok fejlődéséhez . Az ilyen keresőmotorok speciális szűrőket tartalmaznak, amelyek segítenek a felhasználóknak elkerülni a tiltott, például pornográfiát tartalmazó oldalak elérését, és csak olyan webhelyeket használhatnak, amelyek tartalma nem ellentétes az iszlám hittel.

Nem sokkal a muzulmán Ramadán hónapja előtt , 2013 júliusában bemutatták a világnak a Halalgoogling rendszert, amely csak halal "helyes" linkeket [29] ad a felhasználóknak azáltal, hogy szűri a más keresőmotoroktól, például a Google -tól és a Bingtől kapott keresési eredményeket. . Két évvel korábban, 2011 szeptemberében indult el az I'mHalal kereső a Közel-Kelet felhasználóinak kiszolgálására. Ezt a keresőszolgáltatást azonban a tulajdonos szerint hamarosan be kellett zárni finanszírozás hiánya miatt [30] .

A beruházások hiánya és a technológia elterjedésének lassú üteme a muszlim világban hátráltatta a fejlődést és hátráltatta egy komoly iszlám keresőmotor sikerét. Nyilvánvaló, hogy a muszlim életmódú webprojektekbe – amelyek közül az egyik a Muxlim volt – hatalmas befektetések kudarcot vallottak . Dollármilliókat kapott olyan befektetőktől, mint a Rite Internet Ventures, és most - az I'mHalal legfrissebb, leállás előtti jelentése szerint - azzal a kétes ötlettel áll elő, hogy "a következő Facebook vagy Google csak a Közel-Keleten jelenik meg. . ha támogatod ragyogó fiatalságunkat" .

Mindazonáltal az iszlám internetes szakértők évek óta foglalkoznak azzal, hogy meghatározzák, mi összhangban van vagy nem a saríával , és a webhelyeket " halal " vagy " haram " kategóriába sorolják. Az összes korábbi és jelenlegi iszlám keresőmotor csak egy speciálisan indexelt adathalmaz, vagy olyan nagy keresőmotorok, mint a Google, a Yahoo és a Bing, amelyek valamilyen szűrőrendszerrel akadályozzák meg, hogy a felhasználók hozzáférjenek a haraam webhelyekhez, például a meztelenséggel foglalkozó oldalakhoz. LMBT , szerencsejáték és minden más iszlámellenesnek tekintett téma .

Más vallás-orientált keresőmotorok között gyakori a Jewogle, a Google zsidó változata és a SeekFind.org, egy keresztény webhely, amely szűrőket tartalmaz, hogy távol tartsa a felhasználókat a hitüket aláásó vagy gyengítő tartalmaktól [31] .

Személyes találatok és szűrőbuborékok

Számos keresőmotor, például a Google és a Bing, algoritmusokat használ annak kitalálására, hogy a felhasználó milyen információkat szeretne látni a rendszerben végzett korábbi tevékenységei alapján. Ennek eredményeként a webhelyek csak olyan információkat jelenítenek meg, amelyek összhangban vannak a felhasználó múltbeli érdeklődésével. Ezt a hatást "szűrőbuboréknak" [32] nevezik .

Mindez oda vezet, hogy a felhasználók sokkal kevesebb olyan információt kapnak, amely ellentmond a nézőpontjuknak, és intellektuálisan elszigetelődnek saját „információs buborékukban”. Így a "buborék-effektus" negatív következményekkel járhat a polgári véleményformálásra [33] .

A keresőmotor elfogultsága

Bár a keresőmotorok úgy vannak programozva, hogy népszerűségük és relevanciájuk valamilyen kombinációja alapján rangsorolják a webhelyeket, a valóságban a kísérleti tanulmányok azt mutatják, hogy különböző politikai, gazdasági és társadalmi tényezők befolyásolják a SERP-t [34] [35] .

Ez az elfogultság a gazdasági és kereskedelmi folyamatok közvetlen következménye lehet: a keresőmotorokon hirdető cégek népszerűbbé válhatnak az adott keresőmotor organikus keresési eredményei között. A helyi törvényeknek nem megfelelő keresési eredmények eltávolítása a politikai folyamatok befolyásának példája. Például a Google nem jelenít meg néhány neonáci webhelyet Franciaországban és Németországban, ahol a holokauszt tagadása illegális [36] .

Az elfogultság társadalmi folyamatok következménye is lehet, mivel a keresőmotor-algoritmusok gyakran úgy vannak kialakítva, hogy kizárják a formázatlan nézőpontokat a "népszerűbb" találatok javára [37] . A nagy keresőmotorok indexelő algoritmusai az amerikai oldalakat helyezik előtérbe [35] .

A keresőbomba a keresési eredmények politikai, társadalmi vagy kereskedelmi okokból történő manipulálására irányuló kísérlet egyik példája.

Lásd még

Jegyzetek

↑ Keresőrendszer / D. V. Barashev, N. S. Vasilyeva, B. A. Novikov // Nagy orosz enciklopédia : [35 kötetben] / ch. szerk. Yu. S. Osipov . - M . : Nagy orosz enciklopédia, 2004-2017.
↑ Chu és Rosenthal, 1996 , p. 129.
↑ Tarakeswar és Kavitha, 2011 , p. 29.
↑ World Wide Web szerverek .
↑ Újdonságok .
↑ Oscar Nierstrasz .
↑ Az NCSA archívuma .
↑ Yahoo! És a Netscape .
↑ Netscape, 1996 .
↑ A verseny dinamikája, 2001 .
↑ Bevezetés a számítástechnikába .
↑ 1 2 Google előzményei .
↑ Brin és Page , p. 3.
↑ Nigma .
↑ 1 2 3 Risvik & Michelsen, 2002 , p. 290.
↑ 1 2 3 4 5 6 Tudásmenedzsment, 2011 .
↑ Tarakeswar és Kavitha, 2011 , p. 29.
↑ NMS .
↑ Statisztika .
↑ Keresőmotor piaci részesedése világszerte . StatCounter globális statisztika . Letöltve: 2020. december 21. Az eredetiből archiválva : 2020. december 10.
↑ Keresőmotor piaci részesedése világszerte . StatCounter globális statisztika . Letöltve: 2022. január 9. Az eredetiből archiválva : 2020. december 10.
↑ Naver .
↑ OII webcsapat. Internetes birodalmak kora (angol) . Információs földrajz . Letöltve: 2022. március 2. Az eredetiből archiválva : 2022. március 2.
↑ Élő Internet .
↑ Élőinternet . Letöltve: 2018. január 2. Az eredetiből archiválva : 2019. február 19. (határozatlan)
↑ Ahol az internet él .
↑ Antula .
↑ Világháló mérete .
↑ Iszlám .
↑ Halal vagyok . Letöltve: 2018. május 28. Az eredetiből archiválva : 2018. május 29. (határozatlan)
↑ ChristianNews .
↑ Pariser, 2011 .
↑ Auralist, 2012 , p. 13.
↑ Segev, 2010 .
↑ 1 2 A keresőmotorok lefedettségének elfogultsága, 2004 .
↑ A Google lecserélése .
↑ Shaping the Web, 2000 .

Irodalom

Ashmanov I. S. , Ivanov A. A. Weboldal népszerűsítése a keresőmotorokban. — M .: Williams , 2007. — 304 p. - ISBN 978-5-8459-1155-1 .
Bajkov V.D. Internet. Információ keresése. Weboldal promóció. - Szentpétervár. : BHV-Petersburg , 2000. - 288 p. - ISBN 5-8206-0095-9 .
Kolisnichenko D. N. Keresőrendszerek és webhelyek népszerűsítése az interneten. - M . : Dialektika , 2007. - 272 p. — ISBN 978-5-8459-1269-5 .
Lande DV Ismeretek keresése az interneten. - M . : Dialektika , 2005. - 272 p. — ISBN 5-8459-0764-0 .
Lande D. V., Snarsky A. A. , Bezsudnov I. V. Internet: Navigáció összetett hálózatokban: modellek és algoritmusok . — M.: Librokom (Szerkesztői URSS), 2009. — 264 p. — ISBN 978-5-397-00497-8 .
Chu H., Rosenthal M. Keresőmotorok a világhálón: Összehasonlító vizsgálati és értékelési módszertan // Proceedings of the Annual Meeting of the American Society for Information Science : folyóirat. - 1996. - 1. évf. 33 . - 127-135 . o .
Gandal, Neil. A verseny dinamikája az internetes keresőmotorok piacán. - 2001. - 20. évf. 19. - P. 1103-1117. - doi : 10.1016/S0167-7187(01)00065-0 .
Introna LD, Nissenbaum H. A Web alakítása: Miért számít a keresőmotorok politikája // Az információs társadalom: Nemzetközi folyóirat. - 2000. - Vol. 16. - doi : 10.1080/01972240050133634 .
Jawadekar, Waman S. 8. Tudásmenedzsment: Eszközök és technológia // Tudásmenedzsment: Szöveg és esetek. - Újdelhi: Tata McGraw-Hill Education Private Ltd, 2011. - P. 278. - 319 p. - ISBN 978-0-07-07-0086-4 .
Pariser E. A szűrőbuborék: Amit az internet rejteget előled. - NY: Penguin Group, 2011. - 257 p. — ISBN 978-0-14-196992-3 .
Risvik KM, Michelsen R. Search engines and web dynamics (angol) // Computer Networks : Journal. - 2002. - 20. évf. 39 , sz. 3 . - P. 289-302 . Az eredetiből archiválva : 2014. november 29.
Segev El. A Google és a digitális szakadék: Az online tudás torzításai. – Oxford: Chandos Publishing. - 2010. - 171 p. — ISBN 978-1-84334-565-7 .
Tarakeswar MK, Kavitha MD Search Engines: A Study (angol) // Journal of Computer Applications (JCA): folyóirat. - 2011. - 20. évf. 4 , sz. 1 . - P. 29-33 . — ISSN 0974-1925 .
Vaughan L., Thelwall M. A keresőmotorok lefedettségének elfogultsága: bizonyítékok és lehetséges okok // Information Processing & Management : Journal. - 2004. - 20. évf. 40. - P. 693-707. - doi : 10.1016/S0306-4573(03)00063-3 .
Zhang, Seaghdha, Quercia, Jambor. Auralist: a serendipity bevezetése a zenei ajánlásokba // ACM WSDM. - 2012. - P. 13-22 . — ISSN 978-1-4503-0747-5 . - doi : 10.1145/2124295.2124300 . Az eredetiből archiválva : 2014. november 29.
Böngészőajánlatok 7,8%-os Netscape részvényemelést // Los Angeles Times: Journal. – 1996.

Linkek

Újdonságok!: 1994. február . home.mcom.com. Letöltve: 2012. május 14. (határozatlan)
World Wide Web szerverek . W3.org. Letöltve: 2012. május 14. (határozatlan)
Egy nagyszabású hipertextuális webes kereső anatómiája . (határozatlan)
Élő Internet - Webhelystatisztika . Élő Internet. Letöltve: 2014. június 4. (határozatlan)
Arthur, Charles. A kínai technológiai vállalatok uralják a világot . The Guardian (2014. június 3.). Letöltve: 2014. június 4. (határozatlan)
A Google leváltása alternatív keresőrendszerekkel Kínában: Dokumentáció és képernyőképek . Berkman Internet és Társadalom Központ (2002). (határozatlan)
Emma Barnett. Elindul a Koogle, a kóser Google . The Telegraph (2009. június 15.). Letöltve: 2014. december 9.
A Google szerverek száma 10 millió lesz . ITUA.info. Letöltve: 2009. október 28. (határozatlan)
Világháló mérete . (határozatlan)

Szótárak és enciklopédiák	Nagy norvég Universalis
Bibliográfiai katalógusokban	J9U : 987007546957505171 LCCN : sh97007463 NKC : ph250788

Keresőmotorok és gépek _
Tábornok	Ask.com (Ask Jeeves, Teoma mechanizmus ) Blekko Cuil (zárt) DuckDuckGo Exalead Gigablast Google Bing (élő keresés/MSN keresés) Qwant Jehu! Keresés Inktomi AltaVista (zárva) Alltheweb ) Yandex.Search Aliweb Lycos
Regionális	Accoona (Kína/USA) Alleba (Fülöp-szigetek) Ansearch (Ausztrália/USA/UK/Új-Zéland) Kikötő (Oroszország, zárva) Daum (Dél-Korea) Guruji.com (India) [email protected] (Oroszország) Maktoob (Bl. East) META (Ukrajna, zárva) Miner.hu (Magyarország) Najdi.si (Szlovénia) Onkosh (Bl. East) Rambler-Poisk (Oroszország, zárva) Rediff (India) SAPO (Portugália) Search.ch (Svájc) Sesam (Norvégia/Svédország) Seznam.cz (Cseh Köztársaság) Szputnyik (Oroszország, zárva) Walla! (Izrael)
vezetők	Baidu (Kína) Naver (Dél-Korea) Jehu! Japán (Japán) Yandex.Search (Oroszország)
Tematikus	TinEye UniPage Lexxe Topsy FindBook.ru
Metakeresés	AskNet Brainboost Clusty Dogpile specificus.ru Ecosia Izgat FarSEER hotbot info.com Ixquick Krozilo Mama Metacrawler MetaLib Nigma (zárva) Számtalan keresés oldallépés Szörfviasz Turbo10 webrobot GlobalFileSearch
nyitott / ingyenes	DataparkSearch Egothor Gonzui Grub ht://dig sáska Keresek Lucene Lemur Toolkit és Indri keresőmotor mnoGoSearch Namazu Nutch OpenFTS Sciencenet (tudományos, YaCy technológián alapuló ) Wikia keresés Szfinksz SWISH-E Terrier keresőmotor Xapian YaCy Zettaair VuFind
Baba	AGAKIDS (Oroszország) Ask Kids (Egyesült Királyság) Frag Finn (Németország) Kids AOL (USA) Kids Yahoo! (USA) Quintura Kids (Oroszország) Yandex család (Oroszország) Gogul (Oroszország)

Web és weboldalak
globálisan	A világháló Web 1.0 Web 2.0 Web 3.0 szemantikus web Neuronet
Helyileg	Weboldal Portál oldal Szolgáltatás Gyűrű
Webhelyek és szolgáltatások típusai	Virtuális atlasz banner hálózat Könyvtár Blog ( platform ) Videó tárhely Wiki Névjegykártya oldal Kérdés válasz Könyvjelzők társkereső szolgáltatások böngészős játék Erőforrás-könyvtár Online áruház mikroblog híroldal Keresőrendszer pornó oldal Webes levelezés Közösségi háló Tumblelog BitTorrent nyomkövető Fájltárhely Fórum Szolgáltatás Képtábla Fotótárhely Csevegés
Alkotás és karbantartás	Fő Fejlődés Tervezés Elrendezés Programozás használhatóság Interakciós tapasztalat Weboldal promóció Keresőoptimalizálás (SEO) Tárhely Rendszergazda Moderátor fiók Engedélyezés
Elrendezések, oldalak, webhelyek típusai	Statikus Dinamikus Rögzített Radír dinamikusan rugalmas Adaptív
Műszaki	web szerver Böngésző DNS CMF CMS HTTP ( válaszok fejlécek ) SPDY QUIC CGI HTML XHTML css PHP JavaScript DHTML aprósütemény DOM XML AJAX JSON Vaku RSS atom besúgó Mikroformátum favicon.ico _ robots.txt Webhelytérképek az oldal térképe .htaccess
Marketing	Internetes marketing Internetes reklámozás Transzparens kontextuális reklámozás Bevezető Cyberguggolás
Társadalom és kultúra	Blogoszféra Internetes közösség ( kerület ) Hálózati irodalom

Információk keresése az interneten
Eszközök	Keresőrendszer Metakereső motor keresőmotor
Indexelés	Index keresése Indexelés a keresőkben Kereső robot Robot kivétel szabvány
Kérés	Keresési lekérdezés Lekérdezési nyelv
keresési eredményeket	Keresési eredményoldal Körű Relevancia PageRank Keresőoptimalizáció
Egyéb	Függőleges keresés Információszerzés közösségi keresés Search Marketing opensearch Weboldal archiválás Offline böngésző WAIS