Motor de căutare – Web-ul în 100 de paşi

ianuarie 5, 2023

În primele zile ale web-ului, Tim Berners-Lee a realizat o listă de site-uri web pe serverul web CERN. Asta funcţiona bine la începutul anului 1992, când existau doar 26 de site-uri. Până la sfârșitul anului 1994 aveam deja peste 10.000. Lumea avea nevoie de un motor de căutare. Aşadar, astăzi vom vorbi despre istoria lor, vom vedea care a fost primul motor de căutare, cine l-a inventat şi care este în prezent cel mai utilizat motor de căutare. 😀

Ce înseamnă motor de căutare?

Un motor de căutare este un program software de preluare a informațiilor care descoperă, parcurge, transformă și stochează date pentru a le prezenta ca răspuns la întrebările utilizatorilor. Pe scurt, intri pe un astfel de program, cum ar fi Google, introduci nişte cuvinte cheie – reţetă de brioşe, de exemplu – iar motorul de căutare îţi găseşte o mulţime de rezultate pentru căutarea ta. 😁

Un motor de căutare este format în mod normal din patru componente: interfața de căutare, crawler (cunoscut și sub numele de spider sau bot), indexer și baza de date. Crawler-ul traversează o colecție de documente, deconstruiește textul documentului și atribuie surogate pentru a fi stocate în indexul motorului de căutare. Motoarele de căutare online stochează, de asemenea, imagini, date de legătură și metadate pentru document.

Motor de căutare - diferite exemple

Memex sau ce a fost înainte primului motor de căutare

Deşi am mai vorbit despre Memex aici, hai să recapitulăm puţin. Asta ne va ajuta să înţelegem mai bine povestea motoarelor de căutare.

Conceptul de hypertext și de extensie a memoriei își are originea într-un articol publicat în The Atlantic Monthly în iulie 1945, scris de Vannevar Bush, intitulat As We May Think. În acest articol, Vannevar a îndemnat oamenii de știință să colaboreze pentru a contribui la construirea unui corp de cunoștințe pentru întreaga omenire. El a propus apoi ideea unui sistem de stocare și recuperare a memoriei asociative, practic nelimitat, rapid, fiabil și extensibil. El a numit acest dispozitiv memex.

Bush a considerat noțiunea de “indexare asociativă” drept contribuția sa conceptuală cheie. După cum a explicat el, aceasta era “o dispoziție prin care orice element poate fi determinat să selecteze imediat și automat un altul. Aceasta este caracteristica esențială a memex-ului. Procesul de legare a două elemente împreună este cel mai important lucru.”

Toate documentele utilizate în memex ar fi sub formă de copii pe microfilm achiziționate ca atare sau, în cazul documentelor personale, transformate în microfilm de către aparatul însuși. Memex ar folosi, de asemenea, noi tehnici de regăsire bazate pe un nou tip de indexare asociativă a cărei idee de bază este o dispoziție prin care orice element poate fi determinat să selecteze imediat și automat un altul pentru a crea “trasee” personale prin documente legate între ele.

Noile procedee, pe care Bush le-a anticipat pentru a facilita stocarea și regăsirea informațiilor, vor duce la dezvoltarea unor forme complet noi de enciclopedie.

Vannevar Bush şi Memex, ce a stat la baza primului motor de căutare

Istorie

Primul motor de căutare a fost dezvoltat înainte de Web. „Archie” (prescurtarea de la „arhivă”) căuta site-uri FTP – File Transfer Protocol – pe internet. Au urmat și alte motoare de căutare, dar abia în 1995 a apărut un motor care a accesat cu crawlere, a indexat și a clasat site-urile web. Până în 1997, AltaVista era cea mai populară pagină de pe Web și gestiona peste 20 de milioane de interogări pe zi.

O serie de alte motoare de căutare au urmat modelul AltaVista. Excite, Infoseek, Lycos și Magellan returnaau toate rezultate bazate pe cuvinte cheie. Cu toate acestea, până în 1998 existau milioane de site-uri web, iar căutarea era îngreunată. Aşadar, Yahoo! a început să folosească oameni pentru a-și crea directorul de căutare.

Câțiva studenți din Standford, Sergey Brin și Larry Page, au văzut o oportunitate. Modelul Yahoo! a fost nesustenabil și bazarea pe cuvinte cheie nu a fost suficient de precisă, dar cum altfel ar putea fi măsurate rezultatele? Brin și Page s-au inspirat din lumea academică. Valoarea unei lucrări academice este judecată după aprobarea lucrării sau de câte ori se face referire la lucrare.

Pe hârtie, cele menționate apar ca note de subsol. Pe Web, ele apar ca link-uri. Cei doi studenți au venit cu algoritmul PageRank, clasificând rezultatele în funcție de numărul de linkuri primite, mai degrabă decât de numărul de cuvinte cheie. Un site beta (de încercare), rulat din garajul unui prieten, a început instantaneu să aducă rezultate mai bune decât motoarele de căutare comerciale. Viitorul Web-ului sosise. Se numea Google.

Realizarea unui motor de căutare mai inteligent este în desfășurare, cu Google în top. Mai întâi a fost căutarea semantică, bazată pe comportamentul anterior. Apoi a fost căutarea socială, bazată pe ceea ce caută prietenii tăi. Acum, cu Google Glass, există căutare augmentată, unde Google poate vedea și auzi, precum și citi.

Motorul de căutare Baidu se menține în China, în timp ce Yandex este în top în Rusia, dar Google este încă motorul de căutare ales pentru nouă din zece persoane din întreaga lume. Indiferent de viitorul căutării, poţi fi sigur că Google și algoritmul său PageRanks vor rămâne relevante.

Motor de căutare - cele mai utilizate, pentru diferite scopuri

Categorii de motoare de căutare

Motor de căutare web

Motoarele de căutare concepute în mod expres pentru căutarea în pagini web, documente și imagini au fost dezvoltate pentru a facilita căutarea într-o mare masă de resurse nestructurate. Acestea sunt proiectate să urmeze un proces în mai multe etape: parcurgerea stocului infinit de pagini și documente, indexarea cuvintelor de tip “buzzword” într-un fel de formă semistructurată (bază de date sau ceva de genul acesta) și, în cele din urmă, rezolvarea intrărilor/interogărilor utilizatorului pentru a returna rezultate în mare parte relevante și link-uri către acele documente sau pagini din inventar.

Crawl

În cazul unei căutări exclusiv textuale, primul pas în clasificarea paginilor web este găsirea unui “element de index” care ar putea fi legat în mod expres de “termenul de căutare”. În trecut, motoarele de căutare începeau cu o listă mică de URL-uri ca așa-numită listă de bază, preluau conținutul și analizau legăturile de pe acele pagini pentru a găsi informații relevante, care ulterior furnizau noi legături. Procesul era extrem de ciclic și continua până când se găseau suficiente pagini pentru a fi utilizate de utilizator.

În prezent, se folosește o metodă de căutare continuă. Metoda crawl este o extensie a metodei menționate mai sus. Cu excepția faptului că sistemul nu se oprește niciodată din căutat.

Cele mai multe motoare de căutare folosesc algoritmi de programare sofisticați pentru a “decide” când să reviziteze o anumită pagină. Acești algoritmi variază de la un interval de vizitare constant, cu o prioritate mai mare pentru paginile care se schimbă mai frecvent, până la un interval de vizitare adaptiv, bazat pe mai multe criterii, cum ar fi frecvența modificărilor, popularitatea și calitatea generală a site-ului. Viteza serverului web pe care rulează pagina, precum și constrângerile legate de resurse, cum ar fi cantitatea de hardware sau lățimea de bandă, sunt de asemenea luate în considerare.

Viitorul motoarelor de căutare

Este probabil ca motoarele de căutare și companiile care le dezvoltă să utilizeze noi tehnologii pentru a îmbunătăți acuratețea, relevanța și calitatea răspunsurilor oferite de motoarele de căutare. De asemenea, acestea vor utiliza tehnologii avansate, cum ar fi inteligența artificială, pentru a îmbunătăți experiența utilizatorilor în viitor. De exemplu, un utilizator ar putea, într-o zi, să poată încărca o fotografie a unui computer pe Google, să întrebe “Este acesta un calculator bun pentru jocuri?” și să primească un răspuns atent și nuanțat.

Este probabil ca Google să continue să păstreze majoritatea pieței de căutare. Având în vedere acest lucru, companiile SEO se pot aștepta ca Google să continue să își actualizeze periodic algoritmul principal al motorului de căutare. Google face acest lucru pentru a împiedica aceste companii să optimizeze conținutul pentru un anumit algoritm.

Cu toate acestea, în viitor ar putea apărea mai multe motoare de nișă pentru a oferi specificitatea și confidențialitatea pe care mulți utilizatori percep că Google nu le are. Utilizatorii ar putea să se orienteze către instrumente de căutare care oferă o confidențialitate sporită sau o calitate mai bună prin indexarea doar a unei părți a internetului.

Unii experți consideră, de asemenea, că utilizarea motoarelor de căutare este în declin deoarece, în viitor, mai multe căutări de informații vor avea loc pe alte aplicații și site-uri de socializare, cum ar fi Facebook, TikTok și LinkedIn.

Acesta a fost şi articolul de astăzi. Dacă ţi-a plăcut, nu uita să arunci un ochi pe blog-ul nostru, pentru mai multe articole, mai ales pe categoria Web-ul în 100 de paşi! Mai mult, ne găseşti şi pe TikTok, şi pe Instagram. Pe data viitoare! 😀

0 Comentarii

0 Comentarii

Înaintează un Comentariu

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Alte Articole

Ecommerce – Web-ul în 100 de pași

Ecommerce – Web-ul în 100 de pași

Odată cu apariția Internetului, o mare parte din viața noastră de zi cu zi s-a mutat în online. Dacă înainte ne puteam face cumpărăturile doar fizic, acum găsim online absolut orice poftim, la orice oră din zi sau noapte. Și toate acestea datorită ecommerce-ului, care...

Job în programare. Merită să faci facultate?

Job în programare. Merită să faci facultate?

Cum să înveţi programare? Vrei să înveţi programare dar nu te-ai convins încă dacă chiar merită? Ei bine, dacă ştii programare, reprezinţi clar o resursă valoroasă pentru angajatori. Mai mult, poți chiar lucra independent. Pe măsură ce industria de programare creşte,...

Meme – Web-ul în 100 de pași

Meme – Web-ul în 100 de pași

 Data trecută am vorbit despre conținutul viral, iar dacă ai citit articolul, probabil îți amintești de faptul că, printre exemple de conținut viral se numărau și meme-urile. Ei bine, ele au devenit o parte așa importantă din viața noastră încât dedicăm un articol...