La riposte de Google
Google est engagé dans une guerre. C’est une guerre contre le spam. Avec de nouvelles stratégies et de nouveaux filtres prêts à être mis en place, le moteur de recherche ajoute presque quotidiennement une nouvelle puissance de feu à son arsenal. Les webmasters et les consultants SEO sont terrifiés; craignant ce que l’avenir leur réserve. Mais pour ceux d’entre nous qui croient en la cause, l’avenir n’est pas effrayant. En fait, l’avenir s’annonce très brillant.
Mon fils de dix ans est fasciné par la guerre. Il a une douzaine de seaux pleins d’hommes de l’armée et fait de tout un champ de bataille: la cuisine, ma chambre et même la salle de bain. Il a un nouveau casque de vélo vert armée. Pour Halloween, quand les autres enfants étaient Spiderman et Batman, il était soldat. Il joue constamment à des jeux informatiques comme Soldiers of WWII et Battlefield 1942; il transforme même des balais et des vadrouilles en armes pour combattre l’ennemi invisible. La guerre est tout ce dont il parle. Il aime les films comme Saving Private Ryan, Pearl Harbor et Platoon. Il en sait plus sur les deux guerres mondiales et le Vietnam, alors j’espère jamais, ou je veux bien savoir. Son obsession de la guerre m’a fait réfléchir à la façon dont cela s’appliquait à ce que je fais chaque jour. Qu’est-ce que le SEO et la guerre ont en commun? Plus précisément, comment Google met-il en œuvre des stratégies qui déclarent la guerre au spam?
Le référencement est une lutte constante pour obtenir les sites Web de nos clients au sommet. Nous combattons les mauvaises sociétés de référencement qui nous font mauvaise réputation, les publicités flagrantes qui prétendent pouvoir faire ce que nous faisons pour seulement 29 $ en soumettant votre site à mille moteurs de recherche, et d’autres petits ennuis qui apparaissent tous les jours. Même quand même, mes petites batailles ne sont vraiment rien quand on le compare à la guerre que Google mène. L’objectif numéro un de Google est d’apporter au visiteur les résultats les plus pertinents possibles dans un moteur de recherche. Cela signifie filtrer et trier toutes les ordures, afin que vous, le visiteur, n’ayez pas à le faire.
« C’est une course aux armements », a déclaré Steve Linford, directeur du projet londonien SpamHaus. « Plus nous bloquons (spammeurs), plus ils essaient de contourner les techniques. » Le projet SpamHaus est une organisation à but non lucratif qui publie des informations sur les groupes derrière la majorité des e-mails non sollicités et tient à jour une liste de « trous noirs » des domaines à partir desquels les spammeurs opèrent. Le spam représentait au moins un e-mail sur quatre qu’une entreprise a reçu en 2002. Le site Web du procureur général des États-Unis contient une page entière sur le sujet. « Près de 45% de tous les e-mails sont désormais du spam et ce nombre augmente chaque année. Près de trois billions de spams sont envoyés chaque année, soit 13 fois le nombre total de messages envoyés par le service postal américain. L’Américain câblé moyen est touché par près de 2 200 des spams chaque année – ceci après que la plupart des FAI ont filtré 80 à 90% des messages indésirables. Certains rapports indiquent que ces chiffres pourraient augmenter de cinq fois dans un avenir proche. »
La société d’études de marché Gartner Inc. estime que leur entreprise de plus de 10 000 employés souffre d’une perte de productivité de plus de 13 millions de dollars en raison du spam généré en interne. Ce n’est qu’un spam par e-mail. Jetez le spam sur Internet, et c’est une énorme perte de productivité. Cela entraîne des pertes financières pour les entreprises car elles doivent acheter davantage de logiciels de haute technologie tels que les bloqueurs de spam et les suppresseurs de logiciels espions, et cela pèse sur les serveurs système et la bande passante.
Google définit le spam Internet comme toute information ou propagande indésirable pouvant avoir été reçue par le biais de mesures trompeuses de la part de l’expéditeur. Pour un moteur de recherche, le spam est un lien hypertexte qui vise à induire le moteur de recherche en erreur. On estime que 80% des résultats de recherche pour toutes les expressions de mots clés entrées dans un moteur de recherche sont considérés comme du spam.
Pendant la Seconde Guerre mondiale, le terme de propagande a gagné la connotation négative en raison de tromperies destinées à décourager ceux qui étaient sur les lignes de front par l’Allemagne nazie. Des soldats et des citoyens ont été constamment bombardés de cette nouvelle arme psychologique. La plupart de la propagande en Allemagne a été produite par le ministère des Lumières publiques et de la Propagande, ou PROMI. Joseph Goebbels a été placé à la tête de ce ministère peu de temps après la prise de pouvoir d’Adolf Hitler en 1933. Hitler a été impressionné par le pouvoir de la propagande alliée pendant la Première Guerre mondiale et pensait qu’elle avait été la principale cause de l’effondrement du moral et des révoltes en Allemagne. le front intérieur et la Marine en 1918. Les nazis n’avaient aucun scrupule moral à propager une propagande qu’ils savaient eux-mêmes aux faux et, en fait, diffuser délibérément de fausses informations faisait partie d’une doctrine connue sous le nom de « Big Lie », la théorie dont il a parlé dans son livre, Mein Kampf. Dans Mein Kampf, Hitler a écrit que les gens croyaient que l’Allemagne avait été vaincue sur le terrain lors de la Première Guerre mondiale en raison d’une technique de propagande utilisée par des juifs influents dans la presse allemande.
« Les aviateurs britanniques et alliés ont été dépeints comme des assassins lâches et des Américains en particulier comme des gangsters dans le style d’Al Capone. En même temps, la propagande allemande cherchait à éloigner les Américains et les Britanniques les uns des autres, et ces deux belligérants occidentaux des Soviétiques. » – Propagande de la Seconde Guerre mondiale () La propagande a été efficace dans une certaine mesure; cependant, il a été répudié par la propre doctrine positive et véridique des puissances alliées.
Maintenant, le terme de propagande a fini par signifier « des informations qui sont diffusées dans le but de promouvoir une cause, telle qu’une doctrine dans une guerre ». Il est ironique que Google ait utilisé ce mot lorsqu’il a défini le spam Internet.
Google a déposé le terme « TrustRank » et travaille sur un nouveau modèle de suppression de spam qu’ils expliquent dans ce que les affiches du forum appellent le Livre blanc de Stanford. « Les pages de spam Web utilisent diverses techniques pour obtenir des classements supérieurs aux mérites dans les résultats d’un moteur de recherche. Bien que les experts humains puissent identifier le spam, il est trop coûteux d’évaluer manuellement un grand nombre de pages. Au lieu de cela, nous proposons des techniques semi-automatiques séparer les bonnes pages réputées du spam. Nous sélectionnons d’abord un petit ensemble de pages sources à évaluer par un expert. Une fois que nous avons identifié manuellement les pages sources fiables, nous utilisons la structure de liens du Web pour découvrir d’autres pages susceptibles d’être good. Dans cet article, nous discutons des moyens possibles de mettre en œuvre la sélection des semences et la découverte de bonnes pages. Nous présentons les résultats d’expériences menées sur le World Wide Web indexé par AltaVista et évaluons les performances de nos techniques. Nos résultats montrent que nous pouvons efficacement filtrer le spam provenant d’une fraction importante du Web, sur la base d’un bon ensemble de semences de moins de 200 sites. » Cela provient d’un résumé de 12 pages, intitulé « Combattre le spam avec TrustRank », sur le site Web de l’Université de Stanford qui décrit la méthodologie du TrustRank.
En résumé, TrustRank est un moyen de réduire le spam et de filtrer le contenu qui n’est pas pertinent pour le chercheur afin de leur apporter les résultats qu’ils souhaitent vraiment, en marquant les bons sites avec un indice de confiance élevé et en marquant les sites de spam comme douteux, y compris tout site lié à ces sites délimités. Le résumé de Google dit: «Les éditeurs humains aident les moteurs de recherche à lutter contre le spam des moteurs de recherche, referencement gratuit mais l’examen de tout le contenu n’est pas pratique. serait considéré comme du spam. Cette confiance est atténuée vers d’autres sites grâce aux liens des sites de départ. » Le célèbre PageRank de Google semble avoir perdu son sens, car les sites peuvent facilement produire des liens en arrière ou les acheter, ce qui va à l’encontre de l’objectif du PageRank. À mon avis, TrustRank est plus logique. Cela rend un webmaster plus prudent avec qui il ou elle se connecte en premier lieu, rendant les liens de retour plus difficiles à obtenir, mais valent bien la récompense une fois qu’ils sont gagnés.
Une autre façon dont Google lutte contre le spam sur Internet s’appelle « l’effet Sandbox ». L’effet Sandbox est essentiellement un retard de quelques mois une fois qu’un site est araignée avant d’être indexé. Parfois, un nouveau site peut initialement recevoir un classement élevé dans les moteurs de recherche, puis tomber dans l’obscurité des moteurs de recherche. Ils peuvent ne pas recevoir de classement de page et peuvent être pratiquement invisibles dans les moteurs de recherche jusqu’à 120 jours. Bien que cela puisse sembler une pénalité pour les nouveaux propriétaires de sites Web, surtout s’ils ne connaissent pas les nouveaux filtres ou comment ils fonctionnent et pourquoi, c’est la façon dont Google lutte contre le spam. Leur méthodologie est que dans le « bac à sable » (nommé ainsi pour l’analogie d’un groupe de nouveaux enfants jouant ensemble dans le bac à sable loin des adultes), les spammeurs ne verront pas les résultats de leurs efforts dans le moteur de recherche, et peuvent éventuellement être trompé en leur faisant croire qu’ils ont été pris ou que leurs efforts ont été vains. Google espère que les spammeurs abandonneront et s’en iront. En temps de guerre, nous appelons cette technique flanquante, dans l’espoir d’attraper l’ennemi par surprise en revenant derrière leur ligne, ce qui les fait paniquer ou se retirer. Le résultat souhaité de l’effet Sandbox est que les spammeurs feront probablement les deux: paniquer et se retirer; ou mieux encore, rendez-vous. Le flanquement est l’un des plans d’attaque les plus efficaces et les plus difficiles à réaliser, car il nécessite de la finesse, du secret et la capacité de connaître les mouvements de votre ennemi avant eux.