Tag Archives: search

Real-Time is Burying History on the Web

[fr]

Notre obsession pour le temps présent en ligne et la vitesse handicape grandement nos outils de recherche quand il s'agit d'explorer notre passé numérique. A lire, l'article de Suw Sacrificing Web History on the Alter of Instant, un compte-rendu consternant de l'état lamentable de nos outils de recherche pour la passé récent (l'éruption du volcan Eyjafjöll, en l'occurrence).

Plus près du commun des mortels peut-être que ces considérations d'historiens du web: Twitter ne nous donne accès qu'à nos 3000 tweets les plus récents. Les autres sont là, archivés, même en ligne si on connaît leur URL -- mais inaccessibles même à leur producteur.

[en]

I am somebody who believes that history is an extraordinarily important asset in trying to understand our present. Unfortunately, when we are too focused on the future, and innovation, and moving ahead, it’s very easily to neglect history.

I’ve seen it as a characteristic of developing countries (sweeping generalization here, stop me if I’m wrong), with the thoughtless chopping down of centenarian trees and bulldozing of historical monuments in Bangalore. What’s important is where we’re going — we don’t really care about where we came from, and in some cases, would rather forget.

And we’re seeing it now in the hyper-technological cutting-edge world of the internet, where web history is being sacrificed on the altar of instant (do read Suw Charman‘s excellent post and then come back here).

A year and a bit ago, the theme of LeWeb’09 in Paris was “Real-Time Web”, and indeed, everybody was a-buzz with everything real-time. So much so that I had to give that year’s official bloggers a little wake-up call (I blogged it later) a day before the conference, because I was hearing increasingly worrisome comments (to my “official bloggers’ mom” ears) along the lines of “well, I actually don’t think I’ll blog much this year, I’ll mainly be tweeting”. I was interviewed about something along the lines of “curating the real-time stream” by my friend Cathy Brooks (there’s a priceless moment in that video, watch it), and overall, everything was about now, now, now, now now nownownownownownow.

I’m tired of real-time.

It feels to me as if we’re driving with our nose in the steering-wheel, never stopping long enough to look behind us and see what road we’re on and where it’s really heading. I’ve noted over the last year or so that a lot of our content is migrating into these real-time flowy presency streamy services, and that some of the precious tools we had to make sense of our online publications are all but dead, like Technorati.

But link rot aside, it’s all still there online. And that makes it all the more frustrating to know that we just don’t have a way of getting to it in a useful way, as Suw describes very well in her article. In response, Reg Chua points out that search is skewed towards speed and the present — a perfect corollary to our obsession with real-time and progress.

My tweets from day 1 (December 8, 2006 with a lot of enthusiasm) are still online somewhere. Here’s the oldest one I could lay my hands on (the podcast in question was Fresh Lime Soda), thanks to the wayback machine (if you go down that alley, note how we get a peek at what early tweeting was like in pre-hashtag times). It makes it all the more maddening that they are impossible to access if I don’t have a link to them. Twitter has them, they’re there, but they’re not organized in a way that makes them of any use.

Sidenote: this blog post is moving from “lack of access to general online history” to “lack of access to personal online history”, which is a subset of the problem.

Within that “personal online history” subset of the problem, let me state that I find it a disgrace that Twitter will not even let its users download a copy of their own data in the service, barring the last 3000 tweets.

I understand the need to restrict access to the huge number of tweets in the database for general use. I get that. But I don’t get why I should not be able to do a one-time download of what I put in the service.

I hate the expression data theft because when you take data, you always leave a copy somewhere (and theft removes the copy), but in this case, this is what it feels like. Twitter has my data and can do stuff with it, and I can’t. That just doesn’t feel right. (And don’t wave the “Twitter is free, don’t complain” argument in my face: just like Suw, I would be more than ready to pay for Twitter as a service, but they won’t let me.)

Away from Twitter and back to our obsession with real-time and what it is doing to our history: where are the online historians? who is going to build the tools we need to dig through the tremendous wealth of data online? the buzzword of 2011 seems to be “curator”: well, we don’t just need curators to avoid getting knocked over by the firehose of the real-time web — we also need curators (preferably machines) to help us organise and sort through our online history.

 

Similar Posts:

Posted in Thinking, Tools | Tagged history, real-time, Research, search, tools, twitter, web | 3 Comments

Idea: Working as a Freelance Researcher

[fr]

Inspiration du jour: je songe à diversifier mes activités professionnelles dans le domaine de la recherche freelance (enfin, je ne suis pas sûre que c'est comme ça qu'on appelle ça en français).

Imaginons qu'une entreprise ait besoin que quelqu'un recueille des informations sur un certain sujet -- par exemple, une startup qui veut faire l'inventaire de la competition ou des services similaires (pas certaine que ce soit un bon exemple, mais pourquoi pas). J'adore depuis toujours explorer de nouveaux sujets, apprendre, comprendre tout ce qu'il y a à comprendre (dans le domaine du raisonnable!) sur quelque chose, et rendre compte de mes découvertes. J'apprends très vite, je sais chercher des informations de façon efficace en ligne et hors ligne, j'ai un super réseau... Il me semble que j'aurais le bon profil pour ce genre d'activité.

Maintenant, est-ce qu'il y a un marché pour ça? Comment l'atteindre? Vos réflexions sur le sujet m'intéressent.

[en]

I had planned taking today off, but as I’m up to my neck in work I decided to spend it in the office instead. Result (don’t mess with yourself when you promise yourself time off): I’ve spent most of my morning down the blog-hole — reading a ton of interesting things online, particularly on Penelope Trunk’s blog. (Yeah, I know not everybody likes her, but I do. More on that another day, maybe.)

So, as I was reading blogs, sharing snippets on Tumblr and links on Twitter, I was thinking to myself: actually, one thing I’m pretty good at (and love doing) is finding and reading interesting stuff, thinking about it, and sharing all that with other people. (For those of you familiar with StrengthsFinder: my #1 is Input and my #2 is Communication — more about that another day, too.)

I pinged Suw on IM to see if she had any ideas how to “monetize” (still hate the word) this kind of activity. She suggested working as a researcher.

I like the idea. Need your homework done on something? I love learning about new stuff, I know how to search online, I have a great network, I’m smart (let’s say it), and I know how to write stuff up. Think of it, a lot of my popular blog posts are the result of me taking the plunge into a topic, learning about it, and reporting back. And for anything related to social media, I have the huge advantage of already knowing a lot.

This doesn’t mean I’d be giving up my current activities. But I’m getting increasingly frustrated that I don’t have time anymore to fool around online, research stuff, read more books, learn about this space we inhabit — online and offline.

Do you know anybody who works as an online researcher? Would you hire me as a researcher? (Not asking if you need my services as of now, but more “do you think I have the profile?”) If I decide to provide this kind of service, how might I go about to (a) decide what to charge (b) find gigs?

This is a very fresh idea for me, and I’d gladly welcome any thoughts you may have on the subject. As for me, I’m off to do some research on… freelance researchers :-) .

Similar Posts:

Posted in Being the boss, Social Media and the Web | Tagged career, freelance, gig, idea, Research, researcher, search, Social Media and the Web | 10 Comments

Google: quelques trucs pratiques

[en]

I write a weekly column for Les Quotidiennes, which I republish here on CTTS for safekeeping.

[fr]

Chroniques du monde connecté: cet article a été initialement publié dans Les Quotidiennes (voir l’original).

La grande majorité des gens ne savent pas utiliser un moteur de recherche. Enfin, pas efficacement. Le moteur de recherche, c’est la porte d’entrée de l’internet-bibliothèque, et il est à mon avis indispensable aujourd’hui de savoir s’en servir de façon compétente.

La recherche est un art, et comme pour tout art, la maîtriser prend du temps. Quelques conseils, cependant.

  • prenez un moment pour comprendre comment fonctionne un moteur de recherche: ce n’est pas de la magie — le moteur de recherche prend les mots que vous tapez dans la boîte, et cherche les pages qui les contiennent, en les hiérarchisant à l’aide d’un algorithme complexe
  • les mots clés ne sont pas des incantations ou des formules magiques; imaginez la page que vous cherchez: quels mots pensez-vous qu’elle contient, et qui pourraient la distinguer d’autres pages qui ne vous intéressent pas?
  • essayez avec plus de mots clés (recherche précise) mais aussi avec moins de mots-clés
  • apprenez à combiner les mots clés à l’aide des opérateurs (“AND” entre deux mots impose que les deux soient présents; le signe moins devant un mot indique que vous ne désirez pas que celui-ci figure dans les résultats; mettre une expression entre guillemets l’utilisera telle quelle, en un bloc; etc.)

Souvent, pour trouver la perle rare, il faut ouvrir beaucoup de pages. Les onglets (“tabs”) vont vous venir en aide pour faire rapidement le tour de tous ces résultats.

Faites une première recherche, puis, au lieu de regarder juste les titres des pages trouvés par le moteur de recherche, ouvrez-les toutes en maintenant la touche Ctrl (sur Windows) ou Cmd (sur Mac) enfoncée. Chaque lien s’ouvrira dans un nouvel onglet. Ce n’est peut-être pas très naturel au début, mais persévérez — vous récupérerez amplement le temps ainsi investi dans les semaines à venir.

Faites une deuxième recherche, avec d’autres mots clés. Ouvrez également tous ces liens dans des onglets. Et une troisième, si nécessaire.

Une fois que vous avez épuisé votre inspiration en matière de combinaison de mots clés, ou si vous pensez qu’il y a parmi vous onglets ouverts assez de pages potentiellement intéressantes, allez faire le tour de ce que vous avez débusqué. Ctrl/Cmd+W ferme en principe l’onglet actif: il est donc assez simple d’éliminer rapidement les pages sans intérêt, après un coup d’oeil, et de passer à la suivante.

Parfois, faire le tour des onglets ouverts vous donne d’autres idées de combinaisons de mots clés: Ctrl/Cmd+T ouvre un nouvel onglet dans lequel vous pouvez taper votre nouvelle recherche, et procéder avec elle comme ci-dessus.

Bonnes recherches!

Similar Posts:

Posted in Chroniques du monde connecté | Tagged google, recherche, search | Leave a comment

Content Curation: Why I’m Not Your Target Audience

[fr]

Je suis trop efficace avec un moteur de recherche pour être très emballée par les divers outils qui visent à organiser la masse de contenu à disposition sur le web, en temps réel ou non.

[en]

In Paris, I had a sudden flash of insight (during a conversation with somebody, as often). Most services designed to help with content curation don’t immediately appeal to me because I’m not their target audience: I’m too good at using search.

I was trying to figure out why, although I liked the idea behind PearlTrees and SmallRivers (I tried them out both briefly), part of me kept thinking they weren’t really adding anything that we couldn’t already do. Well, maybe not that exactly, but I couldn’t really see the point. For example: “PearlTrees, it’s just bookmarking with pretty visual and social stuff, right?” or “SmallRivers, we already have hyperlinks, don’t we?” — I know this is unfair to both services, and they go beyond that, but somehow, for me, it just didn’t seem worth the effort.

And that’s the key bit: not worth the effort. When I need to find something I’ve seen before, I search for it. I understand how a search engine works (well, way more than your average user, let’s say) and am pretty good at using it. I gave up using bookmarks years ago (today, I barely use delicious anymore — just look at my posting frequency there). I stick things in Evernote and Tumblr because I can search for them easily afterwards. I don’t file my e-mail, or even tag it very well in gmail — I just search when I need a mail. I don’t organize files much on my hard drive either, save for some big drawers like “client xyz”, business, personal, admin — and those are horribly messy.

I search for stuff. And to be honest, now that I’ve discovered Google Web History, I’m not sure what else I could ever ask for. It embodies an old old fantasy of mine: being able to restrict a fulltext search to pages I’ve visited in a certain timeframe. “Damn, where did I put this?” becomes a non-issue when you can use Google search over a subset of the web which contains all the pages you’ve ever loaded up in your browser. (Yeah, privacy issues, certainly.)

What about the social dimension of these curation tools? Well, I’m a blogger. I blog. When I want to share, I put stuff in my blog, or Tumblr. I’m actually starting to like PearlTrees for that, because it is a nice way of collecting and ordering links — but really, I’m not the kind of person who has a lot of patience for that kind of activity. Some people spend time keeping their bookmarks, e-mails, or files in order. I don’t — there are way too many more interesting things for me to spend my time on. So I keep things in a mess, and when I need something out of them, I search.

I think I’m just not a content curator, aside from my low-energy activities like tweeting, tumblring, and blogging.

It doesn’t mean there is no need for content curation, of the live stream or more perennial content like “proper” web pages. But just like some people are bloggers and some aren’t, I think some people are curators and some aren’t.

Similar Posts:

Posted in Thinking | Tagged blogging, browser, content, curation, editing, find, google, google web history, organize, pearltrees, search, searching, smallrivers, sort | 2 Comments

Feedly: More Than a Newsreader, Maybe Your Search Engine of Tomorrow?

A bit over a year ago, I switched from Google Reader to Feedly. I have a troubled history with newsreaders: I tend to not use them, partly because I don’t really read blogs. But I used Google Reader for some time, and then Feedly. I really like Feedly. Really. (Plus, it saved 4 months of posts for CTTS after the dropped database disaster.)

All this to say that for many months, I have not really opened Feedly, and I feel kind of sad/bad about it. Twitter and Tumblr are my main sources of “new information”, and I’d love to find a way to use Feedly in a way that works for me. But it just doesn’t seem to happen.

A couple of weeks back, I saw this tweet from Ewan:

Twitter _ Ewan McIntosh: Over the hols I managed to ...

He says that he has sorted his feeds into “30 must-read-daily RSS feeds, with the other 2000 sitting behind as personal search engine”.

Whee! For some time now, I’ve been convinced that the future lies with allowing search in subsets of the web. There’s too much stuff out there, right? Also, in this era of partial attention (which I don’t consider to be a bad thing, in the “keeping a distracted eye on” sense), you often end up trying to “refind” something you know you’ve seen (but where?) — just like I had to dig out Ewan’s tweet ten days after I’d seen it in passing.

That’s why I like Lijit, for example (I’ve put the search box back here on CTTS, by the way): it allows me or my readers to do a search on “my stuff”, including CTTS, Digital Crumble, Twitter, del.icio.us… Sometimes I know I’ve said something, but I can’t for the life of me remember where (see this? having to search your own words…)

Feedly is pretty good at allowing you to search all the stuff you’ve subscribed to:

feedly | explore facebook

It offers a mix of a little bit of generally popular stuff with “your sources”. I like that. So, I like Ewan’s idea of feed subscription as “add this to my search sources” rather than “oooh, I’m going to read this every day”.

I have to say I’m interested in hearing about how you use Feedly or Google Reader (particularly the social aspects) if you’re not a “religious-daily” newsreader enthusiast. There has to be something between “keeping up with my feeds” and “never opening my feedreader”.

Similar Posts:

Posted in Social Media and the Web | Tagged feedly, feeds, google reader, lijit, rss, search, Social Software, subscription, syndication, tumblr, twitter | 2 Comments

FOWA: The Future of Search (Tony Conrad)

[fr]

Notes prises à l'occasion de la conférence Future of Web Apps (FOWA) à Londres.

[en]

Here are my live notes of this Future of Web Apps (FOWA) session with Tony Conrad, hosted by Brian Oberkirch. They are probably incomplete and may contain mistakes, though I do my best to be accurate. Chances are I’ll be adding links to extra material later on, so don’t hesitate to come back and check.

FOWA 2007 24

Brian is the original Sphere groupie. Tony is one of the Sphere founders.

Lots of blogs, but felt that nobody had made a really good job of making that content available to a more general public. => so with Toni Schneider, started Sphere in 2005.

Sphere had a promise: better, more relevant blog search.

Sphere bookmarklet: not link-based. Content relevancy. Something they threw in at the last moment, but a lot of their traffic came from there. steph-note: if I understood that right.

Day 8: OMG, we’re going to have to do something different.

Time contacts them to see if they can integrate context-related stuff to their articles. They loved it, but Tony didn’t like it: not a good user experience. People don’t want to go on a site called “Sphere.com” that they’ve never heard of. => little widget that would overlay on the page.

Ex. Reuters page. A-list publishers are getting very good at linking out, they understand the advantages (SEO + readership). Contextual link between mainstream media and social media (blogs). Widget works well for mainstream media and bloggers. (Long tail!)

FOWA 2007 27

FOWA 2007 29

The stuff in the left column and bottom of the page is generated automatically.

Overlay “window” with related content, also for blogs:

FOWA 2007 32

Over a billion article pages across the web in a year.

There is a widget now available for WordPress blogs, and one for TypePad in the advanced templates.

Issue: thinking about the scaling issues.

Different “client/users” have different requirements for what they want to filter out of their searches. Funny: CNN asking to remove the safe filter, and running lead story about “Pornification of American Culture” — Sphere did indeed find all the relevant results… and got an earful.

Publisher partners don’t want adult content.

Brian: lots of talk about how little it takes to bring a product to market, but this story is about what comes after… people scaling. 10 people now but not in the same office. steph-note: Brian, not sure I interpreted correctly what you said

Close to Automattic, which is a completely “virtual” (steph-note: I hate that term) company, meaning they’re scattered all over the place. Freedom to pick out the very best people for the job. Sphere communicate non-stop, always online, always on the phone, get together at 4-5 every Friday. At one point Tony had met 6 of the 10 people on the team, and he was the one who had met the most. So brought everybody in location in SF at some point, and it was awesome! steph-note: Matt told me they had this happen at WordCamp for Automattic this summer.

Tony: advocate of taking baby steps. Figure out an idea that’s going to be in a big space and nibble around the edges.

Brian: business model? how is this company going to make money?

Tony: Somewhat advertising-based (Brian notes there are no ads now).

Brian: is there an API?

Tony: to do an API right, and not screw people around, without conflicting with their ability to serve their partners the way they are today… steph-note: sentence that never ended…

Sphere’s focus is more at the publisher end than the long tail end (at least for the moment).

Testing people’s online collaboration skills is part of the hiring process.

Similar Posts:

Posted in Live Blogging | Tagged Events, fowa, liveblogging, search, sphere, tonyconrad | 1 Comment

Lijit Feedback

[fr]

Un peu de feedback sur Lijit, un moteur de recherche sympa qui s'organise autour du contenu en ligne d'une personne et de son réseau.

[en]

I lost the first version of this post in a Firefox crash while I was writing my post on structured portable social networks (that’s what I get for doing too much at the same time). With a bit of luck it will be better ;-)

So, as promised, here’s my feedback to Barney about Lijit. First, for those of you new to Lijit, Stowe Boyd blogged about Lijit about a week ago, which is how I discovered it. (Yes, go sign up now, but come back here to read the rest of the post when you’re done. Thanks!)

Signing up must have gone reasonably smoothly, because I don’t have any screenshots of it — which is a good start. (When I bump into any interface problem or bugginess nowadays, I quickly grab a screenshot with Skitch and upload it to Flickr with a few notes. Photographs of my online life, if you like.)

I was disappointed that I could only add my del.icio.us and MyBlogLog networks. The latter is a good addition, but how about my Twitter network? Or a blogroll on my secondary blog? CTTS doesn’t have a blogroll (pure laziness). I tried importing my network from Facebook, but it was way too creepy, I disabled it as fast as I could. I got the feeling it was going to allow people to search through my friends’ notes and stuff — as well as mine. I do take advantage of the “walled garden” side of Facebook to publish slightly more personal stuff there than “outside”, and I know I’m not alone here.

What would be really neat would be if I were able to export just the connections I have to other people from Facebook, and if they are Lijit users, import their blogs and content into my network. Think portable social networks.

Being able to import the blogs I read (they’re my “network”, aren’t they?) directly from Google Reader (filter with a tag though, so I can keep all those naughty sex blogs I’m keeping track of out of the public eye).

I used Lijit twice to find the old posts I linked back to in the post above. First, on the Lijit website itself:

Holes in my Buckets (Lijit)

Then, using the wijit I installed on my blog:

Lijit Search On Blog

That’s pretty neat. Lijit opens a “fake window” over the current page with the search results, and when I click on a link in the results, it loads in the initial browser window. Sounds obvious, but I like that it works — many ways it could have gone wrong.

I’m moderately happy about the space the wijit takes up on my blog:

Lijit Wijit on CTTS

I know companies are hungry for screen real estate (“make that logo visible!”) — but be less obtrusive and I’ll love you more! Notice that I now have Lijit search, normal Google search, and WordPress search. Way too many search boxes, but for the moment there isn’t one that seems to do the job well enough to be the only one. (Maybe Lijit, but I haven’t had it long enough…)

Stats page is neat, though I’m still totally unable to tell you what the two pie charts on the right do:

Lijit | My Stats

What on earth is Ma.gnolia doing in there?

There, that’s what’s on my mind concerning Lijit for the moment. Watch out for the screenshots if I bump into anything else!

Similar Posts:

Posted in Social Media and the Web | Tagged e-mail, facebook, feedback, ideas, import, lijit, network, Reviews, screenshots, search, sns, Social Software, socialnetwork, SPSN, stats, tools, wijit | 9 Comments

Le placement dans les moteurs de recherche

[en]

A document on how search engins function and how to improve indexing for your site, which I wrote for a client over June/July. If this interests you, you should definitely check out my notes on Matt Cutts' Whitehad SEO tips for bloggers.

[fr]

Ceci est un document rédigé pour un client en juin/juillet 2007. Un grand merci à Béatrice pour son assistance éditoriale! Si vous voulez l’imprimer et le lire tranquillement, je vous recommande de télécharger le PDF (6 pages). Ce document est distribué sous une licence Creative Commons by-nc-sa.

Introduction

On est souvent tenté de mesurer le succès d’un site internet par son placement dans les moteurs de recherche [1]. En effet, un bon placement dans les moteurs de recherche peut être un indicateur parmi d’autres du succès d’un site. Malheureusement, le fonctionnement des moteurs de recherche en général et du positionnement en particulier est difficile à comprendre et amène souvent à avoir des attentes peu réalistes en la matière, en particulier l’exigence des résultats précis pour certains mots-clés donnés.

Le positionnement dans un moteur de recherche ne peut pas être contrôlé [2]. On peut l’influencer positivement en soignant certains aspects techniques ou rédactionnels du site, mais le facteur principal dans un bon placement demeurera inévitablement la qualité du contenu.

En fait, le placement dans les moteurs de recherche est une conséquence de la popularité d’un site, et non sa cause. (Même si, bien entendu, un bon placement peut amener des visiteurs au site — mais un bon placement seul ne suffit pas.)

1. Comment fonctionne un moteur de recherche ?

1.1. Fonctionnement général

La fonction principale d’un moteur de recherche est de fournir à son utilisateur la liste des pages Internet correspondant aux mots-clés que celui-ci aura spécifiés. Généralement [3], cela revient à fournir une liste de pages contenant ces mots-clés. Cela est en soi une opération relativement simple. Ce qui est très complexe, par contre, c’est le classement de tous ces résultats afin de mettre en tête de liste les plus pertinents. L’algorithme utilisé par Google à cet effet est secret, et comprend une bonne centaine de variables. On saisit donc aisément pourquoi il n’est pas possible de contrôler sa position dans un moteur de recherche. D’ailleurs, si ça l’était, ce positionnement perdrait tout son sens…

Le premier facteur qui va influencer le placement est bien entendu le contenu de la page : les mots-clés y apparaissent-ils? Sont-ils proches les uns des autres, ou bien éloignés ? Apparaissent-ils une seule fois, ou bien plusieurs fois ? Apparaissent-ils dans le titre de la page, dans les divers titres qui organisent le contenu de celle-ci, dans le corps du texte, en gras, dans un lien, dans des citations, en haut de la page, en bas de la page… ?

Un autre facteur qui va avoir beaucoup d’influence sur “l’autorité” que Google accordera à un site Web est le nombre de liens entrants vers ce site. De plus, la provenance de ces liens a une importance : le “pagerank” (autorité) se calcule de façon circulaire. Logiquement, les liens provenant de sites dont l’autorité est déjà reconnue auront plus d’impact que des liens provenant de sites moins cotés (mais un grand nombre de liens provenant de sites peu cotés comptera également…).

Le fait de définir des “mots-clés” [4] dans les différentes pages du site était très important pour le placement dans les moteurs de recherche à une certaine époque (pré-Google). Maintenant, l’importance de ces mots-clés est très limitée, voire même nulle selon certains.

1.2. Le choix des mots clés

Lorsque l’on cherche à mesurer la performance d’un site dans Google, par exemple, on introduit dans le moteur de recherche des mots clés qui semblent pertinents par rapport au contenu du site en question. Mais ces mots-clés sont-ils ceux qu’introduiraient les personnes faisant partie du public-cible du site?

Il est en fait très difficile de deviner quels mots-clés un internaute recherchant une information donnée va introduire dans un moteur de recherche. Parfois, les gens y tapent des questions entières. Parfois juste un mot. Parfois, les mots pour lesquels ils imaginent que le site web dont ils auraient besoin aura été optimisé. Et parfois encore, l’information qu’ils tirent du site et qui a de la valeur pour eux n’est pas celle qu’imaginait l’auteur du site.

Se focaliser sur certains mots-clés n’est donc pas une stratégie très porteuse. Il vaut mieux se concentrer sur le référencement général du site et la qualité de son contenu, et laisser au moteur de recherche le soin de déterminer quels sont les mots-clés les plus pertinents pour lui.

1.3. Langue et géographie

Un moteur de recherche comme Google donne la possibilité de limiter les langues dans lesquelles la recherche est effectuée, ou de circonscrire la recherche à un pays donné. Il faut cependant prendre garde au fait que la détection de la langue ou du pays de provenance d’une page peut facilement être erronée. La langue est détectée automatiquement en analysant le contenu de la page (ce qui crée vite des problèmes lorsqu’une page contient plus d’une langue), et pour ce qui est du pays, il semblerait que la localisation physique du serveur hébergeant le site web soit déterminante.

Notons également qu’une recherche “en français” donne des résultats légèrement différents selon qu’on utilise google.fr ou google.ch.

Il ne faut donc pas trop compter sur ces distinctions qui fluctuent facilement — mais elles ont le mérite de rappeler qu’un site visant un public local est “en compétition”, pour ce qui est de la pertinence des mots-clés, avec tous les autres sites publiés dans la même langue. Les seules véritables frontières sur internet sont linguistiques.

2. Que conclure d’un placement insatisfaisant?

C’est souvent le constat d’un placement peu satisfaisant dans les moteurs de recherche qui amène à se demander ce que l’on peut faire pour l’améliorer. Il est important, tout d’abord, de ne pas perdre de vue l’élément de subjectivité que comporte un tel constat. Le placement n’est pas quelque chose d’absolu: une page va être classée en fonction de sa pertinence par rapport aux mots-clés qui ont été donnés comme critères de recherche. La sélection des mots-clés doit donc se faire très soigneusement s’ils doivent servir à évaluer d’une façon ou d’une autre si le placement est “bon”.

Les causes d’un placement insatisfaisant peuvent être multiples. Pour y remédier, il est important des les identifier correctement. Tout d’abord, il faut distinguer parmi les facteurs agissant sur le placement ceux qui sont “internes”, propres au site placé, et donc sur lesquels on peut agir, de ceux qui sont “externes”, sur lesquels on n’a pas prise.

2.1. Facteurs externes

Ils sont au nombre de deux:

  • les mots-clés choisis
  • les sites “concurrents”

Chaque site est placé dans la liste des résultats pour les mots-clés choisis par rapport aux autres sites ayant un contenu similaire (potentiellement pertinent pour les mots-clés recherchés). Obtenir un “bon placement” dans un tel cas de figure sera donc une toute autre histoire s’il s’agit d’un domaine dans lequel il existe quantité de sites ayant déjà une présence forte, ou si le domaine en question est relativement peu documenté sur internet.

2.2. Facteurs internes

Les facteurs internes influençant le positionnement d’un site sont les suivants:

  • qualité du contenu
  • mise en valeur rédactionnelle du contenu
  • mise en valeur technique du contenu

La qualité du contenu influence de deux manières le placement. Premièrement, d’une façon tout à fait mécanique, comme expliqué plus haut: la fréquence et la place des mots-clés dans le texte de la page est analysé et interprété par le moteur de recherche. Celui-ci, par contre, n’a aucun moyen d’évaluer la “qualité” d’un texte au sens où un être humain pourrait l’entendre. Cette “qualité” est en fait mesurée au nombre de liens entrants établis par d’autres créateurs de site. Ce n’est donc pas directement le moteur de recherche qui est influencé ici, mais les êtres humains qui jugeront le contenu digne ou non d’une mention sur leur site.

La “mise en valeur rédactionnelle” consiste à organiser le texte d’une façon qui tienne compte de la manière dont le moteur de recherche indexera le contenu: que va-t-on regrouper sur une même page? Quelles expressions choisir pour les titres? comment utiliser gras, liens, sous-titres de façon adéquate?

La “mise en valeur technique”, quant à elle, consiste à s’assurer qu’il n’y a pas d’obstacles techniques à la bonne indexation du site et à la création de liens vers les différentes pages qu’il comporte. Par exemple, on évitera les cadres (“frames”), les liens en javascript, le balisage non sémantique, etc.

Lorsque le référencement n’est pas satisfaisant, il convient donc de repérer dans quel domaine les améliorations doivent être faites. Pour ce faire, on regardera dans l’ordre:

  • les aspects techniques
  • les aspects rédactionnels
  • le contenu proprement dit.

En effet, s’il y a des obstacles techniques majeurs à une bonne indexation, il ne sert à rien de s’acharner à améliorer la qualité ou l’intérêt du contenu. Celui-ci est peut-être parfaitement adéquat, mais il n’est simplement pas mis correctement en valeur. Une fois que la qualité technique du site est assurée, on peut s’intéresser à la technique de rédaction, par exemple en améliorant la façon dont les titres sont choisis, ou en optimisant la façon dont le contenu est organisé sur les diverses pages du site.

C’est seulement une fois ces questions techniques réglées (du moins pour ce qui est des grandes lignes) que l’on peut réellement évaluer si la qualité proprement dite du contenu est en cause. Et à ce moment-là, il est important d’inclure dans l’évaluation les facteurs extérieurs comme la place occupée par les autres sites consacrés à des sujets similaires.

3. Que faire pour améliorer le placement général ?

Encore une fois, la chose principale à faire pour avoir un bon placement est d’avoir un contenu de qualité. En effet, les algorithmes des moteurs de recherche visent à mettre en avant les pages qui sont utiles aux gens faisant les recherches — le contenu est donc primordial.

Les créateurs de sites peuvent ensuite aider les moteurs de recherche à indexer correctement leur contenu en prenant garde à certains points:

Aspects techniques :

  • utiliser un balisage HTML propre et sémantique
  • prévoir une architecture de site qui encourage les autres propriétaires de sites à faire des liens vers différentes pages de celui-ci
  • créer suffisamment de liens entre les différentes parties du site pour permettre une navigation facile (particulièrement dans le corps du texte lorsque cela est pertinent)
  • utiliser un schéma d’URL “sympathique” pour les moteurs de recherche
  • éviter les frames (cadres), les images représentant du texte et les liens en javascript.

Aspects rédactionnels :

  • structurer les pages avec titres et sous-titres
  • choisir des titres qui contiennent des mots-clés en adéquation avec le contenu de la page.

On notera qu’il y a deux sortes de “bon placement”: l’autorité que Google confère à une page de façon générale, ou “PageRank” [5], et la position dans laquelle cette page se trouvera pour la recherche de mots-clés précis.

Une page peut avoir un très bon PageRank mais être mal placée pour une recherche selon certains mots-clés. Cela peut être le cas parce que ces mots-clés n’occupent pas une place assez prédominante (au sens de Google) dans la page, voire n’y figurent pas (!). Mais aussi, d’autres sites existent peut-être dont le contenu relatif à ces mots-clés est plus pertinent. Cette pertinence apparaîtra (aux yeux du moteur de recherche) à travers la place qu’occupent ces mots-clés dans le contenu de la page en question et des pages proches, et surtout à travers les liens entrants vers cette page: le texte de ces liens utilise-t-il régulièrement ces mots-clés, ou non?

Par exemple, on trouvera normal qu’en tapant les mots-clés “prévention+sida” le premier résultat apparaissant soit http://www.preventionsida.org/, un site consacré uniquement à la prévention Sida, plutôt que http://www.ciao.ch/f/sexualite/infos/10.1sida-virus-et-maladie, la page à ce sujet sur ciao.ch, un site qui comporte des informations sur des sujets très variés.

4. Qu’apporte un bon placement ?

Il peut être utile de regarder d’un peu plus près les raisons qui poussent à vouloir un bon placement dans un moteur de recherche. Effectivement, un site bien placé, qui se situe dans les premiers résultats pour les mots-clés que recherchent les gens qui seraient intéressés par le contenu du site, va attirer plus de visiteurs par ce biais.

Gardons cependant à l’esprit que le placement est un moyen d’attirer des visiteurs, et non une fin en soi. Ce n’est d’ailleurs pas le seul moyen d’attirer des visiteurs sur son site: les gens peuvent aussi y arriver parce qu’ils ont cliqué sur un lien se trouvant sur un autre site, parce qu’on leur en a parlé, ou qu’on leur a envoyé l’adresse par e-mail, chat, ou messagerie instantanée.

Ces derniers moyens font intervenir quelque chose qui est de l’ordre du bouche à oreille: une recommandation “de personne à personne”, qui est généralement beaucoup plus efficace qu’une entrée dans un répertoire automatisé (le moteur de recherche), et qui prend de plus en plus d’importance dans l’internet d’aujourd’hui. Un lien sur un site web est une recommandation, et cela d’autant plus si ce site est un site personnel, comme un blog, par exemple.

Bien entendu, les résultats des moteurs de recherche vont refléter la part “internet” de ces recommandations en bouche à oreille. Une adresse web transmise dans une liste de discussion par e-mail va se retrouver indexée via les archives en ligne de celle-ci. Les blogs sont des sites internet, et “comptent” évidemment pour le moteur de recherche — d’autant plus que bon nombre d’entre eux sont en fait très bien “cotés” (PageRank).

Si beaucoup de propriétaires de sites jugent que le contenu d’un site vaut la peine qu’on en parle, le placement de ce site dans les moteurs de recherche va s’en trouver amélioré, mais ce placement est la conséquence de cet intérêt et non sa cause. Tenter d’agir directement sur le placement est donc insuffisant: c’est le contenu du site qui va jouer un rôle prépondérant.

Conclusion

Le placement d’un site dans un moteur de recherche est un indicateur de qualité parmi d’autres. Ce placement ne peut pas être contrôlé, et ne dépend pas uniquement du site concerné — il est toujours relatif au reste du matériel existant sur internet.

Il est bien plus efficace d’agir sur le contenu et la qualité formelle d’un site afin de l’améliorer plutôt que de chercher à obtenir directement un résultat en termes de placement par rapport à certains mots-clés, objectif qui est souvient peu réaliste.

Notes

  1. La plupart des moteurs de recherche fonctionnent sur le modèle de Google. Si ce document parle des moteurs de recherche en général, c’est plus particulièrement de Google et des moteurs de recherche fonctionnant sur des principes similaires dont il s’agit ici.
  2. Les organisations qui garantissent un placement dans les x premiers résultats pour tel ou tel mot-clé utilisent des techniques peu éthiques qui reviennent en somme à tricher avec les algorithmes de classement des moteurs de recherche [http://www.google.com/support/webmasters/bin/answer.py?answer=35291]. D’un moyen pour mesurer quelque chose (la qualité), le placement devient un but en soi.
  3. Google tient en effet également compte des mots utilisés pour créer des liens vers une page donnée. Le “googlebombing” abuse de ce fait pour imposer une page spécifique en première position lorsqu’on l’on recherche certains mots-clés, en obtenant qu’un grand nombre de sites Web utilisent ceux-ci dans le texte de liens pointant vers cette page. Un exemple célèbre plaçait la biographie officielle de George Bush en première position des résultats lorsque l’on cherchait l’expression “miserable failure”, même si la page ne contenait bien sûr pas cette expression. Voir aussi http://fr.wikipedia.org/wiki/Bombardement_Google.
  4. Ces fameux mots-clés, importants pour les moteurs de recherche de la génération précédant Google, sont ceux que l’on place dans la balise HTML .
  5. http://en.wikipedia.org/wiki/PageRank Le PageRank est une valeur allant de 0 à 10 et qui est basée sur le nombre de liens entrants vers une page, pondérée par la valeur de PageRank de la page sur laquelle se trouve ce lien.

A lire aussi, en anglais: Matt Cutts: Whitehat SEO Tips For Bloggers, les notes que j’ai prises lors de sa conférence à WordCamp (San Francisco).

Similar Posts:

Posted in Social Media and the Web | Tagged conseils, Essay-Like, Geek / Technical, google, informations, instructions, Kit du blogueur, moteur, moteurderecherche, optimisation, recherche, search, searchengine, seo, siteweb, web, webmaster, whitepaper | 11 Comments

WordCamp 2007: Matt Cutts, Whitehat SEO Tips for Bloggers

Here are my notes of Matt’s session. Might be inaccurate, blah blah blah. Oh, and RSI, so might be a bit short. Check out the post on Matt’s blog too.

Update, August 2007: Matt wrote another blog post in which you’ll find links to his Powerpoint presentation and the video of his talk.

WordCamp 2007 Matt Cutts

Google doesn’t hate your site. Some guy invented an immortality device (with magnetic rings). His site looks like the love-child of Geocities and MySpace. He claims to have been repressed by Google because of the immortality device. No! Instead, view the source of the page. Ugly things hidden in it! Hundreds of words in a tiny textarea! Hence, the penalty.

Good plugin: SEO Title (swaps the name of your blog with the name of your post).

Don’t put your blog at the root of your domain:

  • what if you want something besides a blog?
  • people link to main page and main blog page, so you get some extra links that way.

Think about it.

Call your blog “blog” and not “wordpress” — you never know if you might switch.

What do SEOs know that bloggers might not?

Keywords

What might people be typing to search for your stuff? example… “lol kittens“! Don’t spam, but if you know what people are searching for, there are perfectly natural ways of slipping them in your posts. Use synonyms! steph-note: it’s also better writing than repeating the same words over and over again. Use this knowledge for good, not for evil!

Use category names which are good keywords. Dashes are best to separate words. Then underscores. No spaces is dreadful.

But wait! If everything is already in place, don’t completely mess up your urls to change. Leave the old stuff as it is, and make the new stuff better.

Use alt tags, or the blind guy at Google will get really angry. 3-4 relevant words. Keep it short.

Q: does having .php .html .asp in the URL make a difference?

A: nope. just avoid .exe ;-)

Dynamic URLs are treated just as static URLs. However, keep the number of parameters low.

Should I do an audio podcast, or a video? Well, depends on how pretty you are. If you’re not sure, try hotornot.com.

Usability

Make sure your site is crawlable (WP: good).

Q Ben Metcalfe: what about duplicate content WP archives create? Supplementary results?

A: Not too bad, but WP does suffer a bit from the fact you can get to a post from 3-4 different ways. Will have WordPress wishlist at the end of the talk.

Make sure post creation dates are easy to find.

Q: Does Google care about the number of slashes in a URL? (Date in URL)

A: Google doesn’t care about link depth.

Moving to a new IP

  1. Reduce your DNS time-to-live
  2. Back up your site, bring it up on new IP.
  3. Watch Googlebot and user traffic until they fetch the site from the new IP address.
  4. Take down the old site.

steph-note: heck, will be doing that soon.

Q: for mobile/iPhone, different site, or different stylesheet?

A: if you can, different stylesheet.

A2 from public: use Alex King’s wp-mobile plugin

Moving to new domain

  • use a 301 redirect

better:

  • do 301 on one subdirectory and when that is ok do the rest
  • write to everyone and ask them to update their links (useful!)
  • standardize www or no-www but don’t use both, also slash/no-slash

Free Google tools

  • webmaster console
  • feedburner (you can get feeds.mydomain.com rather than feeds.feedburner.com with MyBrand for free steph-note need to do that!! so you can leave feedburner…)
  • custom search engine
  • adsense
  • google analytics

Webmaster Console

It’s at google.com/webmasters

A famous web publisher used robots.txt to blog Google completely, then called in a panic “what’s the matter! Google is blocking me!”.

  • test robots.txt before pushing live
  • submit an authenticated spam report
  • remove URLs (for emergencies, useful!)

You can see the backlinks — who’s linking to your site.

Q: can google analytics harm your search results? (?)

A: nope.

You can see crawl errors which can give you hints on making your 404 handling better. Also, tell Google what your preferred domain is (www or not).

“Get noticed, then get traffic from Google” rather than “Get traffic from Google, then get noticed” (steph-note: yay, exactly the position I defended in a whitepaper on search optimisation for a client!)

Ideas:

  • PDF sign converter
  • Lolcat builder
  • iPhone app directory
  • say Google fast
  • sell your moustache on eBay — linkbait!
  • free hugs campaign
  • tutorials
  • analysis
  • hunting down wikipedia defaces
  • liveblogging
  • create controversy (like Dvorak!) — linkbait!
  • mention Robert Scoble
  • make lists (13 reasons why something rulez/sux0rs)

Be creative! (Well, maybe we need to embrace the fact there are many ways to get attention, and linkbait is one…)

steph-note: Matt is deadly funny… watch the video of the talk if it exists.

If you get popular enough, people might want to hack you. You can make your wp-admin accessible only via a whitelist.

A to Q: Google doesn’t look at meta tags much.

Don’t worry about the algorithm too much, focus on compelling content.

If you’re buying/selling links, make sure they don’t affect search engines.

Similar Posts:

Posted in Live Blogging | Tagged Events, google, search, seo, wordcamp, wordcamp2007 | 79 Comments

Google Questions

[fr]

Comment Google détermine-t-il (1) le pays d'où provient un site et (2) la langue d'une page? Pourquoi les résultats d'une recherche en français sont-ils différents, selon qu'on utilise google.ch ou google.fr?

[en]

So, I’m writing up a document for a client about search engine placement. Not really an SEO thing, more a “good search engine placement results from popularity and success, not the opposite” thing. Like, (gosh, am I being eloquent right now,) setting objectives like “be in the first three results for this or that keyword combination is not very realistic.”

Anyway, I’m stuck in the part about limiting seach to one country or a language (which is a “big thing” if you live outside Anglophonia and ambition to reach the local population). I realise that the way Google manages these different searches is not quite clear to me.

Location

If you go to google.ch you can choose to do a search for “pages from Switzerland” (I’m using my name as a search term example). Or with google.fr, “pages from France” (language set to English both times so you can compare). My assumption (thanks shastry) is that they use server location for that. But is that all? (My server is in the US, so that explains why CTTS does not show up as a “Swiss” site.)

Language

If I select French as the search language, I get different results whether I use google.ch or google.fr. I assume Google uses language detection — but why are the results different?

Thanks for any explanation which can help me see a bit more clearly.

Similar Posts:

Posted in Language Geekiness | Tagged detection, Geek / Technical, google, internationalisation, internet, language, Languages / Linguistics, localisation, location, question, search, searchengine, Wanted | 14 Comments