Archives en ligne de trois quotidiens romands: quel désastre [fr]

Etude du désastre que sont les archives en ligne sur les sites de 24 Heures, Le Temps, et Le Matin. Moteurs de recherche cassés, archives payantes, mauvaise indexation par Google en l’absence de liens externes… Il est temps que nos quotidiens se réveillent et découvrent comment utiliser le web de façon plus profitable, et compatible avec leur mission d’information!

[en] An overview of the sorry state of online archives for three local Swiss newspapers: Le Temps, 24 Heures, and Le Matin. Time to wake up and use the web correctly!

Une des caractéristiques merveilleuses du blog, c’est la façon dont sont organisées les archives. Un vieil article peut être assez facilement retrouvé si l’on se souvient à  peu près quand il a été écrit, dans quelle catégorie il avait été classé, ou encore de quoi il parlait (en utilisant le moteur de recherche du blog).

On s’attendrait à  ce que les sites de quotidiens comme 24 Heures, Le Matin ou encore Le Temps en prennent de la graine. Que nenni ! Alors que les vieux journaux servent principalement à  protéger la moquette lors du rempotage annuel de notre plante verte préférée (quand on ne les trouve pas autour de la caisse du chat ou roulés en boule au fond de vieilles baskets détrempées), les archives en ligne de nos quotidiens sont mises à  disposition du grand public chez Swissdox pour la modeste somme de SFr 3.80 par article pour une consultation occasionnelle.

Un petit exemple : dans la base de données Swissdox, cherchez « Stephanie Booth » sans restriction de date. Voici donc une ribambelle d’articles offerts à  votre consultation, pour autant que vous soyez munis d’une carte de crédit. Et s’il y avait une autre solution ? Certains de ces articles sont encore en ligne, accessibles gratuitement à  qui sait les trouver. Partez de ma page presse et explorez un petit peu. Les articles du Matin, par exemple, sont encore en ligne. Sympathique ! Celui du Temps également. Pour 24 Heures, par contre, il faudra repasser : à  peine quelques jours après la sortie d’un article, celui-ci est retiré du site Web.

La situation ne serait-elle donc pas si dramatique que ça ? Un petit coup de moteur de recherche, et hop ! l’article tant désiré pourrait se retrouver sur nos écrans ? Essayons. Recherchons mon nom sur le site du Matin et sur celui du Temps. C’est pas trop mal ! On pourrait donc en conclure que notre ami Google est capable de nous extraire des deux sites mentionnés ci-dessus n’importe quel article qui aurait échappé à  notre marque-pages.

Minute, papillon ! Ne nous excitons pas ! Il ne faudrait pas oublier que les articles mentionnant ma modeste personne sont offerts en pâture aux moteurs de recherche dès la minute ou un blogueur (souvent moi, je dois l’avouer) fait un lien vers l’article. Les articles sur les blogs intéressent les blogueurs, c’est naturel, et ils bénéficient donc d’une visibilité artificielle dans les moteurs de recherche, pour des articles de quotidiens. Qu’en serait-il donc d’un article n’intéressant pas particulièrement les blogueurs, et qui n’aurait donc pas la chance d’avoir été indexé par Google ?

Regardons tout d’abord si les moteurs de recherche propres aux sites de ces quotidiens peuvent nous aider. Pour tester un moteur de recherche, rien de plus facile : on essaye tout d’abord avec des mots clés dont on sait qu’ils sont censés fournir un résultat (« Stephanie Booth », au hasard). Histoire d’être certaine de ne pas introduire des paramètres superflus avec mon navigateur Firefox pour Mac, j’ai même été jusqu’à  utiliser Internet Explorer sous Windows XP pour cette expérience. Résultat des courses :

  • 24 heures : moteur de recherche visiblement cassé ; en plus de nous gratifier d’un pop-up à  chaque requête, il s’avère incapable de nous retourner même un article pour le mot-clé « Lausanne ».
  • Le Matin : moteur de recherche également cassé (je pourrais également commenter longuement l’aspect visuel du site, mais ce n’est pas le sujet du jour) ; la recherche dans la base de données Swissdox, par contre, fonctionne.
  • Le Temps : le moteur de recherche fonctionne, mais lorsque l’on clique sur l’article, on nous annonce que l’accès à  celui-ci est payant ; oui, il s’agit bien du même article que celui auquel nous venons d’accéder gratuitement, en passant par Google ou par ma page presse.

Moralité : si Google ne peut rien pour vous, et il ne vous reste qu’à  faire un saut à  la BCU, chercher l’article sur microfilms, et commander des photocopies au tarif relativement modeste que vous pourrez ensuite scanner pour les envoyer par e-mail à  votre grand-mère ou votre petit ami vivant aux États-Unis.

Une chose me chicane concernant le site du Matin. Visiblement, tous les articles ayant été un jour en ligne le sont pas encore. S’ils ont été indexés par un moteur de recherche, on y accède facilement. Pourquoi diable rendre impossible leur accès via le site ? Qu’est-ce que l’éditeur y gagne ? On peut ne pas être d’accord avec la politique de 24 Heures, qui consiste purement et simplement à  ne pas garder en ligne des anciens articles, ou avec celle du Temps, qui part du principe que si l’on est trop bête pour utiliser Google, on n’a qu’à  payer pour voir les articles, mais il y a une logique derrière cette façon de faire. Les concepteurs du site comptaient-ils sur le moteur de recherche interne ? (Soit dit en passant, la présence de moteurs de recherche cassés sur des sites d’une importance régionale pareille en dit long quant au budget consacré à  ces sites, ou à  la compétence des personnes qui s’en occupent.)

Donc, Mesdames et Messieurs qui prenez des décisions concernant les sites Internet de nos quotidiens, je vous demande, en tant que blogueuse et sujet occasionnel de vos articles, de vous donner la peine de faire bien ce que vous faites déjà  à  moitié.

Laissez en ligne et libre d’accès les anciens articles. Souvenez-vous que s’il s’agissait de papier, ils n’auraient même pas la valeur de l’encre avec laquelle ils ont été imprimés. Demander SFr 3.80, plus encore que le prix du journal, pour pouvoir accéder à  un ancien article en ligne, c’est pour le moins excessif.

En 1998, Jakob Nielsen s’inquiétait de la quantité de liens cassés sur le Web, et rappelait à  ses lecteurs cet article de Tim Berners-Lee, l’inventeur du Web : Les URLs sympas ne changent pas. Ôter du Web un article qu’on y a mis ou le rendre inaccessible, c’est faire un magistral bras d’honneur à  tous ceux qui se sont donné la peine d’en parler en ligne, que ce soit pour le faire lire, le commenter, voire le critiquer. Est-ce ainsi qu’un quotidien veut traiter ses lecteurs, et ceux qui cherchent à  attirer l’attention sur les articles qu’il publie ?

Ensuite, permettez aux visiteurs de votre site (qui sont souvent des lecteurs ayant payé la version papier de l’article) de s’y retrouver facilement dans vos archives. Une organisation chronologique, des catégories, un moteur de recherche qui fonctionne… Est-ce trop demander ? Des milliers de blogs, mis en place et gérés par des amateurs ne déboursant pas un centime, le font très bien, et depuis plusieurs années. Les journaux ne sont-ils pas censés être les professionnels de l’information ?

Presse traditionnelle, il est temps de te réveiller et d’utiliser le Web correctement.

Tag me! [en]

A T-shirt tag idea.

[fr] J'aimerais un site qui permettrait de commander un T-shirt (plus ou moins unique!) sur lequel une série de tags (à  choix) serait imprimée.

Here’s a site I would love (if it already exists, forgive me, and if it doesn’t, all you developpers get to work, please). It would allow me to print a set of tags on a T-shirt and buy the T-shirt. Easy and silly, huh?

Better: it would allow me to directly import my Flickr tags and print those. Or my blog tags. Or my del.icio.us tags. Or it would allow my friends to submit tags for me (“Tag me!” — get it?).

Optional: add the url of a chosen tagspace (Technorati, Flickr public, Flickr user, personal…).

A plea to the Lazyweb…

Software: FreeMind [en]

Trying out FreeMind, mind-mapping software that runs on OSX (and other operating systems).

[fr] Je suis en train d'utiliser FreeMind, un logiciel gratuit de "mind-mapping" (comme MindManager) qui tourne sous OSX. J'y ai mis ma liste de choses à faire, et c'est bien mieux que dans iCal.

The less I post, the less I post. One reason being that there would be a ton of things I could talk about, but I don’t want to discuss here. Another being that my hands hurt. But the most important one is that as I don’t write much these days, the things I actually do publish had better be overly important and overly interesting.

So, to hell with that. I’ll lower my interestingness expectations.

I’ve just been trying out FreeMind, a free mind-mapping application that runs under OSX, Windows, and Linux. Following Suw‘s advice, I’m using it to keep track of things I must do. I’m not certain it will replace my fun to-do list, but it sure beats iCal’s To Dos.

Reconnaissance vocale pour OSX [fr]

A la recherche d’une solution pour avoir de la reconnaissance vocale en français sur mon Mac.

[en] Because of the limitations imposed on the purchase of US products in France, there is no planned French version of iListen, the most viable speech recognition software for Mac.

Mise à jour 09.2007: Bonne nouvelle pour tous, Dragon NaturallySpeaking tourne très bien sous Parallels avec OSX. On peut donc dicter sur nos Macs!

J’aime mon Mac. Mon entourage a d’ailleurs remarqué que depuis ma conversion, je suis devenue une irrépressible ambassadrice Mac.

Quand je pense à ma vie avant OSX, je regrette une seule chose: mon Dragon.

Ces temps, j’ai de nouveau mal aux mains, donc je me dis de nouveau que je dois vraiment acheter un logiciel de reconnaissance vocale pour mon iBook. Puisque Dragon n’existe pas pour Mac, il y a deux solutions: ViaVoice et iListen. ViaVoice n’est plus en développement actif, donc le choix serait plutôt iListen, dont j’ai entendu beaucoup de bien, et qui a l’avantage de bien s’intégrer dans l’environnement OSX.

Seul hic? Pas de version française, et pas de projets (aux dernières nouvelles) d’en produire une, vu les limitations imposées aux institutions françaises concernant l’achat de produits non-français.

Solution, que me souffle mon ami Kevin: mettre un place une société française pour faire l’intermédiaire avec MacSpeech et vendre le produit en France.

Il y a des volontaires?

Autre, idée, si l’architecture du logiciel le permet: faire développer indépendamment le vocabulaire et la grammaire français. Il existe en tous cas une version allemande et une version italienne de iListen, donc, ce n’est pas un problème technique, mais bien politique.

MediaWiki [en]

I’ve installed MediaWiki. Explanation and solution of a bug I bumped into while installing (because of UTF-8 in MySQL 4.1.x) and comments on the method for interface translation.

[fr] J'ai installé MediaWiki pour récussiter le moribond SpiroLattic, tombé sous les coups du wiki-spam. Voici la solution à  un problème que j'ai rencontré durant l'installation (dû au fait que j'utilise MySQL 4.1.x avec UTF-8), et aussi une description de la façon dont est faite la localisation par utilisateur de l'interface. Très intéressant!

I recently managed to install MediaWiki to replace PhpWiki for SpiroLattic, which I took offline some time ago because the only activity it had become home to was the promotion of various ringtone, viagra, and poker sites.

MediaWiki is the wiki engine behind Wikipedia. It is PHP/MySQL (good for me, maybe not for the server) and has a strong multilingual community.

I bumped into one small problem installing MediaWiki 1.4: the install aborted while creating the tables. Unfortunately, I don’t have the error message anymore, but it was very close to the one given for this bug.

If I understood correctly, when you’re running MySQL 4.1.x in UTF-8, the index key becomes too big, and MySQL balks. The solution is to edit maintenance/tables.sql and to change the length of the index key MySQL was complaining about. In my case, the guilty part of the query was KEY cl_sortkey(cl_to,cl_sortkey(128)) — I replaced 128 by 50 and it went fine. (Don’t forget to clean out the partially built database before reloading the install page — like that you don’t have to fill it all in again.)

MediaWiki allows each user to choose his or her language of choice for the interface. That is absolutely great, particularly for a multilingual wiki! Even better than that, they let users tweak the interface translation strings directly on the wiki.

There is a page named “Special:Allmessages” which lists all the localized strings. If you’re not happy with one of the translations, just click on the string, and the wiki will create a new blank page where you can enter your translation for it, which will override the initial translation. How cool is that?

Something like that for WordPress would be great, in my opinion!

Problèmes d'encodage MySQL [fr]

Un joli mélange de latin-1 et d’utf-8 dans ma base de données. Un script python pour nettoyer tout ça.

[en] I've been to MySQL encoding hell and back. The little question marks you may have seen in place of accented characters a few weeks back were caused by a lovely mix-up of utf-8 and latin-1 inside my databases. Dda_ from #joiito kindly helped me by writing a python script to identify fields with non-utf-8 characters in them, and convert them back.

Vous avez peut-être remarqué, il y a une semaine ou deux, que les accents de ce site avaient été remplacés subrepticement par de vilains points d’interrogation. Une fois de plus, je me trouvais dans la situation où je croyais avoir de l’utf-8 dans mes bases de données, pour réaliser ensuite qu’il s’agissait en fait de latin-1. Et cette fois, c’était encore bien pire qu’avant: j’avais un mélange d’utf-8 et de latin-1.

Dda_ a eu la grande gentillesse de passer plusieurs heures à  me pondre un script en python qui fait le tour de tous les champs de toutes les tables de toutes les bases de données, et les convertit en utf-8 s’il y détecte des caractères non-utf-8 (ce qui signifierait, dans mon cas, qu’on se trouve en présence de latin-1). Une fois que c’est fait, le script va changer l’encodage des tables pour que tout nouveau contenu y soit stocké en utf-8.

Bref, voici l’explication et le script.

Problème de sécurité dans navigateurs non-IE (Firefox, Safari…) [en]

Un gros trou de sécurité dans nos navigateurs, semble-t-il. Pour une fois, les utilisateurs de IE ne semblent pas avoir de soucis à  se faire. Ne cliquez jamais sur les liens dans vos e-mails.

[fr] Shmoo exploit explained in French.

Je n’ai pas le temps de lire tous les détails, donc je vais laisser quelqu’un d’autre (avec peut-être des connaissances techniques un peu plus solides que les miennes) expliquer exactement de quoi il en retourne.

En gros, il semblerait que cet exploit fasse le bonheur des adeptes du phishing.

Si vous utilisez FireFox, voici les instructions données par BoingBoing:

  1. Tapez about:config dans votre barre d’adresses.
  2. Utilisez le filtre pour trouver network.enableIDN
  3. Double-cliquez sur la ligne qui apparaît pour que la valeur devienne false

Edit 09.02.2005: mise à  jour FireFox qui doit régler ce problème.

Comme je l’ai dit, je n’ai pas investigué cette histoire à  fond, mais les sources me semblent fiables. Revenez par ici pour voir s’il y a du nouveau. Gardez aussi un oeil sur le cosmos Technorati de l’article sur BoingBoing.

Au risque de se répéter: Ne jamais cliquer un lien dans un e-mail. Toujours copier-coller. Ne jamais cliquer un lien dans un e-mail. Taper l’adresse à  la main dans le navigateur.

Thinking About Tags [en]

What if taggy applications like Technorati, Flickr and Del.icio.us started allowing us to query multiple tags with “and” and “or” operators?

[fr] Une proposition pour pouvoir combiner les tags (comme "blogosphere ET blogosphère", "livres OU films") dans des services comme Flickr, Del.icio.us, et maintenant Technorati.

Some quick thoughts about tags, following Technorati Tagified.

So, there is “blog“. And “weblog“. And “blogs“. And “weblogs“.

How about a way to get the posts/photos/links tagged with any of these tags? Maybe something like .../blog,blogs,weblog,weblogs/.

That would also solve some multilingual problems: get “blogosphere” and “blogosphère” together on the same page with .../blogosphère,blogosphere/.

At del.icio.us, I tag the books I’ve read with “books/read“, and films I’ve seen with either “films/seen/cinema” or “films/seen” (if I saw them on DVD). This used to work fine, because a del.icio.us bug (poor me thought it was a feature) would include links tagged as “films/seen/cinema” when one asked for “films/seen“. That doesn’t work anymore.

Say I avoid messing with tags-with-slashes, and tag films I saw at the cinema with “films seen cinema” and others with “films seen dvd”. I’ll probably also have links tagged “films” or “cinema” but which are not tagged “seen”. How could I pull out a list of links tagged “films” AND “seen”? Perhaps something like .../films+seen/.

Update, 10:00: Kevin tells me “+” signifies a space in a URL. Maybe “&” could do the job instead, then? And if “&” can’t because it’s supposed to separate parameters, any other suggestions?

Update, 11:40: holy cow, Del.icio.us does this already! I’ve updated my tags and lists. See “books+read” for books I’ve read, and “films+seen” for films I’ve seen. I’m a happy bunny!

Let’s get wild, shall we? .../books-read/ could list things tagged as “books” but not “read”.

Now we only need a way to assign operation priority, to be able to start retrieving lists like “books I’ve read or films I’ve seen which are also tagged as india” — wouldn’t that be cool?

Taggy application developers, hear the call!

Thanks to rvr and GabeW for the little discussion on #joiito which prompted me to write this post.

P.S.: has anybody written that WordPress plugin yet? (You know the one I’m talking about: the one that lets you painlessly technorati-tag your posts.)

Technorati Tagified [en]

Technorati collects links, photos and posts with tags/categories and displays them all on a nice page. Start tagging!

[fr] Technorati s'intéresse aux "tags". Les "tags", ce sont des étiquettes que l'on colle aux photos chez Flickr ou aux liens chez del.icio.us.

Technorati collecte le tout sur une jolie page, avec les billets de weblogs, bien entendu -- classés soit par leurs catégories, soit par des tags ajoutés manuellement. C'est facile! Voyez la page pour le tag technorati, par exemple.

Qu'est-ce que vous attendez? Lâchez vos tags!

Lo and behold, Technorati goes tags!

Technorati collects weblog posts, Flickr images, and del.icio.us links and organises them by tag on a pretty page.

Tags on weblog posts? Easy. If you have categories, and your RSS/Atom feed is formatted correctly, Technorati will treat your categories as tags. In addition to that (or instead of that), you can also add tags manually to any blog post. Learn how to do it, and get tagging!

Some tag pages I’ve looked at: India, Switzerland, tools, StephanieBooth

I wonder. What are the implications for TopicExchange? Will Technorati tags make ITE obsolete?

Wiki Spam on PhpWiki [en]

Call for suggestions for a new wiki engine to run SpiroLattic, victim of too much wiki spam.

Right, I could use some help here, particularly from those of you who are more in touch with the wiki-world than I am at present.

SpiroLattic is a very inactive wiki. However, it does contain some useful pages which are regularly visited, and I’m sick of removing wiki spam from it (the wiki-spam actually succeeded in wiping the Home Page, as the older clean versions of it are not in the database anymore).

I need suggestions for a wiki engine (PHP/MySQL preferred) into which I will be able to import my existing PhpWiki 1.3 alpha something pages, and which is not too vulnerable to wiki spam. I’d like to be able to keep the existing layout, but I don’t think that’s really an issue with today’s wiki engines.

Thanks for your help and suggestions.

Edit 18.12.04: Lazyweb, I invoke thee!