hey squad
on s'installe ?

01 · CVR · 02/03

A/B testing.

Pas un test sans hypothèse. Pas de bullshit. Une seule version à la fois, jusqu'à preuve.

Tu compares deux versions de ta page (originale vs nouvelle) sur la même fenêtre, le même trafic, le même funnel. Tu attends que le résultat tienne avant de trancher. Pas d'arrêt prématuré, pas d'effet de mode. Tu pilotes ta roadmap sur de la preuve, pas sur du goût.

Par Rémy · Acquisition & terrain

Faire chiffrer mes tests A/BVoir la mission Amecam

02 · LE BRIEFING

  1. Quand y penser
    Tu as un audit UX qui sort 5 à 10 hypothèses, mais tu ne sais pas par laquelle commencer. Ton équipe se dispute sur la couleur d'un bouton. Tes refontes précédentes n'ont pas bougé ton taux de conversion (visiteurs qui passent à l'action). Le moment où l'instinct ne suffit plus.
  2. Pourquoi c'est important
    Sans test, chaque refonte est un pari. Tu fais une nouvelle page d'arrivée, tu mets en prod, tu attends. Trois mois plus tard tu ne sais toujours pas si c'est mieux ou moins bien. Le coût caché : les bonnes idées qui passent à la trappe par manque de preuve, et les mauvaises qui restent en prod par inertie.
  3. Ce que tu récupères
    Un verdict chiffré par test, validé sur une durée et un volume qui rendent le résultat fiable (statistiquement). Un journal des tests passés, gagnés ou perdus, avec leur gain de conversion mesuré. Une culture interne du test au lieu de l'argument d'autorité.
  4. Comment on s'y prend
    On commence par regarder ce qu'a remonté l'audit, avant de poser la moindre version. Outils : GA4 Audiences (segmentation Google Analytics) pour répartir le trafic et capter les événements de conversion, Hotjar (outil heatmap + enquêtes) pour observer le comportement sur chaque variant, Microsoft Clarity (heatmap + session replay gratuit) en renfort pour les visites douteuses. Une seule hypothèse à la fois, jamais deux variants concurrents sur le même parcours.
  5. Ce que ça débloque
    Un pipeline de tests qui tourne sans débat, mois après mois. Une roadmap produit pilotée par la donnée, pas par l'opinion. Une accumulation de connaissance sur ce qui marche vraiment chez tes visiteurs.

On revient dans la semaine · cadrage avant tout chiffrage.

04 · CE QU'ON N'ÉCRIRA PAS DANS UNE RFP

Un test A/B est un outil de décision business. Pas un livrable design ni un benchmark.

Un test A/B n'est utile que si tu vas accepter de tuer tes idées préférées quand la donnée tranche contre. Sinon, tu fais du théâtre de la mesure. La règle non-négociable : durée minimale de 14 jours, taille d'échantillon calculée avant de lancer, une seule hypothèse par test. Si l'ICP (profil client idéal) n'est pas validé en amont, le bon ordre c'est d'abord auditer le parcours, ensuite tester.

  • 01

    Décision sourcée par la donnée

    Chaque arbitrage repose sur un verdict chiffré, pas sur l'opinion du dernier qui a parlé. Tu valides le gain réel de conversion, pas l'effet placebo des deux premières semaines en prod.

  • 02

    Capitalisation de la connaissance

    Les tests perdus comptent autant que les gagnants. Tu construis un journal sur ce qui marche et ce qui ne marche pas dans ton secteur, ton profil client, tes pages clés. Patrimoine durable, pas livrable jetable.

  • 03

    Sortie des batailles d’opinions

    Plus de réunion sur la couleur du bouton ou la formulation du CTA. La donnée tranche, l'équipe avance. Tu retrouves du temps cerveau pour les décisions qui valent vraiment un débat.

  • 04

    Roadmap produit accélérée

    Tu sais quoi pousser en prod, quoi tuer, quoi renvoyer en réflexion. Plus de cycles de refonte qui durent six mois pour un résultat incertain. Tu avances par micro-victoires sourcées.

05 · LE DÉROULÉ

Quatre étapes par test. Quatre semaines en moyenne. Zéro freeze prod.

  1. 01

    On choisit l'hypothèse qui paie.

    On part du backlog d'audit (5 à 10 hypothèses priorisées impact / effort). On en sort une seule, celle où le potentiel de gain business × volume de trafic est le plus haut. On formule l'hypothèse au format `si X alors Y mesuré par Z`. Pas de tests opportunistes hors backlog.

  2. 02

    On dimensionne avant de lancer.

    Calcul de la taille d'échantillon nécessaire pour que le résultat soit fiable (statistiquement) à 95 %. Cadrage durée minimale (14 jours pour couvrir un cycle hebdomadaire complet). Si ton trafic ne permet pas d'atteindre la taille en 4 semaines, on revoit l'hypothèse ou on attend.

  3. 03

    On lance et on ne touche plus.

    Variant B en parallèle de la version A, trafic réparti 50/50 via GA4 (nouvelle fenêtre) Audiences (segmentation Google Analytics). Pas de gel de la prod. Hotjar (nouvelle fenêtre) observe les deux variants en parallèle, Microsoft Clarity (nouvelle fenêtre) en renfort pour les sessions douteuses. Aucune modification pendant la fenêtre de test. Aucun arrêt prématuré, même si A semble gagner sur 7 jours.

  4. 04

    On tranche, on documente, on archive.

    À la fin de la fenêtre, lecture du verdict chiffré (gain réel de conversion, marge d'erreur, lecture par appareil et par source). Décision : pousser B en prod, tuer B, ou relancer une version affinée. Documentation Notion versionnée, journal des tests gagnés et perdus à jour, brief pour la prochaine itération.

06 · LE FLUX, EN UN COUP D'ŒIL

Le chemin que prend chaque visiteur entre le split de trafic et le verdict du test.

TRAFIC · SPLIT 50/50GA4 Audiences · randomisé50%50%VARIANT A · ACTUELCTAVARIANT B · HYPOTHÈSECTASIGNIFICATIVITÉ14j min · n calculé · 95%pas d'arrêtprématuréVERDICT · LIFT MESURÉB gagne · +14% CVRIC 95% · segmenté device + sourceGA4 AUDIENCES · HOTJAR · PLETOR

Une seule hypothèse à la fois. La donnée tranche au bout de la fenêtre, pas avant. On documente le verdict, gagné ou perdu, dans le journal des tests.

07 · PAS ENCORE POUR TOI SI

Trois cas où l'A/B testing n'est pas la priorité numéro un.

  • Ton trafic est sous 5 000 conversions par mois.

    À ce volume, atteindre une taille d'échantillon qui rend le résultat fiable prend 8 semaines minimum par test. Sur 10 hypothèses, deux ans pour valider la moitié. Mieux vaut prioriser le trafic et l'audit avant.

  • Tu n'es pas prêt à tuer tes variants préférés.

    Si la décision finale revient à un dirigeant qui ne lira pas le verdict, l'A/B testing devient du théâtre de la mesure. Le coût d'un cycle de test n'est pas remboursé par une décision déjà prise. Mieux vaut clarifier la gouvernance d'abord.

  • Ton tracking conversion est cassé ou approximatif.

    Sans GA4 fiable côté événements de conversion, les verdicts de tests reposent sur de la donnée tronquée. Tu valides un faux gagnant, tu pousses la mauvaise version en prod. Le bon ordre c'est d'abord la mesure, ensuite le test.

08 · LES QUESTIONS QU'ON ENTEND VRAIMENT

Questions chuchotées après la deuxième réunion. Réponses honnêtes.

Pas de chiffre marché crédible côté coût d'inaction direct, mais la règle empirique tient : sur 10 refontes faites sans test, 4 baissent le taux de conversion (visiteurs qui passent à l'action) sans que personne ne le voie (le bruit naturel masque la baisse). Le vrai coût n'est pas le test que tu n'as pas fait, c'est la mauvaise version qui reste en prod par inertie. Le débat plus large agence vs freelance vs interne se tient ici.

Pour les volumes PME (< 1 M de visites mensuelles), GA4 Audiences (segmentation Google Analytics) suffit largement à répartir le trafic 50/50 et à mesurer le gain de conversion sur les événements clés. VWO et Optimizely facturent 200 à 1 500 € par mois pour des fonctionnalités qu'on n'utilise pas en B2B. Au-delà du million de visites mensuelles ou pour des tests à 3 versions concurrentes, l'outil dédié devient pertinent. Pour que le verdict tienne, la couche GA4 doit être posée propre en amont.

Oui, à condition que la répartition ne change pas la finalité du traitement (même parcours, même collecte de données, même politique cookies). L'A/B testing pur n'est pas un sujet RGPD à part. Ce qui peut le devenir : une version qui collecte des données différentes (formulaire élargi, pixel de tracking custom). Dans ce cas, déclarer la finalité dans la politique cookies et soumettre au consentement.

Fourchette : 6 à 12 tests par an pour un client PME B2B, 12 à 24 pour un e-commerce avec volume. Le rythme dépend du trafic disponible et de la capacité dev / design à exécuter les versions derrière. Sur la mission Amecam, on tourne autour de 8 tests par an, avec un ratio gagnants d'environ 30 % (dans la fourchette marché 25-35 %).

Côté outils : GA4 Audiences gratuit (inclus dans GA4), Hotjar facultatif (39 €/mois Business plan). Côté pilotage : 1 jour par mois de cadrage hypothèses + lecture verdicts, exécutable par un chef de projet senior ou un responsable growth interne. Si on quitte, tu pars avec le journal Notion des tests passés, la procédure de cadrage hypothèses et les accès comptes outils. Aucune dépendance. Les versions gagnantes alimentent ensuite tes pages d'arrivée éditoriales en mode standard.

Oui. On le fait sur 50 % de nos cycles A/B. La règle : qui pilote la formulation des hypothèses et qui exécute les versions en prod. Si ton agence existante reste pilote des changements front, on cadre l'hypothèse, le dimensionnement et la lecture du verdict. Si elle exécute notre brief, on accompagne le déploiement. On ne mange jamais le terrain de l'autre sans le dire.

La note du terrain

Tu testes pour trancher, pas pour rassurer. Avant de lancer, on se demande pourquoi pas. 14 jours minimum, taille d'échantillon calculée, une seule hypothèse. Si l'ad ne paie pas son CAC (coût d'acquisition par client), on coupe. Si la version ne fait pas gagner de conversion, on la tue, même si elle plaît au CEO. En vrai, sur le terrain, c'est cette discipline qui fait gagner.

Rémy · Acquisition & terrain
RémyAcquisition & terrain · HeySquad

Autres sous-services CONVERSION

On ouvre ton backlog d'hypothèses. On te dit lesquelles paient, lesquelles tombent.

Faire chiffrer mes tests A/BRevenir au service Conversion