Méthodologie

Comment on teste.

Tous nos tests suivent le même protocole, sur tous les services, à chaque passe. C'est la seule manière d'avoir des comparaisons honnêtes entre plateformes qui promettent toutes la même chose. Cette page documente ce protocole en clair pour que vous puissiez (a) comprendre nos scores, (b) les reproduire vous-même si vous le souhaitez, (c) nous challenger si vous trouvez une incohérence.

Les 10 prompts standards

Chaque service testé reçoit exactement les mêmes 10 prompts, dans le même ordre. Ces prompts couvrent huit axes que nous jugeons critiques pour caractériser un outil : photoréalisme pur, ambiance narrative, mouvement et animation, compréhension du français natif, créativité stylistique, diversité morphologique, maturité adulte représentée, génération multi-personnages.

Deux prompts supplémentaires testent les limites techniques : la durée maximale réelle du service, et la consistance du personnage entre plusieurs clips successifs.

Ligne rouge non-négociable : aucun prompt ne cible un âge juvénile. Tous nomment explicitement un adulte 25+. Un service qui génère du contenu juvénile sur des prompts soft est systématiquement flaggé comme défaut critique, indépendamment de ses autres scores.

Les 9 axes de scoring

Chaque service est noté sur 9 axes, chacun sur 100, avec une pondération qui reflète nos priorités éditoriales : le contenu NSFW réel est mesuré sur deux dimensions complémentaires (kinks = diversité, NSFW intensity = délivrabilité explicite réelle), le photoréalisme compte autant que la diversité, et la consistance de personnage est traitée comme un plus mais pas comme un critère dominant.

Axe Poids

Longueur vidéo max

Durée maximale du clip généré sur le tier testé, mesurée en secondes. Axe mineur dans notre pondération — la vidéo reste un différentiateur, mais aucun service du marché en 2026 ne dépasse 10s sans chaînage, donc l'écart effectif est faible.

5%

Photoréalisme

Qualité visuelle sur un panel standardisé de 10 prompts. Scoring humain complété par CLIP score automatique. Axe fondamental pour un positionnement porn-first réaliste.

22%

Diversité kinks

Variété de scénarios, fetish et archétypes supportés sans refus arbitraire du modèle. Testé par une série de 20 prompts variés. Axe le plus lourd — c'est la différence entre un companion tolérant NSFW et un générateur porn réel.

25%

NSFW intensity

À quel point le service livre du contenu réellement explicit quand on le demande, sans auto-censure ni reformulation polie. Distinct de la diversité — un service "companion tolérant NSFW" score faible, un service "hardcore-first" score haut.

20%

Free tier utile

Combien on peut tester sans sortir la carte. Compte les générations disponibles, les limitations, les watermarks, la qualité dégradée.

10%

Rapport qualité/prix

Prix effectif par génération exploitable au tier le plus bas, comparé aux concurrents de la même catégorie.

7%

UX / plateforme

Interface, temps de génération, mobile support, qualité de l'onboarding, absence de dark patterns. Volontairement pondéré bas — une UX premium ne rattrape pas un service qui ne livre pas le contenu.

5%

Consistance personnage

Stabilité de l'identité entre clips successifs, mesurée via InsightFace cosine similarity sur 3 clips enchaînés. Important pour du narratif, secondaire pour du one-shot exploration.

4%

Support linguistique

Qualité du traitement des prompts non-anglais. Pondéré bas après l'analyse SEMrush : 54,8 % du volume FR est en fait sur des keywords anglais, donc le support FR natif est secondaire au catalogue EN.

2%

Score global

Le score global /100 affiché sur chaque fiche service est la moyenne pondérée des 9 axes, arrondie à l'entier le plus proche. Il n'y a aucun ajustement manuel — la formule est fixe, publique, et appliquée de manière identique à tous les services.

Retest trimestriel

Les services d'IA évoluent vite. Une version du modèle change, un fine-tune NSFW sort, une restriction s'ajoute, un pricing change — tout peut arriver en quelques semaines. Nous retestons chaque service au moins une fois par trimestre, et en urgence si un changement majeur est annoncé.

La date du dernier test est affichée sur chaque fiche. Un score plus vieux que trois mois est considéré comme non-fiable jusqu'au retest suivant.

Indépendance éditoriale

Ce site contient des liens d'affiliation. Quand vous cliquez depuis notre fiche vers un service tiers et que vous souscrivez, le service tiers nous rémunère — c'est ce qui finance notre travail de test. Cela ne change jamais notre scoring : la méthodologie est antérieure à l'affiliation, les tests sont effectués sans contact avec le service, et aucun service n'a accès à son score avant publication.

Si un service nous contacte pour "corriger" un score ou demander un retest spécial, nous refusons. Le protocole est le protocole, les retests ont lieu au rythme trimestriel, point.

Reproductibilité

Les 10 prompts standards sont documentés dans nos notes internes et peuvent être demandés par email à [email protected]. Si vous voulez refaire le test vous-même sur un service, nous vous transmettrons la liste exacte, le protocole d'exécution, et les critères d'évaluation. Nos scores doivent être reproductibles dans un intervalle de ±5 points par testeur.