Profitez-en, après celui là c'est fini

Recadrage intelligent

octobre 31st, 2009 Posted in Images

En commentaire à mon récent billet sur les formats d’écran, Erwan (Iconique.net) évoque les technologies de redimensionnement intelligent que l’on développe depuis quelques années et qui permettent de compacter une image après analyse de son contenu. Les éléments jugés importants ne sont pas ou pas trop déformés tandis que les autres le sont.
C’était l’occasion de tester cette technologie…

fewdollars

Pour effectuer mes tests, j’ai repris un plan tiré de Pour quelques dollars de plus, de Sergio Leone, dont la proportion 2.36:1 pose des problèmes lorsqu’on souhaite le diffuser sur un téléviseur standard, dont le rapport est de 1.33:1.

seamcarving1

Les opérations sont plus ou moins automatisées puisque l’on peut, de manière optionnelle, décider quelles zones on veut épargner et quelles zones on accepte de sacrifier.

seamcarving4
J’ai testé plusieurs logiciels librement utilisables : Seam Carving GuiLiquid resize retargetIntuimage et Le logiciel rsizr (en ligne). Il semble que cette technologie ait été intégrée à Adobe Photoshop CS4 sous le nom « échelle basée sur le contenu » — traduction douteuse de « Content Aware Scaling » (mise à l’échelle consciente du contenu), mais je n’ai pas Photoshop CS4 sous la main pour faire des essais.

seamcarving2

Les résultats obtenus sont plus ou moins heureux (et jamais supérieurs à ce que ferait un bon retoucheur photo à mon avis), mais l’opération peut être quasi-invisible si le changement d’échelle est raisonnable ou si l’image est vraiment adaptée (mer, ciel). Les rendus les plus outrées, qui tassent visuellement les éléments de l’image comme on range une valise mais sans compréhension de leur sens ou de leur hiérarchie, peuvent être assez amusants.

seamcarving3

Les inventeurs du principe, Shai Avidan et Ariel Shamir (Mitsubishi Electric Research Labs ; Interdisciplinary Center) ont présenté au Siggraph 2008 une implémentation du Seam Carving pour le traitement vidéo. Le travail du programme sur les images animées peut être facilité par leur nature puisque le mouvement permet de mieux comprendre les contours des objets et de mieux les distinguer du décor.

  1. 23 Responses to “Recadrage intelligent”

  2. By Kfadelk on Oct 31, 2009

    Ces techniques sont utiles pour des images fixes, mais je suppose qu’elles ne sont pas transposables à des images animées.
    Personnellement j’ai beaucoup de mal avec les images déformées, particulièrement quand le traitement n’est pas uniforme sur l’image : ça me fiche une migraine pas possible. Et les actrices sont beaucoup moins jolies quand elles ont les cuisses de Tyson :)

    (Sinon j’aime beaucoup ton blog.)

  3. By Jean-no on Oct 31, 2009

    @Vadim : il faut que je voie le résultat, je n’y ai jamais fait attention (mais j’ai un écran 4/3)
    @Kfadelk : avec des images animées, ça donne ça : http://vimeo.com/1370561

  4. By vadim on Oct 31, 2009

    je viens de remarquer que le dernier quicktime 7 propose en lecture plein écran d’étirer une vidéo 4/3 en 16/9 sans déformer le centre de l’image. Et ça marche assez bien…

  5. By Erwan on Oct 31, 2009

    Bonjour Jean-no,
    et bravo pour cet approfondissement sur le seam carving. L’image que tu prends pour base de travail est assez complexe, et montre bien les limites actuelles du procédé. D’autres, plus simples, peuvent déjà faire l’objet d’un traitement assez convaincant. Et nul doute pour moi que cette technique va être améliorée, que son usage va s’étendre. Elle me semble intéressante même dans le cadre de l’utilisation d’un seul écran, celui d’un mobile tel que l’iPhone par exemple, selon qu’on le positionne à l’horizontale ou à la verticale.

  6. By gregseth on Oct 31, 2009

    Bonjour,

    J’ai fait le test avec Photoshop CS4, le résultat est très semblable aux traitements pas défaut de Liquid Resize Retarget et Resizr. Je dois dire que j’en attendais à un peu mieux, me souvenant avoir été particulièrement impressionné par les possibilités de cet outil à la sortie de CS4.

    Concernant les proportions des images (et en rapport avec le billet précédent sur le sujet) je dois dire que j’y suis très sensible, et j’ai beaucoup de mal à regarder une vidéo déformé, d’autant plus si la déformation n’est pas uniforme. Le comble du ridicule étant de s’acheter le dernier téléviseur de plus d’un mètre de diagonale et de regarder les programmes diffusés en 4/3 déformés pour s’adapter au format 16/9 !

  7. By Hobopok on Nov 1, 2009

    A tester pour faire tenir Guernica sur un timbre poste.

  8. By Jean-no on Nov 1, 2009

    @Hobopok : tenté le coup sur http://rsizr.com/ et le résultat n’est pas honteux. Ce qui pose question.

  9. By david t on Nov 1, 2009

    je ne connaissais pas cette technologie. c’est très impressionnant à vrai dire. bien sûr, pour un rendu correct il faudra toujours une action humaine mais entretemps l’ordinateur a quand même fait 80% et plus du travail.

  10. By Erwan on Nov 1, 2009

    J’ai suggéré la prise en compte de ce billet par le petit observatoire de la retouche de mots d’images (Béat Brüsch). Cette forme particulière de retouche est appelée à (re)poser quelques questions passionnantes, d’ordre philosophique. Il est clair, par exemple, qu’une telle technologie va plutôt dans le sens de l’horreur du « vide », qui est allègrement comprimé, alors que le vide est loin d’être toujours inutile.

  11. By jiemji on Nov 1, 2009

    @Vadim : La plupart des télés actuelles savent faire ce type de manipulation, une déformation qui vise à étirer les bords de l’image en laissant le centre plus ou moins intact. ça part du postulat que les visages sont centrés et que les bords de l’image sont accessoires.
    Le truc intéressant est que ça déforme les textes qui défilent en bas d’écran (news, mentions légales) et provoquent une accélération de leur défilement quand ils rentrent dans l’écran et en sortent.

  12. By Neovov on Nov 1, 2009

    C’est faisable, mais ça a ses limites.

    Sur une vidéo ça peut donner de bons résultats, mais ça peut poser des problèmes sur certains plans. Imaginons que dans cette scène, les deux personnages parlent d’un verre posé sur le bar. Avec le procédé de mise à l’échelle il peut très bien être supprimé puisqu’il ne s’agit pas d’un objet en mouvement.

    Je doute que les constructeurs s’intéressent à ça. Je pense qu’il est moins couteux, en temps processeur, de faire une détection de format et de l’adapter « au mieux » que de s’efforcer à traiter l’image. Surtout que bientôt il n’y aura que du numérique, les calculs sont donc encore plus simples.

  13. By sf on Nov 4, 2009

    Je ne me lasse pas de ces images. Elles m’ont d’abord fait penser à la compression mp3 qui débarrasse un morceau de musique de ce qui, scientifiquement parlant, ne lui est pas essentiel. Si la qualité du son en lui-même est altérée, la mélodie en revanche reste reconnaissable.
    Mais en regardant plus attentivement ces images, on se rend compte qu’elles prennent un autre sens. Sans même prêter au réalisateur des intentions délirantes, l’écrasement de la perspective, de la profondeur de champ, réduit toutes les tensions relatives à la scène et plutôt qu’attendre de dégainer, le personnage de gauche semble prier.
    Si tous les éléments essentiels sont bien présents à l’écran, ces images racontent néanmoins une autre histoire.
    Comme cela a déjà été mentionner, ce procédé privilégie l’action (des personnages), et pas forcément l’interaction (personnages/décors).
    Reste à savoir si, le procédé se généralisant, cela va influencer la manière dont les réalisateurs vont penser leurs films.

  14. By sf on Nov 4, 2009

    Cela me fait aussi songer à une table ronde (on ne maîtrise pas ses associations d’idées) ayant eu lieu récemment à Paris et concernant le thème de la conservation des œuvres numériques: un des intervenants (Maurice Benayoun, je crois), avait souligner la nécessité pour un artiste de « documenter » son travail, c’est-à-dire non seulement d’en spécifier les caractéristiques de monstration mais aussi, dans la mesure du possible, d’en isoler les éléments importants, sans lesquels l’œuvre ne ferait plus sens, afin que dans un futur proche ou lointain, cette œuvre puisse être montrer indépendamment de la plate-forme informatique sur laquelle elle avait été conçue.
    On peut imaginer qu’à l’avenir les réalisateurs de cinéma fournissent pour chaque film déjà diffusé, un note d’intention inhérente à chaque scène, spécifiant les éléments, les indices, à ne surtout pas compresser.
    Une espèce de testament.

  15. By Jean-no on Nov 5, 2009

    Des images vraiment étranges, n’est-ce pas.

    Il n’a pas tort Benayoun, documenter son travail est vraiment important notamment dans le numérique.
    Pour les annotations, voir le logiciel « ligne de temps » en développement par l’Iri, qui sert à ajouter un contenu aux films.

  16. By Jean-louis Frechin on Nov 7, 2009

    Merci jean noel, tres interressant. aura t’on des debat aussi intense que sur la colorisation du N&B sur les recadrages ?

  17. By Femme de Science(s) on Fév 18, 2010

    Ces techniques sont utiles pour des images fixes, mais je suppose qu’elles ne sont pas transposables à des images animées.

    Dans l’absolu, si, une vidéo est essentiellement une succession d’images fixes. La limitation est le temps de calcul, il « suffit » d’avoir un algorithme qui tourne en temps réel. Des approches vidéo on déjà été présentées.
    http://www.faculty.idc.ac.il/arik/SCWeb/vidret/index.html

    J’ai deux petites remarques:

    1) tu as poussé les illustrations dans les extrêmes, en réduisant de moitié l’image. Même le meilleur algorithme du monde va échouer à ce stade, à moins d’avoir un fond presque uniforme. Un algorithme de ce genre sera suffisant s’il permet de passer du 4:3 ou 16:9, et pas nécessairement au 2:3…

    Et je pense que même avec le state of the art actuel, en croppant un peu, compressant un peu et en faisant le reste de façon intelligente, on obtient déjà des résultats corrects.

    2) il existe déjà pas mal de versions améliorées du seam carving. Si je ne me trompe pas, les premières versions sont basées sur le gradient de l’image avec la supposition un peu simpliste que le fond est lisse (gradient faible) et les objets d’avant plan de détachent du fond (gradient élevé). D’autres approches essaient donc de combiner une analyse préalable de l’image, avec diverses techniques de segmentation et d’analyse de l’image à plusieurs niveaux.

    Pour avoir une idée des derniers travaux, un petit « seam carving » dans scholar.google.com Il y en a des pages…

  18. By Jean-no on Fév 18, 2010

    @Femme de science(s): Pour les images animées, c’est vrai, ce ne sont que des suites d’images fixes, et même, je pense (sauf limites en temps de calcul) que l’animation peut permettre de mieux comprendre les formes et donc de savoir quoi couper et comment.

  19. By Femme de Science(s) on Fév 18, 2010

    Ouais, j’ai pris un raccourci, ce ne sont pas qu’une série d’images fixes. A ma connaissance (je ne suis pas experte vidéo), il y a deux grandes façons d’encoder une vidéo (donc pour la compresser): Partir d’une image fixe de référence (#0) et exprimer l’image suivante (#1) comme sa différence d’avec l’image zéro (les contenus de deux images successives étant similaires, la différence contient moins d’information qu’une image de référence, d’où possibilité de compression importante), puis exprimer l’image #3 comme la #2 plus leur différence, etc. Et toutes les N images, avoir à nouveau une image « de référence » afin d’éviter que les erreurs ne s’accumulent, et recommencer.

    Sinon, on peut avoir un certain nombre d’image de référence (genre 1 sur 3) et calculer les images intermédiaires par interpolation.

    Après les détails des nombres d’image de référence, d’intra-images, comment dire… pffff?

  20. By Femme de Science(s) on Fév 18, 2010

    J’ai perdu le fil… Ouais, donc je disais: je ne suis pas experte, mais comme l’information de différence entre deux images est exprimée sous forme de « motion vector », j’imagine qu’on peut utiliser cette info pour déterminer les éléments importants en supposant par exemple que si ça bouge, c’est important, si ça ne bouge pas, c’est le fond, on s’en fiche. Mais alors là, je le sors de mon chapeau et ce n’est que de la supposition sauvage (et j’ai la flemme de me renseigner).

  21. By Jean-no on Fév 18, 2010

    Je pense sans vérifier non plus que c’est possible. Les trucs incroyables qui sortent des laboratoires de Microsoft utilisent l’animation pour comprendre le volume de ce qui est filmé et pour ensuite permettre des retouches appliquées à 25 images/seconde (voir photosynth.net/.

  22. By Femme de Science(s) on Fév 18, 2010

    Je connais photosynth, mais c’est du panorama stichting, la technique est bien plus ancienne et n’a pas grand chose à voir avec la capacité de resizer un film en temps réel dans une télé, par exemple. Par sûre où tu veux en venir.

  23. By Jean-no on Fév 18, 2010

    J’ai eu la flemme d’aller chercher le bon lien, je croyais me rappeler que c’était lié à Photosynth (projet qui fait des choses étonnantes en 3D aussi, mais peut-être pas dans la version distribuée au public, j’ai vu des démos incroyables). Mais en fait non, je pensais à Unwrap mosaics.

  24. By Femme de Science(s) on Fév 19, 2010

    Ah ouais, ça a l’air pas mal (et nettement plus pertinent), je vais tâcher de me renseigner la moindre.

Postez un commentaire


Veuillez noter que l'auteur de ce blog s'autorise à modifier vos commentaires afin d'améliorer leur mise en forme (liens, orthographe) si cela est nécessaire.
En ajoutant un commentaire à cette page, vous acceptez implicitement que celui-ci soit diffusé non seulement ici-même mais aussi sous une autre forme, électronique ou imprimée par exemple.