Glöm inte bildbeskärningen!

En av idéerna till nya TV4.se som kom förra året var att mycket av materialet till sajten skulle komma från automatiska flöden. I den tidigare versionen fanns tablådata med men de var helt frikopplade från de sidor om programmet som redaktionen skapat manuellt.

För att göra sidorna grafiskt tilltalande och för att tydligt särskilja programmen från varandra ville vi ha en topp som visade ett foto från programmet, programmets titel och den kanal programmet tillhör. Toppbilden är när den visas på desktop väldigt bred.

Eftersom det totala antalet program är stort ville vi kunna använda bilder från TV4:s presstjänst rakt av och enbart för de mest populära programmen manuellt ladda upp en ny bild som det lagts mer arbete bakom för att passa på webbplatsen. I de fall där det saknades pressbild tänkte vi oss kunna använda bilder från avsnitten på TV4 Play.

Det visade sig dock att vi varit för optimistiska. I stort sett alla foton och alla screen grabs är i format som inte är lika breda. Under projektets gång blev det uppenbart att regelmässig beskärning utan hänsyn till bildens innehåll inte sällan ger upphov till lustiga, groteska eller vad som verkar vara kroppsfixerade resultat.

Skärmavbild 2013-01-26 kl. 22.39.37

Även på Facebook kan man se detta fenomen. Tydligast är det i mobil- eller surfplatteklienterna där stora delar av bilden försvinner när man ser dem i flödet. Den verkar förutsätta att det intressanta finns mitt i och skär lika mycket nedtill som upptill.

Med en bättre heuristik hade man nog sett till att klippa lite längre upp i bilden eftersom det intressanta (läs: ansikten) oftare finns där.

Bild på deltagare i Gladiatorerna visade i Facebooks iPad-klient. Ansiktena syns inte.

Bild på Niklas Wikegård och Leif Boork i Facebooks iPad-klient. Ansiktena syns inte.

Ett sätt att oftare beskära fram det intressanta är att automatiskt försöka avgöra vilken del som är mest intressant. Om vi börjar med den enklaste delen, ansikten, så skulle man t.ex. kunna avgöra var alla ansikten i bilden finns och göra en beskärning så att många som möjligt av dem kommer med.

Tjänsten Face.com som hade ett API för detta finns inte längre kvar efter att ha köpts upp av Facebook. Alternativ finns dock i t.ex. Sky Biometrys och Lambda labs API-er. Notera att vi inte behöver identifiera vems ansikte det är utan bara att det finns ett ansikte.

När det inte finns några ansikten i bilden blir det förstås mer besvärligt. För att hålla det enkelt vill man inte behöva identifiera typ av objekt i bilden utan bara var man tror det finns sådana. Forskningen inom bildbehandling och bildanalys har gett en del olika energimått som skulle kunna användas, t.ex.: gradientmagnitud, entropi och visual saliency (ungefär: visuellt framträdande).

Ta som exempel följande två bilder:

Denna bild från Mia på Grötö visas i Facebooks app som grönt te och vad som ser ut att vara en korg.

groto

Denna bild från avgående hallåan Fredrik Östling visas i Facebooks app utan det som gör bilden speciell, vilket i och för sig skulle kunna vara en fördel så att det avslöjas först när betraktaren klickar för att se hela bilden.

14983_421868577888047_869195362_n

En enkel tumregel skulle vara att lokalisera delen med mest energi och se till att denna finns inom den del av bilden som är kvar efter beskärning. Den behöver nödvändigtvis inte vara i mitten av den resulterande bilden.

På den första bilden ser vi att fatet med innehåll längst ner i bild är det som algoritmen tyckte var den mest framträdande detaljen i bilden.

grotosaliency

Den andra bilden har sina två mest intressanta regioner i varsitt hörn. Dels kameran längst upp till vänster och dels Fredriks bara ben längst ned till höger. Så det är i det här fallet inte helt självklart vilken del man hade plockat ut om man följt denna regel.

ostlingsaliency

I slutändan blev lösningen för oss en annan. Vi låter helt enkelt manuellt klippa bilder för alla program som sänds. Det arbetet genomförs av vår partner Red bee media som ansvarar för förädling av metadata kring våra program sedan ungefär ett år. Det är förstås inte en lösning som skulle fungera för t.ex. Facebook i någon större utsträckning så de kanske borde titta på teknikerna beskrivna ovan.

Skärmavbild 2013-01-26 kl. 22.39.52

Se mer om visual saliency i den vetenskapliga artikeln Itti, Koch, Niebur: A Model of Saliency-Based Visual Attention for Rapid Scene Analysis (PDF-format).

Bilderna med exempel är framtagna med kod från artikeln Static and Space-time Visual Saliency Detection by Self-Resemblance av Hae Jong Seo och Peyman Milanfar, publicerad i The Journal of Vision 9(12):15, 1-27.

Läs om vår kommentarspolicy