Vizualizarea datelor Wave 3

Înțelegerea convergenței instrumentelor, a audiențelor și a modurilor

Aceasta este o scriere a notei mele cheie din Conferința de Tapiserie 2018 (mai sus). Puteți vedea diapozitivele (din care am derivat multe dintre imaginile de mai jos) cu note de difuzor aici.

Imaginează-ți cum ar fi să faci vizualizarea datelor acum 30 de ani. Este în 1988 și utilizați Excel 2.0 pentru diagrame simple, cum ar fi graficele de plăcintă și graficele de linie, sau poate ceva de genul SPSS pentru explorare mai complicată și Arc / Info pentru vizualizarea datelor geospatiale. Unele tipuri de diagrame care au devenit destul de omniprezente, cum ar fi treemap-ul, nu au fost încă inventate încă. Dar în 1988, afișarea vizuală a informațiilor cantitative a lui Edward Tufte avea deja cinci ani.

Filmarea analiștilor care operează Excel 2.0 pentru a realiza graficele de plăcinte c. 1988

Acum, imaginați-vă cum a fost să faceți vizualizarea datelor acum 15 ani. Nu a existat D3, nici Tableau, nici ggplot sau chiar Prefuse / Flare. Dacă ați dori să faceți vizualizare în rețea, puteți utiliza Cytoscape recent publicat, deși a fost axat pe bioinformatică. Opțiunile geospatiale au fost mai avansate, ArcGIS oferind din ce în ce mai multe funcționalități cartografice în numeroasele sale cutii de instrumente roșii.

Diferența dintre tradițiile care sprijină vizualizarea datelor geospatiale și vizualizarea datelor de rețea: în 2003 era deja versiunea 8.0 a ArcGIS, în timp ce în același an a fost lansat primul instrument modern de vizualizare a datelor din rețea: Cytoscape.

Știu cât de mult s-au schimbat vizualizarea datelor, deoarece am petrecut ultimii zece ani, făcând astfel produse de vizualizare a datelor într-o formă sau alta. Lucrări mari care se confruntă cu publicul, precum ORBIS și Kindred Britain, precum și mai puțin vizualizarea datelor publice pentru distracție sau pentru a sprijini cercetarea, analiza și explorarea. Alături de activitatea practică de vizualizare a datelor, am scris astăzi o carte despre cea mai puternică bibliotecă de vizualizare a datelor din lume: D3. Și apoi am scris din nou acea carte. În ultimul an am construit propria mea bibliotecă de diagrame, Semiotic. De asemenea, am derulat un sondaj anual asupra profesioniștilor în domeniul vizualizării datelor în ultimii doi ani. Și pe parcurs am scris despre vizualizarea datelor aici pe Medium.

Nu de aceea am fost invitat să dau o notă cheie la Tapiserie. Am fost invitat pentru că fac comentarii incendiare pe social media și în interviuri și, ocazional, în discuții. Am spus de mult timp că ar trebui să fim mai confortabili cu critica în vizualizarea datelor, dar fără context, observațiile pe care le fac ar putea părea arbitrare și pline de spirit.

Prin urmare, am fost fericită să am această oportunitate de a oferi context și de a-mi exprima îngrijorarea că a existat o convergență a instrumentelor și a modurilor, dar nu a existat o reorganizare corespunzătoare a gândirii și a practicii. Se pare că tot vorbim și evaluăm vizualizarea datelor ca și cum ar fi fost 1988 sau 2003, când numărul de persoane care realizează vizualizarea datelor, capacitățile instrumentelor lor și așteptările publicului lor a crescut dramatic.

Continuăm să împărțim comunitatea de vizualizare a datelor în categorii vechi, cum ar fi analiștii care folosesc instrumente BI pentru a crea rapoarte, dezvoltatorii care folosesc codul pentru a realiza vizualizarea datelor personalizate, jurnaliștii care creează povești bazate pe date sau oameni de știință care folosesc analiza datelor exploratorii. În cadrul sau între aceste grupuri avem artiști de date, oameni de știință profesioniști, analiști de afaceri și creatori de instrumente de genul pe care l-am putea vedea imortalizați în desenele animate ale lui Susie Lu. Aceste categorii de practici se potrivesc direct către anumite instrumente și moduri care, începând cu sfârșitul anului, au început să se transforme.

Primul Val: Claritate

Și, așadar, aș dori să ofer faptul că a existat, în sensul modern al vizualizării datelor, un prim val centrat pe Edward Tufte care a accentuat claritatea, simplitatea și cartografierea directă a punctelor de date, evitând cât mai multe transformări posibile. . Din această eră se observă apariția schemelor de culori spartane - adesea axate pe culori neutre sau desaturate cu o singură culoare - importanța etichetelor și a titlurilor de limbaj natural și un fel de idealizare a graficului perfect care poate fi imediat citit, accesibil și acționabil . Un fel de diagramă-ca-propoziție, cu structuri și reguli clare, precum puteți vedea în Elemente de stil.

Valul 1: Claritate

A 2-a undă: sisteme

Al doilea val s-a concentrat pe sistematizarea codificării informațiilor necesare dezvoltării instrumentelor pentru a produce vizualizarea datelor. Este centrat pe cea mai influentă lucrare pe acest subiect: The Grammar of Graphics de Leland Wilkinson. În loc de grafic ca analogie lingvistică, acesta este graficul ca o extrudare dintr-o specificație valabilă. Gramatica graficii a aspirat să le permită oamenilor să creeze un ansamblu de grafică și dacă aruncăm o privire la orice bibliotecă de vizualizare a datelor, a mea inclusă și vedem acea filozofie în acțiune.

Aceste instrumente și biblioteci anunță cantități masive de exemple și dispărute este utilizarea atentă a culorii și textului, înlocuită cu o scrisoare de dragoste către geometrie. Întreaga abordare „de exemplu” este atât de înrădăcinată în aceste instrumente încât Mike Bostock a scris o întreagă piesă pe ea.

Wave 2: Sisteme

D3, ca toate instrumentele din această perioadă, este direct inspirat de sau puternic influențat de The Grammar of Graphics. Semiotic, Victory, Highcharts, Plotly: Toate acestea provin sau sunt ele însele puternic influențate de D3. Cei doi din Gramatica grafică este locul în care ggplot își primește numele. Leland Wilkinson, autorul, a fost cercetător principal la Tableau. Gramatica grafică se concentrează într-un mod ascuțit în ras pe codificarea datelor prin canale către geometrie. Acesta este un sistem pentru codificarea graficelor din date, unde atributele datelor corespund și afectează dinamic lungimea, unghiul, culoarea sau poziția (sau orice alt caracter grafic) bazat pe date și modificări în date.

Wave 2 a vizat preluarea acestor sisteme teoretice și producerea instrumentelor necesare oricărui practicant de vizualizare a datelor pentru a crea orice expresie grafică bazată pe date. Este excelent pentru ingineri și arhitecți software care încearcă să construiască biblioteci pentru a permite vizualizarea datelor, dar nu neapărat pentru practicienii care creează produse de vizualizare a datelor. Acesta este motivul pentru care am văzut o astfel de proliferare de instrumente și biblioteci pentru vizualizarea datelor, dar o creștere concomitentă a graficelor hidoase care se prezintă ca grafice.

Căutarea unei specificații perfecte pentru codificarea atributelor de date prin canale grafice este un mijloc de finalizare. Dar puterea și succesul sistemelor construite în această perioadă au devenit scopuri pentru ei înșiși, care se bazează pe un precept de bază al The Grammar of Graphics:

Acest sistem este capabil să producă niște grafice hidoase. ... Cu toate acestea, acest sistem nu poate produce o grafică fără sens.

Prin aceasta, Wilkinson înseamnă că există o relație logică între grafică și date, dar doar pentru că graficele au un fel de „rețetă” nu înseamnă că este „cumva lipsit de sens”. Vizualizarea datelor este o formă de comunicare și dacă produceți diagrame hidoase înseamnă că sunt ilizibile și înseamnă că sunt lipsite de sens.

Vizualizarea datelor este o formă de comunicare și dacă produceți diagrame hidoase înseamnă că sunt ilizibile și înseamnă că sunt lipsite de sens.

A 2-a vizualizare a datelor Wave, cu lipsa sa de accent pe proiectarea în favoarea sistemelor a produs o pădure de tablouri și rapoarte oribile. Fiecare departament de inginerie din fiecare companie are cel puțin un grafic urât în ​​timp real, scris cu un cadru construit pe D3. Fiecare executiv are o duzină de tablouri de tablă pline cu file și vizualizări ale acelorași diagrame de linii desaturate în 10 culori. Vedem capturi de ecran din ceea ce este aparent analiza datelor exploratorii căzute în documente sau integrate în tablouri de bord fără niciun fel de optimizare. Toate acestea se întâmplă în ciuda parității în creștere a caracteristicilor între tehnologii.

Al treilea val: convergență

Avem nevoie disperată de reevaluare și redenumire a modurilor noastre. În urmă cu 5 sau 10 ani, ce fel de vizualizare a datelor ați făcut - fie că a fost un tablou de bord, un caiet, un raport sau o piesă de comunicare personalizată - a fost foarte diferit în funcție de limba, biblioteca sau instrumentul pe care îl utilizați. Nu mai este cazul.

Trebuie să ne imaginăm noi abordări care recunosc că convergența nu se întâmplă doar în capacitățile instrumentelor, ci și în așteptarea utilizatorilor care nu mai sunt dispuși să accepte că trebuie să iasă dintr-un mod pentru a optimiza pentru altul. Acest lucru presupune îndepărtarea accentului nostru de la diagramele individuale la construcția, evaluarea și livrarea produselor în care apar aceste grafice.

Platforma de notebook-uri nteract se face publicitate nu numai utilizatorilor de notebook-uri tradiționale (cercetători și oameni de știință de date), ci și unui public larg interesat de mai mult decât de

Notebook-urile devin mai asemănătoare cu tabloul de bord, tablourile de bord devin mai similare cu poveștile și, în general, există o polenizare încrucișată și o convergență între media / moduri. Puteți crea grafici frumoase cu R, puteți avea grafice ierarhice în Tableau, puteți implementa cu ușurință rapoarte de e-mail din tabloul de bord personalizat.

La Netflix, experimentăm cu caiete analitice concepute nu pentru analiza datelor exploratorii, ci vizualizarea datelor explicative și necesitățile de colaborare și comunicare cerute în acest mod. Tehnicile de povestire comune pentru jurnalismul de date sunt de vârf pentru părțile interesate care s-au dezvoltat sofisticat în gusturile lor și se așteaptă la animații și la cadre personalizate de referință.

Există din ce în ce mai multe dintre aceste tendințe pe care trebuie să le înțelegem mai bine:

  • Tipurile de diagrame esoterice, precum treemap-urile și diagramele cu link-uri nodale, sunt acum atât de accesibile încât apar peste tot și acum este nevoie de un grafic foarte ciudat pentru a fi declarat xenografic.
  • Caiete sunt utilizate ca tablouri de bord și, de asemenea, ca artefacte în procesul de inginerie și transformare a datelor.
  • Vizualizarea datelor în R a devenit aproape la fel de robustă și interactivă precum vizualizarea datelor în instrumente BI sau aplicații personalizate.
  • Oamenii sunt din ce în ce mai confortabili cu vizualizarea datelor stilizate (schițată, dar și ISOTIP).

Unde ne îndreptăm?

Acești factori contribuie cu toții la ceea ce cred că vor defini o a treia undă de vizualizare a datelor în care converg moduri ca notebook-uri, tablouri de bord și povestiri cu forme lungi, precum și instrumentele pentru crearea acestora și educarea publicului pentru care sunt destinate. Acest lucru se întâmplă de ceva timp și am reacționat la acesta, dar cred că este timpul să luăm în considerare în mod activ ce înseamnă acest lucru.

Graficele Clickbait

Asta necesită să ne îndepărtăm de așteptarea că realizăm diagrame izolate optimizate pentru o lizibilitate imediată. În prezent evaluăm și sărbătorim vizualizarea datelor care este proiectată și optimizată pentru o singură vizită. Este în regulă, dar trebuie să promovăm și să evaluăm și să înțelegem mai bine vizualizarea datelor concepute și optimizate pentru mai multe vizite. UI și UX trebuie să fie preocupări de primă clasă, iar interactivitatea nu poate fi doar un atribut al geometriei. Pentru a face acest lucru, trebuie să ne îndepărtăm de modelul de geniu izolat, creând vizualizarea datelor personalizate și să aducem cele mai bune practici de la proiecte de colaborare comune la comunitatea mai mare de dezvoltare software.

Critica de promovare

Este ușor să micșorezi câteva diagrame 3D sau cea mai recentă „hartă uimitoare”. Este posibil să pară modul în care a fost poziționat ultimul punct, dar nu, este o încercare de a ne împinge să putem să nu numai să sărbătorim ceea ce este excelent în privința vizualizării datelor, dar să vorbim sincer despre ce este rău. Trebuie să facem mai multe lucruri dacă dorim să mergem înainte ca comunitate. Dar critica este greu - greu de auzit și greu de dat bine.

O parte din motivul pentru care ne-am făcut atât de rău să oferim, să luăm și să încurajăm critica este că vizualizarea datelor a fost de mult timp o activitate individualistă. Celălalt motiv pentru care nu suntem atât de mari la critică este că a noastră este o comunitate de sărbători. Dar sărbătoarea nu este un act pe deplin pozitiv atunci când se desparte și exoticizează mecanisme puternice pentru a avansa comunicarea prin implicația că acestea sunt disponibile doar pentru jurnaliști sau freelanceri.

În parte, cred că asta are de-a face cu accentul nostru pe canalele individuale din literatura academică. Suntem foarte comode să criticăm graficele de plăcintă, deoarece știm că unghiurile sunt proaste la valoarea de codare. Dar ne lipsește orientări pentru a evalua mai holistic, astfel încât nu putem explica de ce unele alegeri de codificare, deși nu sunt optime în izolare, s-ar putea dovedi valoroase în practică. De asemenea, nu știm cum să evaluăm apelul, așa că ne lipsește limbajul sau structura pentru a explica de ce oamenilor le plac cercurile de dimensiuni din parcele de albine și parcelele cu simboluri absolvite la fel de ușor, pentru că putem explica de ce cercurile sunt o alegere proastă pentru codificarea valorii.

Redesignarea graficului lui Giorgia Lupi de Alberto Cairo din The Functional Art.

Un alt motiv pentru care nu suntem grozavi la critică este faptul că avem acest model foarte important de critică (condus de Alberto Cairo, precum și de Fernanda Viegas și Martin Wattenberg), care implică cea mai bună modalitate de a critica un viz este de a-l reface. Deși aceasta este o abordare valoroasă, este atât de scumpă în investiții în forță de muncă și intelectuală, încât este în mod natural mai puțin comună decât să evidențiezi lucruri care nu funcționează într-un produs de vizualizare a datelor. Alături de această abordare, trebuie să promovăm și să ne creștem nivelul de confort cu forme mai puțin implicate de critică.

Nu putem face acest lucru doar scriind o mulțime de opinii despre critică, deși ar fi frumos să avem câteva taxonomii ale criticii, cum ar fi taxonomiile graficelor. Trebuie să lucrăm activ pentru dezvoltarea comunității noastre pentru a fi un loc în care să oferim, să primim și să modelăm discursul critic. Piesa recentă a lui Ben Jones despre construirea unei comunități sănătoase de vizualizare a datelor oferă câteva îndrumări bune bazate pe experiența reală pe care ar trebui să o urmărim cu toții.

Înțelegeți proiectarea

Câteva rezultate legate de design ale sondajului de vizualizare a datelor din 2018.

Răspunsurile la sondaj și conversația indică faptul că designul este o temă importantă pentru îmbunătățirea practicilor de vizualizare a datelor. Dar practicienii și-au exprimat confuzia cu privire la ceea ce înseamnă design. Adică design grafic? Proiectare UI? Conceptele de gândire generală de proiectare? Proiectare informațională? Lipsește abordări de design carnea în vizualizarea datelor care pot fi învățate și învățate de profesioniștii din carieră timpurie.

Culorile și gif-urile încântătoare, precum cele găsite în vizualizarea datelor Dragonball Z ale lui Nadieh Bremer sau simple hack-uri, precum linia în „pretutindeni” sunt trucuri pe care le-am putea simți murdare, dar care se pot dovedi critice pentru a atrage utilizatorii să citească și să interacționeze cu produsul dvs. de vizualizare a datelor.

Îmbrățișați economia atenției

Cred că ziua „conștiinței ochilor” se apropie rapid.
- Otto Neurath

Când am venit prima dată la Netflix de la Stanford, m-am gândit naiv că, pentru că era o afacere, atunci angajații vor fi obligați să folosească și să învețe vizualizarea datelor pe care le-am făcut. Am aflat repede că nu a fost cazul. Cultura proprie Netflix a fost împotriva unor astfel de măsuri dictatorii, dar și mai mult, părțile interesate au încercat să ia decizii critice, iar produsele de vizualizare a datelor concurează cu alte zeci sau mai multe rapoarte de bord și rapoarte.

Drept urmare, munca pe care o desfășurăm intern la Netflix permite utilizarea de imagini, gif-uri, culoare ludică și metode vizuale noi pentru a încânta utilizatorii. Deși interdicția generală împotriva chartjunk este o regulă bună, la fel ca toate lucrurile, ea poate fi aplicată prea strict. O abordare mai decorativă care recunoaște existența unei economii de atenție chiar și într-o organizație bazată pe date va avea ca rezultat o vizualizare mai eficientă a datelor.

Sange nou

Am trecut deja printr-o perioadă dezordonată în care comunitatea noastră a simțit nevoia să se distanțeze radical de conducerea mai veche, până la punctul de a fi blocată pe Twitter de Edward Tufte a devenit un fel de rit de trecere. Nu ar trebui să facem asta pentru a auzi și amplifica noi voci. Trebuie să identificăm și să promovăm activ voci noi în conducerea vizualizării datelor.

Cine sunt lideri pentru o vizualizare a datelor de val 3? Cine profită de noile oportunități prezentate de convergența de moduri, audiențe și instrumente? Cum arată acea lucrare nouă? Este vorba despre caiete cu caracteristici de tablouri de bord și povești bazate pe date precum Boba Science al lui Krist Wongsuphasawat? Este o abordare nouă a instrumentelor de cartografiere precum Charticulator? Sau folosirea lui R pentru a crea grafică de vizualizare a datelor pentru știri, precum cea văzută în opera lui John Burn-Murdoch? Sau dataviz-ul în stil Giorgia Lupi din Tableau, cum a făcut Neil Richards? Sau este o graniță confuză între vizualizarea datelor, marginalia, desenul animat și textul văzut în RJ Andrews „INFO WE TRUST”? Sau este o abordare uimitoare desenată de Mona Chalabi? Sau este altceva?

Un lucru este sigur, avem exemple ale celor care s-au optimizat pentru cele mai bune practici din trecut, acum avem nevoie de cei care ilustrează un nou val de vizualizare a datelor.