First rule of exception handling: Do not do exception handling!

Error: There is no error!

Tästä onkin pitänyt jo hetken aikaa pistää ajatuksia ylös, koulutuksissa aiheesta aina saarnaan mutta yritetään koota ajatuksia enemmän tai vähemmän koherentisti jopa artikkelin muotoon. Lainasin iskevän Fight Club henkisen artikkelin toisesta paikkaa, mutta ajatukset ovat ihan omia. Niissähän voi olla myös mielipiteitä ja jopa väärinkäsityksiä, eli tunne olosi vapaaksi kertoa mielipiteitäsi 😉 😉

NullpointerException at line 5872/Error: There is no error!

Konsulttihommissa ja ihan vain käyttäessä kotimaisia ja ulkomaisia web-sovelluksia on tullut nähtyä mitä kauheampia lähestymistapoja virhekäsittelyyn. Alkaen ohjelmiston kaatumisesta ja stacktrace-virhepinosta ruudulla tai lähdekoodin näkemisestä ihan vain tyhjään valkoiseen sivuun tai klassisiin: generic error, something unexpected happened tyyppisiin. Kun virhekäsittely on tehty huonosti, se luo suunnattomia tietoturva-haavottuvuuksia, ja luo ohjelmistosta myös huonolaatuisen ja epävakaan kuvan käyttäjille – mikä kaiken lisäksi on useimmiten totta.

Takaisin polulle

Miksi sitten virhekäsittelyä ei tehdä oikein? Kun projektin aikataulupaineet puskevat päälle mennään usein kiireen alla koodaamaan ja silloin saattaa olla että keskitytään vain siihen yhteen ainoaan happy-skenaarioon testauksessa, siihen kun kaikki toimii. Yhtä tärkeää olisi myös miettiä polut: Mikä voi mennä pieleen. Testata ne, rakentaa niille käsittelyt jotka mahdollisimman sulavasti ohjaavat käyttäjän taas tuottavalle polulle. Tässä onkin virheiden käsittelyn tärkein oppi (ja hyvä neuvo elämässä noin muutenkin). Älä keskity siihen mikä meni pieleen – keskity siihen miten normaalitoiminta voi taas jatkua.

Sovelluksessa tapahtuvat epänormaalit tilanteet johtuvat tyypillisesti kahdesta eri asiasta: Käyttäjästä, tai olosuhteista. Edelliset eivät ole oikeastaan virheitä, vaan väärinkäsityksiä, jotka pitää lempeästi ohjaten oikaista. Jälkimmäiset taas ovat asioita joista käyttäjälle on tarpeetonta tiedottaa näyttäen poikkeuspinoa ja koodin rivinumeroita: Loggaa niiden tekniset yksityiskohdat talteen, korjaa ne välittömästi jos pystyt, tai jos et pysty, kerro käyttäjälle että järjestelmässä on ongelmaa, anna ohjeet miten tästä voi edetä, ja mielellään tiketti jolla logiviestit voidaan jäljittää.

Opasta käyttäjää lempeästi

Ohjaa siis käyttäjä takaisin tuottavalle polulle. Se tarkoittaa että ennakoit mahdollisia virhetiloja. Tuliko syöte joka ei ole sallittu? Opasta käyttäjää hyvin esimerkein. Älä anna sovelluksen kaatua ylimääräiseen heittomerkkin tai pienempi-kuin merkkiin. Älä tyhjennä syötettyä lomaketta tiedoista ja näytä käyttäjälle virheilmoitusta tyyliin: ”Syötteessä oli virhe. Yritä uudelleen”.  Hyvä virhekäsittely ei hävitä jo syötettyjä tietoja mutta näyttää tarkalleen missä syötevirhe oli ja mieluiten hyvän esimerkin kera millaista syötettä tässä odotetaan. Esim. puhelinnumerot, päivämäärät, numerot menevät herkästi sekaisin, ja väärinkäsityksen vuoksi merkkijono voi olla aivan liian lyhyt tai pitkä. Tarkista myös että syötetyt merkit ovat järkeviä sovelluksen kannalta: Unicodessa on n. 65 000 merkkiä joista periaatteessa jokainen voi olla turvariski väärissä olosuhteissa. Ehkä siis on parempi olla tarkistamatta erikseen vaarallisia merkkejä, ja sensijaan miettiä tarkemmin mikä on sallittua.

Jotain odottamatonta tapahtui – odota hetki ja yritä uudelleen, tai ota yhteys ylläpitoon

Kun jotain odottamatonta menee pieleen se voi johtua esim. odottamattomasta kuormituksesta, verkkoyhteyksien menettämisestä, sähkökatkoksesta, odottamattomasta uudelleenkäynnistyksestä, viiveiden aiheuttamasta timeoutista, siitä että joku kompastui verkko tai sähköjohtoon, kovalevy hajosi, etc. Mikään näistähän ei ole oikeasti odottamatonta, eihän? Näitä tapahtuu, ja näitä voi myös testata. Voit tarkistaa miten sovelluksessasi näkyy kun kantapalvelin ajetaan alas tai joku osakomponentti hajoaa tai sammuu. Kuormitusta voidaan simuloida ja vasteaikoja testata. Toisin sanoen, kun odotettuja odottamattomia virhetiloja ilmenee, hyvin tehty järjestelmä kertoo käyttäjälle riittävästi, loggaa yksityiskohdat talteen, ja tarvittaessa hälyttää ylläpidon jotta jotain voidaan tehdä. Ja kun jotain todella odottamatonta tapahtuu, prosessi on periaatteessa sama mutta ehkä kiireisempi. On mahdollista tehdä geneerinen virhekäsittely joka kattaa loput tilanteet joita ei todellakaan osattu odottaa. Miten nopeasti virheen sattumisesta päästään taas takaisin tuottavalle polulle? Siinä erottuvat jyvät akanoista.

Virheiden käsittelyn Antipatterneja

Sanaa antipattern en edes yritä suomentaa (Vastahahmo? ;), mutta on tullut nähtyä kooditasolla levinneitä turmiollisia lähestymistapoja siihen miten virheitä käsitellään. Mitä vikaa on seuraavissa malleissa?

try {
      // Some code that causes errors here
} catch (NullPointerException npe) {
} catch (ArrayIndexOutOfBoundsException aiooe) {
      aiooe.printStackTrace();
} catch (Exception ex) {
      showErrors("Connection failure, please try again");
}

Hoksaatko mitään turmiollista? Siinä on ainakin kolme antipatternia käytössä. Osa näistä johtui Java kielen valitettavasta visiosta käyttää checked exception mallia eli pakko-käsitellä tyyppisiä poikkeuksia. Se on saanut ohjelmistokehittäjät generoimaan usein tarpeettomia try-catch-lauseita, piilottelemaan poikkeuksia, käsittelemään niitä kun ei ole aika käsitellä, ja käsittelemään niitä huonosti. Mikä meni pieleen?

– Huomasit varmaan tyhjän catch-lohkon. Sellaisia löytyy jopa tuotantokoodista. Oletan että syynä on, että poikkeus laukeaa herkästi mutta on suhteellisen harmiton joten se lakaistaan maton alle. On ehkä 1 tapaus 100:ssa missä on perusteltua tehdä sellainen, eli poikkeus pitää piilottaa. Sellainen poikkeuksellinen tilanne pitäisi kuitenkin dokumentoida ja sen pitäisi olla harvinaisuus, ei yleinen käytäntö. Jos jotain menee pieleen, ja piilotat sen, ongelma ei ole poistunut, ja se tyypillisesti rantautuu myöhemmin jossain muualla mitä mielikuvituksellisimmin tavoin, ja tekee alkuperäisen syyn löytämisen äärettömän vaikeaksi. Se harvinainen tilanne jossa tuo voi olla ok on jos pitää tulla toimeen taustajärjestelmän päällä joka jostain syystä käyttää poikkeuskäsittelyä väärin, ei kerro virhetiloista vaan tekee niillä jotain muuta. Tyhjä catch lohko on paholaisesta.

– Toinen antipattern on äärimmäisen yleinen ex.printStackTrace() kutsu, generoituna suoraan Eclipsestä. Se toimii kehittäjän koneella hienosti, kun virhepino menee konsoliin, mutta asennettuna ei konsolia olekaan. Jos kyseessä on android tai palvelinsofta, virheet tulostuvat logiin. Mutta kukaan ei ehkä koskan katsele logia. Tai jos katselee, merkityksellinen tieto hukkuu sadantuhannen stacktrace tulostuksen alle. Ei näin. Tämä on oikeastaan variaatio edellisestä eli tyhjästä catch lohkosta. Mitä pitää tehdä kun havaitaan poikkeus? Pysähdy, pistä detailit logiin jos virhe todella johtuu ympäristöstä tai on syytä logata. Korjaa ongelma jos se on korjattavissa. Jos ei ole, tiedota niitä jotka pystyvät sen korjaamaan. Ellet pysty tekemään mitään näistä, kuplita virhe eteenpäin tasoon jossa voidaan näin tehdä, yleensä UI taso. Tiedota ylläpitoa jos tarpeen. Tiedota käyttäjää aina. NullPointerException ei kerro mitään käyttäjälle (toivon mukaan), muista kertoa miten tästä päästään eteenpäin eikä sitä mikä meni vikaan.

– Kolmas antipattern yllä on catch-all lohko. Sitä näkee usein ainoana try-catch lohkona, ja usein viimeisenä käsittelynä kuten yllä. Tällekin voi olla joskus perusteensa, mutta useimmiten sitä käytetään aivan liian aikaisin. Catch-all lohkon ongelma on että se todella saa kaikki virheet kiinni, mistä ikinä ne johtuivatkaan. Jos se on liian aikaisin otettu käyttöön, siihen sisältyy röyhkeä oletus että pystyt käsittelemään minkä hyvänsä virheen samalla kaavalla. Mikä voi olla totta, mutta ellei se olekaan, olet taas piilottanut ongelmia muiden alle. Eli käsittely on ok kun todella haluat käsitellä kaikki jäljellä olevat ongelmat, käsittely on väärin kun otat laajasti kiinni mutta sovellat suppeasti virheen näyttöä, kuten yllä.

Mikään ylläolevista ei ole 100% ajasta tuhoisa tai edes väärin, kyse on nyansseista.

Suosituksia poikkeuskäsittelyyn

Älä ota poikkeuksia kiinni liian aikaisin. Jos et ole valmis korjaamaan ongelmaa tai keskustelemaan käyttäjän kanssa, heitä sama poikkeus tai uusi poikkeus uudelleen, kuplita, delegoi seuraavalle kutsupinossa kunnes päästään paikkaan missä voidaan korjata ongelma tai keskustella käyttäjän kanssa siitä miten se korjataan.

Älä loggaa samaa ongelmaa kahdesti tai useammin, kerta riittää. 

Paras tapa saada aikaan hyvä poikkeuskäsittely on hyvä testaus. Kehitä automatisoidut testit käyttöliittymään ja simuloi virheellisiä syötteitä ja muita virhetiloja siinä missä onnistumistakin. Kehitä myös kuormatestausta. Näin näet miten ne ilmenevät käyttöliittymässä, ja bonuksena tällaisten testien uudelleenkäytettävyysarvo on erinomainen. Testaa, testaa, testaa.

– Käyttäjävirheitä jotka johtuvat esim. validoinnista ei yleensä kannata logata (ja tukkia logia tarpeettomalla hälyllä), vaan keskity ohjaamaan käyttäjä oikealle suorituspolulle takaisin. Älä keskity siihen mikä meni pieleen, vaan keskity ohjaamaan käyttäjää miten toimia oikein, hyvän esimerkin kera. Jos käyttöliittymäsi käyttää idioottivarmoja kontrolleja tiedon keruuseen ja omaa hyvän validointilogiikan, voi olla että käyttäjävirheitä ei juuri tapahdu. Pyri siihen että käyttäjän aiheuttamat virheet eivät aiheuta poikkeuksia.

– Järjestelmä ja ympäristövirheet ovat vakavia, ja usein toiminnan pysäyttäviä. Käyttäjä harvoin voi niitä itse korjata. Osa virheistä voi korjautua itselläänkin, mutta tyypillisesti on hyvä logata yksityiskohdat, herätellä joku ylläpidosta tekemään jotain. Jos automatiikka ei siihen riitä, manuaalinen tapa on näyttää käyttäjälle geneerinen sivu jossa on ylläpidon yhteystiedot ja tikettinumero. Tässä tapauksessa älä anna käyttäjälle yksityiskohtia jo tietoturvasyistäkään, mutta loggaa ne huolella, ja pidä huoli että asialle tehdään jotain nopeasti.

– Sitten on ryhmä, todella odottamattomat virheet. Jos näihin yleensä pystyy reagoimaan, lähestymistapa on jotakuinkin sama kuin yllä, sillä erotuksella että nyt on KRIITTISTÄ pistää tietoa ylös virheestä ja nopeasti saada korjausta aikaan. Nämä tulisi myös logissa nostaa selkeästi omaan kategoriaansa että johtolangat löytyvät selkeästi. On ihan ok tehdä koko pinon päälle vielä geneerinen catch-all lohko joka ottaa kiinni kaikki todella odottamattomat virheet – jotta käyttäjän ruudulle ei pauku poikkeuskoodeja ja pinoja. Se ei vain saa olla ainoa poikkeuskäsittelymalli. Pidä myös huoli että käsittely tallettaa riittävästi yksityiskohtaista tietoa siitä mikä meni vikaan.

Siinäpä se. Suorituskyvyn suhteen on myös hyvä muistaa että poikkeuksien heittäminen ja etenkin poikkeuksen ottaminen kiinni ja heittäminen uudelleen on erittäin tehosyöppöä. Mutta sovelluskehityksen ensimmäiset prioriteetit ovat toimivuus ja selkeys, ja kuten opetan kursseilla, optimointia ei pidä lähteä tekemään ellei siihen ole syytä. Jos on, poikkeuskäsittelyn minimointi antaa vastalahjaksi usein suoritusnopeutta lisää. Tästä on kirjoitettu lukemattomia artikkeleita jos aihe kiinnostaa.

Muutamia muita hajatuksia aiheesta:

http://mikehadlow.blogspot.fi/2009/08/first-rule-of-exception-handling-do-not.html

http://today.java.net/article/2006/04/04/exception-handling-antipatterns

Advertisements

Vastaa

Täytä tietosi alle tai klikkaa kuvaketta kirjautuaksesi sisään:

WordPress.com-logo

Olet kommentoimassa WordPress.com -tilin nimissä. Log Out / Muuta )

Twitter-kuva

Olet kommentoimassa Twitter -tilin nimissä. Log Out / Muuta )

Facebook-kuva

Olet kommentoimassa Facebook -tilin nimissä. Log Out / Muuta )

Google+ photo

Olet kommentoimassa Google+ -tilin nimissä. Log Out / Muuta )

Muodostetaan yhteyttä palveluun %s