Cibulová matematika realiťáků

Znáte to a (pokud si sáhnete do svědomí) možná jste to už sami někdy použili, když jste chtěli svým tvrzením dodat sílu a čísla vyznívala měně přesvědčivě, než byste si přáli. Jedním z argumentačních faulů při nějaké kvantitativní interpretaci totiž může být to, že v rámci intervalů neurčitosti nějakých hodnot využijete cíleně u každé hodnoty vždy ten extrém, který více vyhovuje účelu argumentace. Tato neurčitost může být dána přirozeným rozptylem dostupných údajů, zaokrouhlením, nejasným časovým určením v čase se měnící hodnoty apod. Následkem kumulativního efektu pak „nenápadně“ dojdete k číslu, které se může od střední hodnoty značně lišit.

Jak známo, mezi mistry překrucování a lakování narůžovo patří (samozřejmě kromě politiků a šmejdských prodejců dek, hrnců a homeopatik) realitní makléři. Však to asi znáte i z vlastní zkušenosti: „V centru“ znamená ve sktečnsoti „s výhledem na centrum“, zatímco „v širším centru“ je většinou „na periferii“. Když je něco „v dosahu 10 minut“, pak pouze v noci mimo špičku, k „občanské vybavenosti“ postačí již jedna vietnamská večerka na druhém konci sídliště a výdejní boxy Zásilkovny o tři bloky dál. „Útulný“ byt je eufemismus pro byt malý, a když už je „prostorný“, pak to znamená, že má tak špatnou dispozici, že disponuje spoustou nevyužitelných zákoutí a chodbiček. „Netradiční dispozice“ je oblíbený výraz, jehož jediným účelem je lákavě pojemnovat zfušovanou rekonstrukci. „Příjemné městské bydlení v dosahu přírody“ je pak často omšelá bytovka na kraji industriální zóny, stojí na brownfieldu s pár nevzhlednými náletovými stromy.

Takto bychom mohli pokračovat ještě dlouhou. Mé oko matfyzáka však před pár dny obzvláště zaujal leták jedné nejmenované realitní společnosti, mimo jiné konstatující, že nájmy v ČR se začínají blížit polovině průměrného platu. O den později se pak dokonce na Seznamu objevil PR článek s titulkem stejného znění. K obojímu byl pro větší názornost přiložen jednoduchý koláčový graf s oranžovou výsečí „40%“ a s údaji „16500 Kč“ a „43967 Kč“ v jednotlivých sektorech koláče.

Ledabylý čtenář by tuto informaci mohl vzít tak, jak je podána, a případně se mimoděk podílet na jeho dalším šíření nebo jím dokonce podmiňovat nějaké své rozhodnutí ohledně řešení otázky bydlení. Skutečnost je však o něco méně dramatická, než hlásá titulek, jehož cílem je rozpohybovat realitní kšefty.

Tak zaprvé – ohledně termínu „blížit se k něčemu“ (resp. zde ještě mírně emotivnější „šplhat“, sugerující směr nahoru), v demagogické rétorice velmi oblíbeného. Ve skutečnosti vyjadřuje pouze trend, tj. směr změny (matematik by řekl: znaménko derivace 🙂 ), tedy nikoliv skutečnou míru blízkosti nějaké hodnoty, ani rychlost její změny. V obecném jazyce však bývá často chápán jako již téměř rovnost s referenční hodnotou. Což je počertu rafinované, protože to můžete s touto konotací použít třeba v reklamě, beze strachu, že by byl takový výrok věcně napadnutelný.

Za druhé, proč nezaokrouhlit, když se výsledek posune kýženým směrem, že? Napsat do grafu číslo 37,5 nebo 38 by nebylo o nic méně pochopitelné, ale 40 je prostě víc. A víc je lepšejší, to se ví. V drobnějším textu pod grafem je sice „téměř 40%“, ale když měl grafik to číslo 38 přenést do grafu, nějak se mu u toho asi zkroutila ruka… Prostě to nešlo.

Za třetí, číslo týkající se průměrného příjmu je použito za minulý rok. Aktuální čísla jsou samozřejmě o něco větší, dle ČSÚ je nominální meziroční nárůst průměrné mzdy letos zatím úrovni zhruba 5%. To by nám dalo k uváděnému průměrmému nájemnému skutečný poměr necelých 36%.

No a nakonec, když tedy už máme takové hezké číslo, čtyřicet… to je skoro padesát a padesát procent, to je, vážení, půlka jako vyšitá. A šup s tím do titulků!

Ono by tedy bývalo bylo mnohem bližší pravdě napsat „zhruba třetina“, ale zadání marketérů holt znělo jasně.

Pareto v říši vědy

Původně ekonomicky motivovaná Paretova poučka, známá též jako pravidlo 80/20, v zobecněné formě tvrdí, že na vytvoření 80% výstupu obvykle stačí 20% vstupu. Toto jednoduché schéma našlo svou analogii i mimo řadu jiných, neekonomických oblastí. Ačkoliv funguje často docela dobře, je dobré s ním zacházet obezřetně. Paretovo pravidlo není možné nebo rozumné slepě aplikovat na všechny situace. Někdy je dosažení posledních 20% i za cenu vynaložení násobku dosavadních prostředků (resp. času) žádoucí, např. při získávání nějaké dovednosti nebo znalosti, nebo u striktně vymezených projektů, které mají smysl pouze jako celek.

Dunnig-Krugerův efekt aplikovaný na učení.

S prvním výše zmíněným příkladem mimochodem souvisí i psychologický jev, kdy pocit „mírně poučených“ v nějakém oboru že tématu rozumí, bývá typicky silnější, než u skutečných expertů daného oboru (tzv. Dunning-Krugerův efekt). S druhým zmíněným příkladem pak souvisí všechny situace, kde se projevuje nějaký synergický efekt, kdy vynechání nějaké části vede k zásadní degradaci výsledku. „Paretova bábovka“ upečená dle klasického receptu s vynecháním jedné ingredience by vám asi moc nechutnala a pochybuji, že byste se ztotožnili s hodnocením, že použitím ingrediencí za 20% celkové ceny (např. mouka + voda) může vzniknout „z 80% perfektní bábovka“.

Stejně jak je zřejmé, že příliš nezáleží na přesných číslech (80/20), spíše jde o empiricky odhalený důsledek toho, že jednotlivé činnosti, ze kterých se nějaký úkol skládá, lze seřadit podle nákladů (ať už finančních, časových, fyzických, duševních, …) a v takovém nerovnoměrném rozdělení pak logicky existuje relativně úzká oblast, jejíž integrál je vyšší, než integrál chvostu tohoto rozdělení. Jednoduše – a obecně bez čísel – řečeno: menší část příčin stojí za větší částí důsledků.

Matematická podstata Paretova principu.

Také bývá častou chybou založit rozhodování o tom, co spadá do horního pásma (ať už to je přesně 20%, nebo více či méně), na špatné nebo neúplné sadě parametrů. Nemůžete se v běžném byznysu například věnovat jen horní pětině zákazníků na základě útraty, kterou jsou u vás ochotni zanechat, protože ve zbylých 80% může být někdo, jehož názor má vliv na rozhodování řady dalších lidí, mezi nimiž můžou být i nějací z vašich prominentních zákazníků. Jinými slovy – do rozhodování vstupují i jiné, než čistě finančně kvantitativní ukazatele.

Problém je, že ne vždy jsou tyto ukazatele známy. Což mě přivedlo k malému zamyšlení, do jaké míry bych mohl aplikovat Paretovo pravidlo na vědeckou činnost. Třeba bych pak přišel na to, jak zefektivnit svou práci (vynechání ranního kafe v tomto směru moc potenciálu neskrývá :).

Budeme-li vycházet z toho, jakým způsobem je v dnešní době typicky věda z vnějšího hlediska posuzována, tak jako jednotku výstupu vědecké práce lze použít publikaci, jako kvantifikátor pak celkem solidně poslouží ohlas ve smyslu počtu citací na daný článek. Za předpokladu zhruba stejného času potřebného na vznik každé jednotky a zanedbání časového faktoru (počet citací samozřejmě monotónně narůstá v čase, takže starší články v průměru stojí výše, ale pokud se průběžně v čase střídají produkce méně a více úspěšných výstupů, pak lze toto zanedbání učinit), pak můžu ze svého současného seznamu publikací vydedukovat, že horních 20% článků vede k zhruba 62% všech citací a na pokrytí 80% „výkonu“ jsem potřeboval 37% článků. Jak už jsem psal výše, na přesných číslech nezáleží, takže bychom v tomto konkrétním případě interpretovali Paretovu poučku jako 62/20 nebo 80/37 a mohli bychom s tím být hotovi. Navíc u jiných autorů to může být jinak a v mnoha případech [1, 2, 3, 4] je na větších vzorcích relace 80/20 poměrně dobře splněna. Jenže hlavní problém je v tom, že pokud má být takové pravidlo použito pro plánování práce, potažmo zvýšení její efektivity, musel bych mít v ruce mechanismus, pomocí kterého předem posoudím, jak si bude který článek nebo (když půjdeme více k podstatě) výzkumné téma stát z hlediska budoucího výsledku. Pokud bych něco takového měl, asi bych tomu dál těžko mohl říkat výzkum.

Zdá se tedy, že Paretovo pravidlo může být velmi užitečné, tím spíše když jeho aplikaci předchází ujasnění si toho, kolik nás která činnost stojí úsilí nebo času a kolik nám ve výsledku přináší. Zároveň se ukazuje jedno z jeho principiálních omezení, tj. že je možné ho uplatňovat spíše na činnosti rutinní povahy, ale nikoliv na tvůrčí činnosti (nikoliv nutně pouze vědecké), kde je možnost predikovat výsledek velmi omezená.

Vyhrály olympiádu Bahamy, Zimbabwe, nebo Čína?

Co že je to za nesmyslnou otázku? Nejvíce zlatých v nedávno skončené olympiádě v Pekingu přece získaly USA, v absolutním počtu medailí pak prvenství patří pořadatelské Číně…
To je sice pravda, ale spousta sportovních fanoušků a novinářů se zamýšlela nad „nespravedlností“ toho, že v pořadí národů stojí nejvýše státy s větším počtem obyvatel, hlavně proto, že disponují úměrně tomu větší členskou základnou v jednotlivých sportech. A tak si začali spravovat náladu přepočítáváním medailových zisků na obyvatele. Po takovéto operaci se vyšvihnou do čela žebříčku Bahamy, v jejichž závěsu pak najdete plejádu dalších států a státečků s řádově statisíci až pár milióny obyvatel (snad jen vyjma Austrálie na 6. místě).

Bohužel autoři podobných úvah ignorují hned několik skutečností:

  • Proporcionalita, která je podmínkou smysluplnosti počítání průměrů, je zásadně narušena nominačními kritérii. Zhruba řečeno je systém takový, že Mezinárodní olympijský výbor (IOC) určí kolik sportovců kterého pohlaví se smí zúčasnit v každém z akreditovaných sportovních odvětví a jednotlivé mezinárodní federace pro dané sporty pak mají v pravomoci určení kvalifikačních výkonnostních limitů a početních kvót států. V některých disciplínách se tak například mohl zúčastnit z každé země jen jeden jediný reprezentant, i kdyby z ní pocházela třeba celá první světová stovka. Argumentem proto je dát šanci na účast více národům a zpestřit tak startovní pole, i na úkor jeho kvality (takový malý sportovní socialismus).
  • V některých sportech je více podobných disciplín a univerzálnější typy borců mají šanci na získání hned několika cenných kovů. Pokud bude mít nějaká země reprezentanty spíše v takovýchto sportech, je na tom z hlediska počtu medailových šancí lépe. Např. výprava v jejichž řadách je více plavců či gymnastů má obrovskou výhodu oproti výpravě, kde je více desetibojařů nebo judistů.
  • Malá čísla jsou ve statistice vždycky průšvih. Jedna medaile z pěti zacvičí s pořadím nesrovnatelně více než jedna ze sta. Směrodatnost dvou tří medailí pro určení úspěšnosti národní equipy je mizivá a jeden náhodný úspěch či propadák zásadně ovlivní výsledný průměr.
  • Systém hodnocení jen prvními třemi místy je příliš ostře nastavený. Představte si dvě stejně početné výpravy, z nichž první získá jednu (jakoukoliv) medaili a ve všech ostatních případech posbírá poslední místa, kdežto z druhé skončí všichni její členové na čtvrtých místech. Dle medailových kritérií se jeví jako lepší ta první, ale přitom měřeno výkony vychází mnohem lépe ta druhá.

O něco větší smysl může dávat statistika úspěšnosti sportovců již kvalifikovaných, tedy kolik která země získala v průměru cenných kovů na jednoho aktivního člena své olympijské výpravy (v této kategorii by letos kralovalo Zimbabwe se čtyřmi medailemi získanými jednou jejich plavkyní). Teoreticky by v takovém pořadí měly okupovat horní příčky velké státy, které spíše než na kvalifikační limity narážely na účastnické kvóty a tedy jejich reprezentace by měla být užší špičkou. To je zčásti pravda, ale stejně tak můžou vysoké průměrové koeficienty získat olympijské výpravy z chudších zemí, kde si nominaci prosadí jen skuteční borci světového formátu, případně výpravy hodně malé, u kterých úspěch jednoho dvou sportovců katapultuje medailový průměr do vysokých hodnot. Ani v jednom případě to tedy z hlediska sportovní úrovně té které země téměř o ničem nevypovídá.

Samozřejmě, že populačně početnější státy mají proti těm menším už z principu navrch. Proto dělat jakékoliv srovnávání mezi národy je nesmyslné a nevylepší to ani rádoby objektivní přepočítávání medailí na hlavu. Mezinárodní olympijský výbor ostatně ani žádné pořadí národů podle úspěšnosti nevede, všechny žebříčky tohoto typu jsou neoficiální. Asi ví dobře proč.