Nate Silver - Signál a šum

Nate Silver napsal knížku. Kdo že to je? Vystudovaný ekonom (UChicago, rok na LSE), dřív pokerový hráč a baseballový statistik, aktuálně autor politických předpovědí. Docela známé bylo jeho působení na FiveThirtyEight blogu, který odkoupily noviny New York Times a odkud loni odešel do ESPN a letos v březnu založil nový magazín FiveThirtyEight.

Silver se dostal do povědomí veřejnosti kolem americké prezidentské volby v r. 2012, kdy trefil výsledek ve všech 50 státech (u předchozích voleb se seknul v jednom státě). Na blogu, kde se posléze věnoval spoustě voleb, nejen těm prezidentským, získal spoustu fanoušků, zejména pro svůjjasný popis pro širokou veřejnost a přehlednou grafiku.

Na podzim roku 2012 vydal útlou knížku s podtitulem “proč některé předpovědi selhávají, a některé ne”. Knížka vyjde v češtině už za pár dní (9. května), já četl originál ve verzi pro Kindle.

V knížce Silver navazuje na svoje politické předpovědi, ale zabředává i do témat, se kterými nemá přímou zkušenost. Krom pokeru, baseballu a politiky, což jsou jeho tři domény, se věnuje i zemětřesení, počasí nebo šachu. Knížka je suprově ozdrojovaná, Silver se u všech témat ptá odborníků v oboru, někteří z nich po vydání knížky dostali Nobelovu cenu (Schiller a Fama), nebojí se ptát i oponentů, skeptiků a obecně to působí dost vyváženě.

Silver se v knížce snaží popsat způsob, jak najít smysl v datech. Už na začátku zmiňuje, jak jsme ve skvělé době, kdy máme přehršel informací k dispozici zdarma či levně, ale že je potřeba oddělit to užitečné a určující (signál) od nesouvisejících a náhodných výkyvu (šum). To provází celou knihou a v každé kapitole poukazuje na tyto dvě složky dat.

Knížka je krátká, přelouskáte ji za pár večerů a pokud čtete na Kindlu, skončíte někde před 70 % délky, protože zbytek jsou zdroje a poznámky. Knížka je celkem čtivá, je to nenáročná četba na dlouhé jarní večery. A právě protože je tak nenáročná, tak mě zas tolik nenadchla. Je to prostě taková kolekce zajímavostí ze světa statistiky, ale na zadek se z toho neposadíte. Je to taky vysoce netechnická knížka (což nemůžu dávat Silverovi za chybu, prostě si určil čtenářstvo), takže nějaké postupy či statistické metody tam nehledejte. Poslední věcí, která mi vadila, byla ta závislost na konzultacích. Silver se pouští do témat, kterým technicky nerozumí (a proto v těch případech nedělá moc závěry), takže velká část některých kapitol jsou posbírané informace od odborníků, zatímco některé kapitoly jsou vyloženě od něj, protože jde o jeho vlastní zkušenosti. Druhá skupina témat byla tak o dost záživnější a věrohodnější.

I přes to všechno doporučím Silvera jako takového mythbustera ze světa statistiky. Taky doporučím trochu delší rozhovor s mým oblíbeným Conanem O’Brienem. Ač komik, občas nahraje seriózní diskusi se zajímavou osobností.


Pár úryvků, které mě zaujaly:

Komerční předpovídači počasí reportují déšť častěji, než jejich modely naznačují. Vychází to z toho, že lidé raději vezmou deštník a nevyužijou ho, než aby zmokli jak slepice při předpovědi slunečna. > commercial weather forecasts are biased, and probably deliberately so. In particular, they are biased toward forecasting more precipitation than will actually occur—what meteorologists call a “wet bias.” The further you get from the government’s original data, and the more consumer facing the forecasts, the worse this bias becomes. Forecasts “add value” by subtracting accuracy

Kritika inferencí z “velkých dat”, kterou nedávno odstartoval Tim Harford, je k nalezení už tady, a to knížka vyšla už před lety. > This kind of statement is becoming more common in the age of Big Data. Who needs theory when you have so much information? But this is categorically the wrong attitude to take toward forecasting, especially in a field like economics where the data is so noisy. Statistical inferences are much stronger when backed up by theory or at least some deeper thinking about their root causes.

Následující mi dost připomíná jeden předvolební průzkum do EP. Jde o příklad fenoménu jménem self fulfilling destiny. > In the late stages of the Iowa Republican caucus race in 2012, for example, CNN released a poll that showed Rick Santorum surging to 16 percent of the vote when he had been at about 10 percent before. The poll may have been an outlier—other surveys did not show Santorum gaining ground until after the CNN poll had been released. Nevertheless, the poll earned Santorum tons of favorable media coverage and some voters switched to him from ideologically similar candidates like Michele Bachmann and Rick Perry. Before long, the poll had fulfilled its own destiny, with Santorum eventually winning Iowa while Bachmann and Perry finished far out of the running.

Vtípky na adresu modelování > As another mathematician said, “The best model of a cat is a cat.”

Když řešil globální oteplování, šel za seriózními skeptiky a vyslechl je. Dobrej přístup. (Oprava: Petr Janský mě upozornil, že to úplně košér nebylo, díky. Jeden z konzultovaných odborníků tady uvádí některé věci na pravou míru a zdůrazňuje to co já – že Silver zabředává do témat, kterým tolik nerozumí, takže pak může podávat nepřesné informace.) > We should examine the evidence and articulate what might be thought of as healthy skepticism toward climate predictions. As you will see, this kind of skepticism does not resemble the type that is common in blogs or in political arguments over global warming.

Důraz na myšlení nad daty, ne jen slepé modelování, je v celé knížce. Následující úryvek je z jedné z posledních kapitol. > It would be nice if we could just plug data into a statistical model, crunch the numbers, and take for granted that it was a good representation of the real world. Under some conditions, especially in data-rich fields like baseball, that assumption is fairly close to being correct. In many other cases, a failure to think carefully about causality will lead us up blind alleys.

Jak rád říkám – kdo si je dost jistý něčím dost složitým, toho brát s rezervou. > When a prediction about a complex phenomenon is expressed with a great deal of confidence, it may be a sign that the forecaster has not thought through the problem carefully, has overfit his statistical model, or is more interested in making a name for himself than in getting at the truth.

Nedávno jsem četl o fenoménu nebezpečného “stuff we don’t know we don’t know”, konečně znám zdroj: > [T]here are known knowns; there are things we know we know. We also know there are known unknowns; that is to say we know there are some things we do not know. But there are also unknown unknowns—there are things we do not know we don’t know.—Donald Rumsfeld

A k nadcházejícím volbám docela trefné: > Partisans who expect every idea to fit on a bumper sticker will proceed through the various stages of grief before accepting that they have oversimplified reality.