Nowa metoda zwiększa dokładność szacunków statystycznych w danych przestrzennych

Imagine you’re an environmental scientist studying the potential link between air pollution and lower birth weights in a specific community. To probe such intricate relationships, machine-learning models are typically used as they’re quite adept at making sense of complex data patterns. However, when it comes to estimating the strength of association between variables like pollution and birth weight, these traditional models may not hold water. These issues primarily lie in how confidence intervals, predictive boundaries of a model’s accuracy, are calculated. While they’re indeed vital, the usual methods often prove to be misleading in spatial studies where factors like air pollution can vary from one location to another.

Niepewność ta wynika przede wszystkim z tego, że konwencjonalne techniki opierają swoje założenia na niezależności i identycznym rozkładzie punktów danych. Jednak rzeczywiste sytuacje często przeczą tym założeniom. Na przykład rozmieszczenie monitorów jakości powietrza przez amerykańską Agencję Ochrony Środowiska (EPA) często uwzględnia inne pobliskie czujniki, tworząc w ten sposób zależności w danych, które mogą zmylić przewidywania modelu.

Przedstawiamy nowatorskie podejście MIT

Wychodząc naprzeciw tym ograniczeniom, naukowcy z MIT zapoczątkowali nowe podejście do generowania wiarygodnych przedziałów ufności dla danych przestrzennych. Przyjęli bardziej realistyczne podejście, zakładając, że dane zmieniają się płynnie w przestrzeni, podobnie jak poziomy zanieczyszczenia powietrza zwykle zmieniają się stopniowo w zależności od lokalizacji. Ta ponowna ocena lepiej odpowiada rzeczywistym tendencjom danych, powiedziała Tamara Broderick, profesor nadzwyczajny na Wydziale EECS w MIT i starszy autor badania. badanie.

Aby przetestować swoją metodę, zespół przeprowadził serię symulacji i zastosował ją do rzeczywistych zbiorów danych. Wyniki pokazały, że ich technika była jedyną, która konsekwentnie dawała dokładne i wiarygodne przedziały ufności, nawet w przypadku danych wypełnionych losowymi błędami. Broderick współpracował z Davidem R. Burtem, doktorem habilitowanym, i Renato Berlinghierim, absolwentem EECS, a także Stephenem Batesem, adiunktem w EECS. Zespół zaprezentował swoje odkrycia na konferencji poświęconej neuronowym systemom przetwarzania informacji.

Przekraczanie granic i patrzenie w przyszłość

They also identified some flawed assumptions that various commonplace methods depend on. Among these is the belief that training data used for models are a good reflection of the data where predictions are made, which isn’t always the case. Take, for example, if a model trained with data from urban EPA monitors then gets used for predictions in rural areas. Hence, the new methodology developed by the MIT team opens up promising avenues across an array of disciplines from environmental science to economics. It stands to significantly enhance interpretations of variable relationships across diverse geographical regions. According to Broderick, more fitting methods have been unearthed for a wide class of problems to improve performance and provide more trustworthy results.

Zespół zamierza teraz rozszerzyć swoją pracę, stosując swoją metodę do różnych typów zmiennych i badając nowe obszary, w których może ona zwiększyć wiarygodność szacunków statystycznych. Przedsięwzięcie to było wspierane przez grant zalążkowy MIT Social and Ethical Responsibilities of Computing (SERC), Office of Naval Research, Generali, Microsoft i NSF. Aby zagłębić się w szczegóły, zapoznaj się z oryginalnym artykułem na MIT News: Nowa metoda poprawia wiarygodność szacunków statystycznych.

Max Krawiec

This website uses cookies.