AktualnościWydajność

Nowa metoda zwiększa dokładność szacunków statystycznych w danych przestrzennych

Wyobraź sobie, że jesteś naukowcem zajmującym się środowiskiem, badającym potencjalny związek między zanieczyszczeniem powietrza a niższą wagą urodzeniową w określonej społeczności. Aby zbadać takie skomplikowane relacje, zwykle stosuje się modele uczenia maszynowego, ponieważ są one dość biegłe w nadawaniu sensu złożonym wzorcom danych. Jednakże, jeśli chodzi o oszacowanie siły związku między zmiennymi takimi jak zanieczyszczenie a masą urodzeniową, te tradycyjne modele mogą nie wytrzymać. Kwestie te dotyczą przede wszystkim sposobu obliczania przedziałów ufności, predykcyjnych granic dokładności modelu. Chociaż są one rzeczywiście istotne, zwykłe metody często okazują się mylące w badaniach przestrzennych, w których czynniki takie jak zanieczyszczenie powietrza mogą się różnić w zależności od lokalizacji.

Niepewność ta wynika przede wszystkim z tego, że konwencjonalne techniki opierają swoje założenia na niezależności i identycznym rozkładzie punktów danych. Jednak rzeczywiste sytuacje często przeczą tym założeniom. Na przykład rozmieszczenie monitorów jakości powietrza przez amerykańską Agencję Ochrony Środowiska (EPA) często uwzględnia inne pobliskie czujniki, tworząc w ten sposób zależności w danych, które mogą zmylić przewidywania modelu.

Przedstawiamy nowatorskie podejście MIT

Wychodząc naprzeciw tym ograniczeniom, naukowcy z MIT zapoczątkowali nowe podejście do generowania wiarygodnych przedziałów ufności dla danych przestrzennych. Przyjęli bardziej realistyczne podejście, zakładając, że dane zmieniają się płynnie w przestrzeni, podobnie jak poziomy zanieczyszczenia powietrza zwykle zmieniają się stopniowo w zależności od lokalizacji. Ta ponowna ocena lepiej odpowiada rzeczywistym tendencjom danych, powiedziała Tamara Broderick, profesor nadzwyczajny na Wydziale EECS w MIT i starszy autor badania. badanie.

Aby przetestować swoją metodę, zespół przeprowadził serię symulacji i zastosował ją do rzeczywistych zbiorów danych. Wyniki pokazały, że ich technika była jedyną, która konsekwentnie dawała dokładne i wiarygodne przedziały ufności, nawet w przypadku danych wypełnionych losowymi błędami. Broderick współpracował z Davidem R. Burtem, doktorem habilitowanym, i Renato Berlinghierim, absolwentem EECS, a także Stephenem Batesem, adiunktem w EECS. Zespół zaprezentował swoje odkrycia na konferencji poświęconej neuronowym systemom przetwarzania informacji.

Przekraczanie granic i patrzenie w przyszłość

Zidentyfikowali również pewne błędne założenia, od których zależą różne powszechnie stosowane metody. Wśród nich jest przekonanie, że dane treningowe wykorzystywane w modelach są dobrym odzwierciedleniem danych, w których dokonywane są prognozy, co nie zawsze ma miejsce. Weźmy na przykład sytuację, w której model wyszkolony na podstawie danych z miejskich monitorów EPA jest następnie wykorzystywany do prognozowania na obszarach wiejskich. W związku z tym nowa metodologia opracowana przez zespół MIT otwiera obiecujące możliwości w wielu dyscyplinach, od nauk o środowisku po ekonomię. Może ona znacznie poprawić interpretację zmiennych zależności w różnych regionach geograficznych. Według Brodericka, odkryto więcej metod dopasowania dla szerokiej klasy problemów, aby poprawić wydajność i zapewnić bardziej wiarygodne wyniki.

Zespół zamierza teraz rozszerzyć swoją pracę, stosując swoją metodę do różnych typów zmiennych i badając nowe obszary, w których może ona zwiększyć wiarygodność szacunków statystycznych. Przedsięwzięcie to było wspierane przez grant zalążkowy MIT Social and Ethical Responsibilities of Computing (SERC), Office of Naval Research, Generali, Microsoft i NSF. Aby zagłębić się w szczegóły, zapoznaj się z oryginalnym artykułem na MIT News: Nowa metoda poprawia wiarygodność szacunków statystycznych.

Jaka jest twoja reakcja?

Podekscytowany
0
Szczęśliwy
0
Zakochany
0
Nie jestem pewien
0
Głupi
0

Komentarze są zamknięte.