Crowd-sourced machine learning prediction of long COVID using data from the National COVID Cohort Collaborative

Timothy Bergquist; Johanna Loomba; Emily Pfaff; Fangfang Xia; Zixuan Zhao; Yitan Zhu; Elliot Mitchell; Biplab Bhattacharya; Gaurav Shetty; Tamanna Munia; Grant Delong; Adbul Tariq; Zachary Butzin-Dozier; Yunwen Ji; Haodong Li; Jeremy Coyle; Seraphina Shi; Rachael V Philips; Andrew Mertens; Romain Pirracchio; Mark van der Laan; John M Colford Jr; Alan Hubbard; Jifan Gao; Guanhua Chen; Neelay Velingker; Ziyang Li; Yinjun Wu; Adam Stein; Jiani Huang; Zongyu Dai; Qi Long; Mayur Naik; John Holmes; Danielle Mowery; Eric Wong; Ravi Parekh; Emily Getzen; Jake Hightower; Jennifer Blase; Long COVID Computational Challenge Participants; N3C Consortium

doi:10.1016/j.ebiom.2024.105333

Crowd-sourced machine learning prediction of long COVID using data from the National COVID Cohort Collaborative

EBioMedicine. 2024 Oct:108:105333. doi: 10.1016/j.ebiom.2024.105333. Epub 2024 Sep 24.

Authors

Timothy Bergquist¹, Johanna Loomba², Emily Pfaff³, Fangfang Xia⁴, Zixuan Zhao⁴, Yitan Zhu⁴, Elliot Mitchell⁵, Biplab Bhattacharya⁵, Gaurav Shetty⁵, Tamanna Munia⁵, Grant Delong⁵, Adbul Tariq⁵, Zachary Butzin-Dozier⁶, Yunwen Ji⁶, Haodong Li⁶, Jeremy Coyle⁶, Seraphina Shi⁶, Rachael V Philips⁶, Andrew Mertens⁶, Romain Pirracchio⁷, Mark van der Laan⁶, John M Colford Jr⁶, Alan Hubbard⁶, Jifan Gao⁸, Guanhua Chen⁸, Neelay Velingker⁹, Ziyang Li⁹, Yinjun Wu⁹, Adam Stein⁹, Jiani Huang⁹, Zongyu Dai⁹, Qi Long⁹, Mayur Naik⁹, John Holmes⁹, Danielle Mowery⁹, Eric Wong⁹, Ravi Parekh⁹, Emily Getzen⁹, Jake Hightower¹⁰, Jennifer Blase¹⁰; Long COVID Computational Challenge Participants; N3C Consortium

Collaborators

Ataes Aggarwal, Joseph Agor, Amera Al-Amery, Oluwatobiloba Aminu, Adit Anand, Corneliu Antonescu, Mehak Arora, Sayed Asaduzzaman, Tanner Asmussen, Mahdi Baghbanzadeh, Frazier Baker, Bridget Bangert, Laila Bekhet, Biplab Bhattacharya, Jenny Blase, Zachary Butzin-Dozier, Brian Caffo, Hao Chang, Zeyuan Chen, Jiandong Chen, Jeffrey Chiang, Peter Cho, Robert Cockrell, Parker Combs, Jeremy Coyle, Ciara Crosby, Zongyu Dai, Ran Dai, Anseh Danesharasteh, Elif Yildirim, Grant Delong, Ryan Demilt, Kaiwen Deng, Sanjoy Dey, Rohan Dhamdhere, Andrew Dickson, Phoebe Dijour, Dong Dinh, Richard Dixon, Albi Domi, Souradeep Dutta, Mirna Elizondo, Zeynep Ertem, Solomon Feuerwerker, Danica Fliss, Jennifer Fowler, Sunyang Fu, Kelly Gardner, Neil Getty, Mohamed Ghalwash, Logan Gloster, Phil Greer, Yuanfang Guan, Colby Ham, Samer Hanoudi, Jeremy Harper, Nathaniel Hendrix, Leeor Hershkovich, Jake Hightower, Junjie Hu, Jiani Huang, Yu Huang, Tongtong Huang, Junguk Hur, Monica Isgut, Hamid Ismail, Grant Izmirlian, Kuk Jang, Christianah Jemiyo, Hayoung Jeong, Yunwen Ji, Xiayan Ji, Ming Jiang, Sihang Jiang, Xiaoqian Jiang, Yuye Jiang, Akin Johnson, Zach Analyst, Saarthak Kapse, Uri Kartoun, Dukka Kc, Zahra Fard, Tim Kosfeld, Spencer Krichevsky, Mike Kuo, Dale Larie, Lauren Lederer, Shan Leng, Ziyang Li, Hongyang Li, Haodong Li, Jianfu Li, Tiantian Li, Xinwen Liang, Hengyue Liang, Feifan Liu, Daniel Liu, Gang Luo, Tamanna Munia, Ravi Madduri, Vithal Madhira, Shivali Mani, Farzaneh Mansourifard, Robert Matson, Andrew Mertens, Vangelis Metsis, Pablo Meyer, Catherine Mikhailova, Dante Miller, Christopher Milo, Elliot Mitchell, Gourav Modanwal, Ronald Moore, David Morgenthaler, Rasim Musal, Mayur Naik, Vinit Nalawade, Rohan Narain, Saideep Narendrula, Alena Obiri, Satoshi Okawa, Chima Okechukwu, Toluwanimi Olorunnisola, Tim Ossowski, Harsh Parekh, Jean Park, Saaya Patel, Jason Patterson, Chetan Paul, Le Peng, Diana Perkins, Suresh Pokharel, Dmytro Poplavskiy, Zach Pryor, Sarah Pungitore, Hong Qin, Salahaldeen Rababa, Mahbubur Rahman, Elior Rahmani, Gholamali Rahnavard, Md Raihan, Suraj Rajendran, Sarangan Ravichandran, Chandan Reddy, Abel Reyes, Ali Roghanizad, Sean Rouffa, Xiaoyang Ruan, Arpita Saha, Sahil Sawant, Melody Schiaffino, Diego Seira, Saurav Sengupta, Ruslan Shalaev, Gaurav Shetty, Seraphina Shi, Linh Shinguyen, Karnika Singh, Soumya Sinha, Damien Socia, Halen Stalians, Charalambos Stavropoulos, Jan Strube, Devika Subramanian, Jiehuan Sun, Ju Sun, Chengkun Sun, Prathic Sundararajan, Salmonn Talebi, Edward Tawiah, Jelena Tesic, Mikaela Thiess, Raymond Tian, Luke Torre-Healy Ming-Tse Tsai, David Tyus, Madhurima Vardhan, Neelay Velingker, Benjamin Walzer, Jacob Walzer, Junda Wang, Lu Wang, Will Wang, Jonathan Wang, Yisen Wang, Chad Weatherly, Fanyou Wu, Yifeng Wu, Yinjun Wu, Fangfang Xia, Hao Yan, Zhichao Yang, Biao Ye, Rui Yin, Changyu Yin, Yun Yoo, Albert You, June Yu, Martin Zanaj, Zachary Zaiman, Kai Zhang, Xiaoyi Zhang, Tianmai Zhang, Zixuan Zhao, Degui Zhi, Yishan Zhong, Huixue Zhou, Andrea Zhou, Yuanda Zhu, Yitan Zhu, Sophie Zhu, Meredith Adams, Caleb Alexander, Benjamin Amor, Alfred Anzalone, Benjamin Bates, Will Beasley, Tellen Bennett, Mark Bissell, Eilis Boudreau, Samuel Bozzette, Katie Bradwell, Carolyn Bramante, Don Brown, Penny Burgoon, John Buse, Tiffany Callahan, Kenrick Cato, Scott Chapman, Christopher Chute, Jaylyn Clark, Marshall Clark, Will Cooper, Lesley Cottrell, Karen Crowley, Mariam Deacy, Christopher Dillon, David Eichmann, Mary Emmett, Rebecca Erwin-Cohen, Patricia Francis, Evan French, Rafael Fuentes, Davera Gabriel, Joel Gagnier, Nicole Garbarini, Jin Ge, Kenneth Gersing, Andrew Girvin, Valery Gordon, Alexis Graves, Justin Guinney, Melissa Haendel, Jeremy Harper, J W Hayanga, Brian Hendricks, Wenndy Hernandez, Elaine Hill, William Hillegass, Stephanie Hong, Dan Housman, Robert Hurley, Jessica Islam, Randeep Jawa, Steve Johnson, Rishi Kamaleswaran, Warren Kibbe, Farrukh Koraishy, Kristin Kostka, Michael Kurilla, Adam Lee, Harold Lehmann, Hongfang Liu, Johanna Loomba, Charisse Madlock-Brown Sandeep Mallipattu, Amin Manna, Federico Mariona, Emily Marti, Greg Martin, Jomol Mathew, Diego Mazzotti, Julie McMurry, Hemalkumar Mehta, Sam Michael, Robert Miller, Leonie Misquitta, Richard Moffitt, Michele Morris, Kimberly Murray, Lavance Northington, Shawn O'Neil, Amy Olex, Matvey Palchuk, Brijesh Patel, Rena Patel, Philip Payne, Emily Pfaff, Jami Pincavitch, Lili Portilla, Fred Prior, Saiju Pyarajan, Lee Pyles, Nabeel Qureshi, Peter Robinson, Joni Rutter, Ofer Sadan, Nasia Safdar, Amit Saha, Joel Saltz, Mary Saltz, Clare Schmitt, Soko Setoguchi, Noha Sharafeldin, Anjali Sharathkumar, Usman Sheikh, Hythem Sidky, George Sokos, Andrew Southerland, Heidi Spratt, Justin Starren, Vignesh Subbian, Christine Suver, Cliff Takemoto, Meredith Temple-O'Connor, Umit Topaloglu, Satyanarayana Vedula, Anita Walden, Kellie Walters, Cavin Ward-Caviness, Adam Wilcox, Ken Wilkins, Andrew Williams, Chunlei Wu, Elizabeth Zampino, Xiaohan Zhang, Andrea Zhou, Richard Zhu

Affiliations

¹ Sage Bionetworks, Seattle, WA, USA. Electronic address: timothy.bergquist@mssm.edu.
² University of Virginia, Charlottesville, VA, USA.
³ University of North Carolina at Chapel Hill, Durham, NC, USA.
⁴ University of Chicago, Chicago, IL, USA.
⁵ Geisinger Health System, New York, NY, USA.
⁶ University of California Berkeley, Berkeley, CA, USA.
⁷ University of California, San Francisco, San Francisco, CA, USA.
⁸ University of Wisconsin-Madison, Madison, WI, USA.
⁹ University of Pennsylvania, Philadelphia, PA, USA.
¹⁰ Ruvos, Tallahassee, FL, USA.

Abstract

Background: While many patients seem to recover from SARS-CoV-2 infections, many patients report experiencing SARS-CoV-2 symptoms for weeks or months after their acute COVID-19 ends, even developing new symptoms weeks after infection. These long-term effects are called post-acute sequelae of SARS-CoV-2 (PASC) or, more commonly, Long COVID. The overall prevalence of Long COVID is currently unknown, and tools are needed to help identify patients at risk for developing long COVID.

Methods: A working group of the Rapid Acceleration of Diagnostics-radical (RADx-rad) program, comprised of individuals from various NIH institutes and centers, in collaboration with REsearching COVID to Enhance Recovery (RECOVER) developed and organized the Long COVID Computational Challenge (L3C), a community challenge aimed at incentivizing the broader scientific community to develop interpretable and accurate methods for identifying patients at risk of developing Long COVID. From August 2022 to December 2022, participants developed Long COVID risk prediction algorithms using the National COVID Cohort Collaborative (N3C) data enclave, a harmonized data repository from over 75 healthcare institutions from across the United States (U.S.).

Findings: Over the course of the challenge, 74 teams designed and built 35 Long COVID prediction models using the N3C data enclave. The top 10 teams all scored above a 0.80 Area Under the Receiver Operator Curve (AUROC) with the highest scoring model achieving a mean AUROC of 0.895. Included in the top submission was a visualization dashboard that built timelines for each patient, updating the risk of a patient developing Long COVID in response to clinical events.

Interpretation: As a result of L3C, federal reviewers identified multiple machine learning models that can be used to identify patients at risk for developing Long COVID. Many of the teams used approaches in their submissions which can be applied to future clinical prediction questions.

Funding: Research reported in this RADx® Rad publication was supported by the National Institutes of Health. Timothy Bergquist, Johanna Loomba, and Emily Pfaff were supported by Axle Subcontract: NCATS-STSS-P00438.

Keywords: COVID-19; Community challenge; Evaluation; Long COVID; Machine learning; PASC.

MeSH terms

Algorithms
COVID-19* / epidemiology
Cohort Studies
Crowdsourcing
Humans
Machine Learning*
Post-Acute COVID-19 Syndrome
SARS-CoV-2* / isolation & purification
United States / epidemiology