Importance of timely metadata curation to the global surveillance of genetic diversity

dc.citation.issue4
dc.citation.volume37
dc.contributor.authorCrandall ED
dc.contributor.authorToczydlowski RH
dc.contributor.authorLiggins L
dc.contributor.authorHolmes AE
dc.contributor.authorGhoojaei M
dc.contributor.authorGaither MR
dc.contributor.authorWham BE
dc.contributor.authorPritt AL
dc.contributor.authorNoble C
dc.contributor.authorAnderson TJ
dc.contributor.authorBarton RL
dc.contributor.authorBerg JT
dc.contributor.authorBeskid SG
dc.contributor.authorDelgado A
dc.contributor.authorFarrell E
dc.contributor.authorHimmelsbach N
dc.contributor.authorQueeno SR
dc.contributor.authorTrinh T
dc.contributor.authorWeyand C
dc.contributor.authorBentley A
dc.contributor.authorDeck J
dc.contributor.authorRiginos C
dc.contributor.authorBradburd GS
dc.contributor.authorToonen RJ
dc.coverage.spatialUnited States
dc.date.accessioned2023-12-14T22:11:00Z
dc.date.accessioned2024-07-25T06:44:37Z
dc.date.available2023-03-10
dc.date.available2023-12-14T22:11:00Z
dc.date.available2024-07-25T06:44:37Z
dc.date.issued2023-08
dc.description.abstractGenetic diversity within species represents a fundamental yet underappreciated level of biodiversity. Because genetic diversity can indicate species resilience to changing climate, its measurement is relevant to many national and global conservation policy targets. Many studies produce large amounts of genome-scale genetic diversity data for wild populations, but most (87%) do not include the associated spatial and temporal metadata necessary for them to be reused in monitoring programs or for acknowledging the sovereignty of nations or Indigenous peoples. We undertook a distributed datathon to quantify the availability of these missing metadata and to test the hypothesis that their availability decays with time. We also worked to remediate missing metadata by extracting them from associated published papers, online repositories, and direct communication with authors. Starting with 848 candidate genomic data sets (reduced representation and whole genome) from the International Nucleotide Sequence Database Collaboration, we determined that 561 contained mostly samples from wild populations. We successfully restored spatiotemporal metadata for 78% of these 561 data sets (n = 440 data sets with data on 45,105 individuals from 762 species in 17 phyla). Examining papers and online repositories was much more fruitful than contacting 351 authors, who replied to our email requests 45% of the time. Overall, 23% of our email queries to authors unearthed useful metadata. The probability of retrieving spatiotemporal metadata declined significantly as age of the data set increased. There was a 13.5% yearly decrease in metadata associated with published papers or online repositories and up to a 22% yearly decrease in metadata that were only available from authors. This rapid decay in metadata availability, mirrored in studies of other types of biological data, should motivate swift updates to data-sharing policies and researcher practices to ensure that the valuable context provided by metadata is not lost to conservation science forever. Importancia de la curación oportuna de metadatos para la vigilancia mundial de ladiversidad genéticaResumen:La diversidad genética intraespecífica representa un nivel fundamental, pero ala vez subvalorado de la biodiversidad. La diversidad genética puede indicar la resilienciade una especie ante el clima cambiante, por lo que su medición es relevante para muchosobjetivos de la política de conservación mundial y nacional. Muchos estudios producenuna gran cantidad de datos sobre la diversidad a nivel genético de las poblaciones silvestres,aunque la mayoría (87%) no incluye los metadatos espaciales y temporales asociados paraque sean reutilizados en los programas de monitoreo o para reconocer la soberanía de lasnaciones o los pueblos indígenas. Realizamos un “datatón” distribuido para cuantificar ladisponibilidad de estos metadatos faltantes y para probar la hipótesis que supone que estadisponibilidad se deteriora con el tiempo. También trabajamos para reparar los metadatosfaltantes al extraerlos de los artículos asociados publicados, los repositorios en línea yla comunicación directa con los autores. Iniciamos con 838 candidatos de conjuntos dedatos genómicos (representación reducida y genoma completo) tomados de la colabo-ración internacional para la base de datos de secuencias de nucleótidos y determinamosque 561 incluían en su mayoría muestras tomadas de poblaciones silvestres. Restauramoscon éxito los metadatos espaciotemporales en el 78% de estos 561 conjuntos de datos (n=440 conjuntos de datos con información sobre 45,105 individuos de 762 especies en 17filos). El análisis de los artículos y los repositorios virtuales fue mucho más productivo quecontactar a los 351 autores, quienes tuvieron un 45% de respuesta a nuestros correos. Engeneral, el 23% de nuestras consultas descubrieron metadatos útiles. La probabilidad derecuperar metadatos espaciotemporales declinó de manera significativa conforme incre-mentó la antigüedad del conjunto de datos. Hubo una disminución anual del 13.5% enlos metadatos asociados con los artículos publicados y los repositorios virtuales y hastauna disminución anual del 22% en los metadatos que sólo estaban disponibles mediante lacomunicación con los autores. Este rápido deterioro en la disponibilidad de los metadatos,duplicado en estudios de otros tipos de datos biológicos, debería motivar la pronta actual-ización de las políticas del intercambio de datos y las prácticas de los investigadores paraasegurar que en las ciencias de la conservación no se pierda para siempre el contexto valiosoproporcionado por los metadatos.
dc.description.confidentialfalse
dc.edition.editionAugust 2023
dc.format.paginatione14061-
dc.identifier.author-urlhttps://www.ncbi.nlm.nih.gov/pubmed/36704891
dc.identifier.citationCrandall ED, Toczydlowski RH, Liggins L, Holmes AE, Ghoojaei M, Gaither MR, Wham BE, Pritt AL, Noble C, Anderson TJ, Barton RL, Berg JT, Beskid SG, Delgado A, Farrell E, Himmelsbach N, Queeno SR, Trinh T, Weyand C, Bentley A, Deck J, Riginos C, Bradburd GS, Toonen RJ. (2023). Importance of timely metadata curation to the global surveillance of genetic diversity.. Conserv Biol. 37. 4. (pp. e14061-).
dc.identifier.doi10.1111/cobi.14061
dc.identifier.eissn1523-1739
dc.identifier.elements-typejournal-article
dc.identifier.issn0888-8892
dc.identifier.numbere14061
dc.identifier.urihttps://mro.massey.ac.nz/handle/10179/70780
dc.languageeng
dc.publisherWiley Periodicals LLC on behalf of Society for Conservation Biology
dc.publisher.urihttps://conbio.onlinelibrary.wiley.com/doi/10.1111/cobi.14061
dc.relation.isPartOfConserv Biol
dc.rights(c) The author/sen
dc.rights.licenseCC BY-NC 4.0en
dc.rights.urihttps://creativecommons.org/licenses/by-nc/4.0/en
dc.subjectConvenio sobre la Diversidad Biológica
dc.subjectConvention on Biological Diversity
dc.subjectbiodiversidad
dc.subjectbiodiversity
dc.subjectconservation genetics
dc.subjectdatos abiertos
dc.subjectdigital sequence information
dc.subjectdiversidad genética
dc.subjectecología molecular
dc.subjectevolución
dc.subjectevolution
dc.subjectgenetic diversity
dc.subjectinformación de secuencia digital
dc.subjectmetadata
dc.subjectmetadatos
dc.subjectmolecular ecology
dc.subjectopen data
dc.subject《生物多样性公约》
dc.subject保护遗传学
dc.subject元数据
dc.subject分子生态学
dc.subject开放数据
dc.subject数字序列信息
dc.subject演化
dc.subject遗传多样性
dc.subjectHumans
dc.subjectConservation of Natural Resources
dc.subjectMetadata
dc.subjectBiodiversity
dc.subjectProbability
dc.subjectGenetic Variation
dc.titleImportance of timely metadata curation to the global surveillance of genetic diversity
dc.typeJournal article
pubs.elements-id459209
pubs.organisational-groupOther
Files
Original bundle
Now showing 1 - 5 of 10
Loading...
Thumbnail Image
Name:
Published
Size:
2.24 MB
Format:
Adobe Portable Document Format
Description:
Loading...
Thumbnail Image
Name:
Evidence 2
Size:
329.93 KB
Format:
Adobe Portable Document Format
Description:
Loading...
Thumbnail Image
Name:
Evidence 1
Size:
329.99 KB
Format:
Microsoft Word XML
Description:
Loading...
Thumbnail Image
Name:
Evidence 3
Size:
329.92 KB
Format:
Unknown data format
Description:
Loading...
Thumbnail Image
Name:
Evidence 4
Size:
329.99 KB
Format:
Microsoft Excel XML
Description:
Collections