Journal article

Plant DNA barcoding necessitates marker-specific efforts to establish more comprehensive reference databases



Publication Details
Authors:
Kolter, A.; Gemeinholzer, B.

Publication year:
2020
Journal:
Genome
Pages range :
265-298
Volume number:
64
Issue number:
3
ISSN:
0831-2796
eISSN:
1480-3321
DOI-Link der Erstveröffentlichung:


Abstract
Abstract

The problem of low species-level identification rates in plants by DNA barcoding is exacerbated by the fact that reference databases are far from being comprehensive. We investigate the impact of increased sampling depth on identification success by analyzing the efficacy of established plant barcode marker sequences (rbcL, matK, trnL-trnF, psbA-trnH, ITS). Adding sequences of the same species to the reference database led to an increase in correct species assignment of +10.9% for rbcL and +19.0% for ITS. Simultaneously, erroneous identification dropped from ∼40% to ∼12.5%. Despite its evolutionary constraints, ITS showed the highest identification rate and identification gain by increased sampling effort, which makes it a very suitable marker in the planning phase of a barcode study. The limited sequence availability of trnL-trnF is problematic for an otherwise very promising plastid plant barcoding marker. Future developments in machine learning algorithms have the potential to give new impetus to plant barcoding, but are dependent on extensive reference databases. We expect that our results will be incorporated into future plans for the development of DNA barcoding reference databases and will lead to these being developed with greater depth and taxonomic coverage.

Résumé

Le problème du faible taux d’identification au niveau de l’espèce chez les plantes, par le biais du codage à barres de l’ADN, est aggravé par le fait que les bases de données de référence sont fort incomplètes. Les auteurs ont examiné l’impact d’un accroissement de la profondeur d’échantillonnage sur le taux de succès à l’identification en analysant l’efficacité de codes à barres bien établis (rbcL, matK, trnL-trnF, psbA-trnH, ITS). L’ajout de séquences provenant de la même espèce à la base de données de référence a entrainé une augmentation du taux de succès de 10,9 % avec rbcL et de 19,0 % avec l’ITS. En même temps, le taux d’erreur dans l’identification a chuté de ∼40 % à ∼12,5 %. En dépit des contraintes évolutives, l’ITS a montré le plus haut taux de succès dans l’identification et de gain lié à un effort accru d’échantillonnage, ce que en fait un marqueur de choix en vue d’une étude de codage à barres. La disponibilité limitée de séquences trnL-trnF est problématique pour ce marqueur plastidique, lequel se montre autrement très prometteur. De futures avancées en matière d’algorithmes d’apprentissage machine ont le potentiel de donner un nouvel élan au codage à barres chez les plantes, mais nécessiteront des bases de données exhaustives. Les auteurs espèrent que leurs résultats seront tenus en compte dans de futurs travaux visant à développer des bases de données de référence pour le codage à barres et permettra d’en développer qui soient dotées d’une plus grande profondeur et couverture taxonomique. [Traduit par la Rédaction]


Authors/Editors

Last updated on 2024-12-09 at 13:08