Two-stage designs for gene-disease association studies with sample size constraints

Biometrics. 2004 Sep;60(3):589-97. doi: 10.1111/j.0006-341X.2004.00207.x.

Abstract

Gene-disease association studies based on case-control designs may often be used to identify candidate polymorphisms (markers) conferring disease risk. If a large number of markers are studied, genotyping all markers on all samples is inefficient in resource utilization. Here, we propose an alternative two-stage method to identify disease-susceptibility markers. In the first stage all markers are evaluated on a fraction of the available subjects. The most promising markers are then evaluated on the remaining individuals in Stage 2. This approach can be cost effective since markers unlikely to be associated with the disease can be eliminated in the first stage. Using simulations we show that, when the markers are independent and when they are correlated, the two-stage approach provides a substantial reduction in the total number of marker evaluations for a minimal loss of power. The power of the two-stage approach is evaluated when a single marker is associated with the disease, and in the presence of multiple disease-susceptibility markers. As a general guideline, the simulations over a wide range of parametric configurations indicate that evaluating all the markers on 50% of the individuals in Stage 1 and evaluating the most promising 10% of the markers on the remaining individuals in Stage 2 provides near-optimal power while resulting in a 45% decrease in the total number of marker evaluations.

Pour explorer l’association entre un gène et une maladie, les études d’association de type cas/témoins sont souvent utilisées pour identifier des polymorphismes (marqueurs) qui confèrent un risque accru de développer la maladie. Si un grand nombre de marqueurs sont étudiées, génotyper tous les marqueurs chez tous les individus de l’échantillon n’est pas optimal en terme d’utilisation des ressources. Ici, nous proposons une approche alternative en deux étapes pour identifier les marqueurs associés à une maladie. Lors de la première étape, tous les marqueurs sont génotypés chez une fraction de l’échantillon total. Les marqueurs les plus prometteurs sont ensuite testés sur les individus restants lors de la deuxième étape. Cette approche peut être efficace en terme de coût puisque les marqueurs vraisemblablement non associés sont éliminés lors de la première étape. A l’aide de simulations, nous montrons que lorsque les marqueurs sont indépendants ou lorsqu’ils sont corrélés, l’approche en deux étapes conduit à une réduction substantielle dans le nombre total de marqueurs évalués pour une perte de puissance minimale. La puissance de notre approche est évaluée lorsqu’un seul marqueur est associé avec la maladie et en présence de plusieurs marqueurs associés à la maladie. De façon générale, nos simulations indiquent que génotyper l’ensemble des marqueurs chez 50% des individus lors de la première étape, puis de génotyper les 10% des marqueurs les plus prometteurs est quasi optimal en terme de puissance pour une diminution de 45% dans le nombre total de marqueurs génotypés.

Publication types

  • Research Support, U.S. Gov't, P.H.S.

MeSH terms

  • Biometry
  • Case-Control Studies
  • Genetic Diseases, Inborn / etiology
  • Genetic Diseases, Inborn / genetics*
  • Genetic Markers
  • Humans
  • Linkage Disequilibrium
  • Risk Factors
  • Sample Size

Substances

  • Genetic Markers