El genoma humano es el genoma del Homo
sapiens, es decir, la secuencia de ADN contenida en 23 pares de cromosomas en el núcleo de cada célula humana diploide.
De
los 23 pares, 22 son cromosomas autosómicos y un par determinante del sexo (dos cromosomas X en mujeres y uno X y uno Y en
hombres). El genoma haploide (es decir, con una sola representación de cada
par) tiene una longitud total aproximada de 3200 millones de pares de bases de ADN (3200 Mb) que contienen unos 20.000-25.000 genes (las estimaciones más recientes
apuntan a unos 20.500). De las 3200 Mb unas 2950 Mb corresponden a eucromatina y unas 250 Mb a heterocromatina. El Proyecto Genoma Humano produjo una secuencia de referencia
del genoma humano eucromático, usado en todo el mundo en las ciencias biomédicas.
La
secuencia de ADN que conforma el genoma humano contiene codificada la información necesaria para la
expresión, altamente coordinada y adaptable al ambiente, del proteoma humano, es decir, del conjunto de las
proteínas del ser humano. Las proteínas, y no el ADN, son las principales biomoléculas efectoras; poseen funciones
estructurales, enzimáticas, metabólicas, reguladoras,
señalizadoras..., organizándose en enormes redes funcionales de interacciones.
En definitiva, el proteoma fundamenta la particular morfología y funcionalidad de cada célula. Asimismo, la organización
estructural y funcional de las distintas células conforma cada tejido y cada órgano, y, finalmente, el organismo
vivo en su conjunto. Así, el genoma humano contiene la información básica
necesaria para el desarrollo físico de un ser humano completo.
El
genoma humano presenta una densidad de genes muy inferior a la que inicialmente
se había predicho, con sólo en torno al 1,5% de su longitud
compuesta por exones codificantes de proteínas. Un 70% está
compuesto por ADN extragénico y un 30 % por secuencias relacionadas con
genes. Del total de ADN extragénico, aproximadamente un 70% corresponde a
repeticiones dispersas, de manera que, más o menos, la mitad del genoma humano
corresponde a secuencias repetitivas de ADN. Por su parte, del total de ADN
relacionado con genes se estima que el 95% corresponde a ADN no codificante: pseudogenes, fragmentos de genes, intrones o secuencias UTR, entre otros.
Componentes:
Cromosomas
El
genoma humano (como el de cualquier organismo
eucariota) está formado por cromosomas,
que son largas secuencias continuas de ADN altamente organizadas espacialmente
(con ayuda de proteínas histónicas y no histónicas) para adoptar una
forma ultracondensada en metafase.
Son observables con microscopía
óptica convencional o de fluorescencia mediante técnicas de citogenética y se ordenan formando un cariotipo.
El
cariotipo humano normal contiene un total de 23 pares de cromosomas distintos:
22 pares de autosomas más 1 par de cromosomas sexuales que
determinan el sexo del individuo. Los cromosomas 1-22 fueron numerados en orden
decreciente de tamaño en base al cariotipo. Sin embargo, posteriormente pudo
comprobarse que el cromosoma 22 es en realidad mayor que el 21.
Representación
gráfica del cariotipo humano
normal.(Imagen 1).
Las
células somáticas de un organismo poseen en su núcleo un total de 46 cromosomas (23 pares):
una dotación de 22 autosomas procedentes de cada progenitor y un par de
cromosomas sexuales, un cromosoma
X de la madre y un X o un Y del
padre. (Ver imagen 1). Los gametos -óvulos y espermatozoides-
poseen una dotación haploide de 23 cromosomas.
Cromosoma
|
Genes
|
Número
de bases
|
Bases
secuenciadas4
|
1
|
4.220
|
247.199.719
|
224.999.719
|
2
|
1.491
|
242.751.149
|
237.712.649
|
3
|
1.550
|
199.446.827
|
194.704.827
|
4
|
446
|
191.263.063
|
187.297.063
|
5
|
609
|
180.837.866
|
177.702.766
|
6
|
2.281
|
170.896.993
|
167.273.993
|
7
|
2.135
|
158.821.424
|
154.952.424
|
8
|
1.106
|
146.274.826
|
142.612.826
|
9
|
1.920
|
140.442.298
|
120.312.298
|
10
|
1.793
|
135.374.737
|
131.624.737
|
11
|
379
|
134.452.384
|
131.130.853
|
12
|
1.430
|
132.289.534
|
130.303.534
|
13
|
924
|
114.127.980
|
95.559.980
|
14
|
1.347
|
106.360.585
|
88.290.585
|
15
|
921
|
100.338.915
|
81.341.915
|
16
|
909
|
88.822.254
|
78.884.754
|
17
|
1.672
|
78.654.742
|
77.800.220
|
18
|
519
|
76.117.153
|
74.656.155
|
19
|
1.555
|
63.806.651
|
55.785.651
|
20
|
1.008
|
62.435.965
|
59.505.254
|
21
|
578
|
46.944.323
|
34.171.998
|
22
|
1.092
|
49.528.953
|
34.893.953
|
X
(cromosoma sexual)
|
1.846
|
154.913.754
|
151.058.754
|
Y
(cromosoma sexual)
|
454
|
57.741.652
|
25.121.652
|
Total
|
32.185
|
3.079.843.747
|
2.857.698.560
|
ADN intragénico
Genes
Un gen es
la unidad básica de la herencia, y porta la información genética necesaria para
la síntesis de una proteína (genes codificantes) o de un ARN no
codificante (genes de ARN). Está formado por una secuencia promotora, que regula su expresión, y
una secuencia que se transcribe,
compuesta a su vez por: secuencias UTR (regiones flanqueantes no traducidas),
necesarias para la traducción y
la estabilidad del ARNm, exones (codificantes) e intrones, que son secuencias
de ADN no traducidas situadas entre dos exones que serán eliminadas en el
procesamiento del ARNm (ayuste).
Este
diagrama esquemático muestra un gen en relación a su estructura física (doble
hélice de ADN) y a un cromosoma (derecha). Los intrones son regiones
frecuentemente encontradas en los genes de eucariotas, que se transcriben, pero son eliminadas en el
procesamiento del ARN (ayuste) para producir un ARNm formado sólo por exones, encargados de traducir una proteína. Este diagrama es en
exceso simplificado ya que muestra un gen compuesto por unos 40 pares de bases
cuando en realidad su tamaño medio es de 20.000-30.000 pares de bases).
Actualmente
se estima que el genoma humano contiene entre 20.000 y 25.000genes codificantes de proteínas, estimación muy inferior a las
predicciones iniciales que hablaban de unos 100.000 genes o más. Esto implica
que el genoma humano tiene menos del doble de genes que organismos eucariotas mucho más simples, como la
mosca de la fruta o el nematodo Caenorhabditis elegans. Sin embargo, las células humanas recurren ampliamente al splicing (ayuste) alternativo para producir varias proteínas distintas a partir de
un mismo gen, como consecuencia de lo cual el proteoma humano es más amplio que el de otros organismos mucho más simples.
En la práctica, el genoma tan
sólo porta la información
necesaria para una expresión perfectamente coordinada y regulada del conjunto
de proteínas que conforman el proteoma, siendo éste el encargado de ejecutar la
mayor parte de las funciones celulares.
Con
base en los resultados iniciales arrojados por el proyecto ENCODE (acrónimo de ENCyclopedia Of DNA Elements), algunos autores han
propuesto redefinir el concepto actual de gen. Las observaciones más recientes
hacen difícilmente sostenible la visión tradicional de un gen, como una
secuencia formada por las regiones UTRs, los exones y los intrones. Estudios
detallados han hallado un número de secuencias de inicio de transcripción por
gen muy superior a las estimaciones iniciales, y algunas de estas secuencias se
sitúan en regiones muy alejadas de la traducida, por lo que los UTR 5' pueden
abarcar secuencias largas dificultando la delimitación del gen. Por otro lado,
un mismo transcrito puede dar lugar a ARN maduros totalmente diferentes
(ausencia total de solapamiento), debido a una gran utilización del splicing alternativo. De este modo, un mismo
transcrito primario puede dar lugar a proteínas de secuencia y funcionalidad
muy dispar. En consecuencia, algunos autores han propuesto una nueva definición
de gen,: la unión de secuencias genómicas que codifican un conjunto
coherente de productos funcionales, potencialmente solapantes. De este
modo, se identifican como genes los genes ARN y los conjuntos de secuencias
traducidas parcialmente solapantes (se excluyen, así, las secuencias UTR y los
intrones, que pasan a ser considerados como "regiones asociadas a
genes", junto con los promotores). De acuerdo con esta definición, un
mismo transcrito primario que da lugar a dos transcritos secundarios (y dos
proteínas) no solapantes debe considerarse en realidad dos genes diferentes,
independientemente de que estos presenten un solapamiento total o parcial de
sus transcritos primarios.
Las
nuevas evidencias aportadas por ENCODE, según las cuales las regiones UTR no
son fácilmente delimitables y se extienden largas distancias, obligarían a
reidentificar nuevamente los genes que en realidad componen el genoma humano.
De acuerdo con la definición tradicional (actualmente vigente), sería necesario
identificar como un mismo gen a todos aquellos que muestren un solapamiento
parcial (incluyendo las regiones UTR y los intrones), con lo que a la luz de
las nuevas observaciones, los genes incluirían múltiples proteínas de secuencia
y funcionalidad muy diversa. Colateralmente se reduciría el número de genes que
componen el genoma humano. La definición propuesta, en cambio, se fundamenta en
el producto funcional del gen, por lo que se mantiene una relación más
coherente entre un gen y una función biológica. Como consecuencia, con la
adopción de esta nueva definición, el número de genes del genoma humano
aumentará significativamente.
Genes de
ARN
Además
de los genes codificantes de proteínas, el genoma humano contiene varios miles
de genes ARN, cuya transcripción reproduce ARN de transferencia (ARNt), ARN ribosómico (ARNr), microARN (miARN), u otros genes ARN
no codificantes. Los ARN ribosómico y de transferencia son esenciales en la
constitución de los ribosomas y en la traducción de las proteínas. Por su parte, los microARN tienen gran
importancia en la regulación de la expresión génica, estimándose que hasta un
20-30% de los genes del genoma humano puede estar regulado por el mecanismo de
interferencia por miARN. Hasta el momento se han identificado más de 300 genes
de miARN y se estima que pueden existir unos 500-
Distribución
de genes
A
continuación se muestran algunos valores promedio del genoma humano. Cabe
advertir, sin embargo, que la enorme heterogeneidad que presentan estas
variables hace poco representativos a los valores promedio, aunque tienen valor
orientativo.
La
densidad media de genes es de 1 gen cada 100 kb, con un tamaño medio de 20-30
kb, y un número de exones promedio de 7-8 por cada gen, con un tamaño medio de
150 nucleótidos. El tamaño medio de un ARNm es de 1,8-2,2 kb, incluyendo las regiones UTR(regiones no traducidas flanqueantes), siendo la longitud media de
la región codificante de 1,4 kb.
Isocoros.
Frecuencia y riqueza en G+C y genes, en el genoma humano.
El
genoma humano se caracteriza por presentar una gran heterogeneidad en su
secuencia. En particular, la riqueza en bases de guanina (G) y citosina (C) frente a las de adenina(A) y timina (T) se distribuye heterogéneamente, con regiones muy ricas en G+C
flanqueadas por regiones muy pobres, siendo el contenido medio de G+C del 41%,
menor al teóricamente esperado (50%). Dicha heterogeneidad esta correlacionada
con la riqueza en genes, de manera que los genes tienden a concentrarse en las
regiones más ricas en G+C. Este hecho era conocido ya desde hace años gracias a
la separación mediante centrifugación en gradiente de densidad de regiones ricas en G+C (que recibieron
el nombre de isócoros H; del inglés High)
y regiones ricas en A+T (isócoros L; del inglés Low).
Secuencias
reguladoras
El
genoma tiene diversos sistemas de regulación de la expresión génica, basados en
la regulación de la unión de factores de transcripción a las secuencias promotoras, en mecanismos de modificación epigenética (metilación del ADN o metilación-acetilación de histonas) o en el control de la
accesibilidad a los promotores determinada por el grado de condensación de la cromatina; todos ellos muy interrelacionados. Además hay otros sistemas de
regulación a nivel del procesamiento, estabilidad y traducción del ARNm, entre
otros. Por lo tanto, la expresión génica está intensamente regulada, lo cual
permite desarrollar los múltiples fenotipos que caracterizan los distintos tipos celulares de un organismo eucariota multicelular, al mismo
tiempo que dota a la célula de la plasticidad necesaria para adaptarse a un
medio cambiante. No obstante, toda la información necesaria para la regulación
de la expresión génica, en función del ambiente celular, está codificada en la
secuencia de ADN al igual que lo están los genes.
Las
secuencias reguladoras son típicamente secuencias cortas presentes en las
proximidades o en el interior (frecuentemente en intrones) de los genes. En la
actualidad, el conocimiento sistemático de estas secuencias y de cómo actúan en
complejas redes de regulación génica, sensibles a señales exógenas, es muy
escaso y está comenzando a desarrollarse mediante estudios de genómica
comparada, bioinformática y biología de sistemas. La identificación de
secuencias reguladoras se basa en parte en la búsqueda de regiones no
codificantes evolutivamente conservadas Por
ejemplo, la divergencia evolutiva entre el ratón y el ser humano ocurrió hace
70-90 millones de años. Mediante
estudios de genómica comparada, alineando secuencias de ambos genomas pueden
identificarse regiones con alto grado de coincidencia, muchas correspondientes
a genes y otras a secuencias no codificantes de proteínas pero de gran
importancia funcional, dado que han estado sometidas a presión selectiva.
Elementos
ultraconservados
Reciben
este nombre regiones que han mostrado una constancia evolutiva casi total,
mayor incluso que las secuencias codificantes de proteínas, mediante estudios
de genómica comparada. Estas secuencias generalmente se solapan
con intrones de genes implicados en la regulación de la transcripción o en el
desarrollo embrionario y con exones de genes relacionados con el procesamiento
del ARN. Su función es generalmente poco conocida, pero probablemente de
extrema importancia dado su nivel de conservación evolutiva, tal y como se ha
expuesto en el punto anterior.
En
la actualidad se han encontrado unos 500 segmentos de un tamaño mayor a 200
pares de bases totalmente conservados (100% de coincidencia) entre los genomas
de humano, ratón y rata, y casi totalmente conservados en perro (99%) y pollo
(95%).
Pseudogenes
En
el genoma humano se han encontrado asimismo unos 19.000 pseudogenes, que son versiones completas o parciales de genes que han
acumulado diversas mutaciones y que generalmente no se transcriben. Se clasifican en pseudogenes
no procesados (~30%) y pseudogenes procesados (~70%)
§ Los
pseudogenes no procesados son copias de genes generalmente originadas por
duplicación, que no se transcriben por carecer de una secuencia promotora y haber acumulado múltiples
mutaciones, algunas de las cuales sin sentido (lo que origina codones de parada prematuros). Se caracterizan
por poseer tanto exones como intrones.
§ Los
pseudogenes procesados, por el contrario, son copias de ARN mensajero retro transcritas e insertadas en el genoma. En
consecuencia carecen de intrones y de secuencia promotora.
No hay comentarios:
Publicar un comentario