Un nuevo estudio del Cáncer de Hueso de los Perros.
El paisaje genómico de las líneas
celulares de osteosarcoma canino revela una complejidad estructural
conservada y alteraciones de las vías.
Introducción.
Las líneas celulares establecidas se
utilizan comúnmente en la investigación preclínica del cáncer
para ayudar a diseccionar muchas facetas de la biología del tumor,
incluyendo la sensibilidad a las nuevas terapias y el papel de las
aberraciones moleculares y genéticas en la progresión de la
enfermedad.
La última década ha sido testigo de
un crecimiento y una utilización sin precedentes de los datos
genómicos tumorales para guiar los enfoques terapéuticos, de
diagnóstico y de pronóstico. Por lo tanto, la incorporación
continua y precisa de datos in vitro en la investigación del cáncer
requiere una comprensión completa del panorama genómico de estas
herramientas.
Esto es especialmente relevante en la
evaluación preclínica de terapias dirigidas, que dependen del
conocimiento del espectro de alteraciones genéticas en las células
cancerosas. Por ello, la secuenciación del genoma completo y del
exoma de las líneas celulares (WGS y WES, respectivamente) se evalúa
cada vez más al mismo tiempo que las muestras de tumores primarios.
Aunque se ha realizado una amplia
documentación de las líneas celulares tumorales humanas y murinas,
las líneas celulares tumorales caninas han sido objeto de un
análisis genómico relativamente limitado. Dado que los perros con
cáncer espontáneo se utilizan cada vez más para evaluar nuevas
terapias en el entorno preclínico, es importante que las
herramientas de acompañamiento utilizadas para los estudios in vitro
se definan a fondo, en particular con respecto al paisaje genómico.
Por ejemplo, en los estudios
preclínicos se emplean diversas líneas celulares de osteosarcoma
(OS) canino; sin embargo, se han caracterizado principalmente
utilizando métodos que definen un espectro relativamente estrecho de
alteraciones moleculares y de vías.
Se ha evaluado un número limitado de
líneas de osteosarcoma mediante RNA-seq y WES, demostrando firmas
transcripcionales conservadas y mutaciones puntuales en TP53 con
tumores secuenciados.
Nosotros y otros hemos caracterizado
recientemente el osteosarcoma primario canino utilizando WGS, WES y
secuenciación de ARN, demostrando una significativa complejidad
estructural, incluyendo aberraciones en SETD2, DMD, DLG2 y MYC, entre
otras.
Varias de ellas no se observaron en el
examen previo de las líneas celulares de osteosarcoma canino, en
gran parte debido a que una característica definitoria del OS canino
es la presencia de grandes cambios estructurales que son más
difíciles de detectar mediante WES. Por lo tanto, realizamos WGS en
ocho líneas celulares de osteosarcoma canino para caracterizar el
paisaje del genoma del tumor y evaluar las similitudes y diferencias
entre estas líneas celulares y los tumores primarios de OS canino
que se producen naturalmente.
Materiales y métodos.
Adquisición de líneas celulares y
extracción de ADN
Las líneas celulares OSCA2 y OSCA8
(por ejemplo, OSA2 y OSA8) fueron un generoso regalo del Dr. Jamie
Modiano (Universidad de Minnesota). Las líneas celulares Abrams y
Gracie fueron proporcionadas por el Dr. Douglas Thamm (Universidad
Estatal de Colorado).
El ADN genómico extraído de las
líneas celulares HMPOS, McKinley (por ejemplo, MacKinley), Moresco
(por ejemplo, Marisco) y OS2.4 fue proporcionado por el Dr. Douglas
Thamm (Universidad Estatal de Colorado). Las cuatro líneas celulares
restantes (OSCA2, OSCA8, Abrams, Gracie) fueron confirmadas como
negativas al micoplasma mediante PCR antes del aislamiento del ADN.
El ADN se aisló utilizando el DNeasy
Blood & Tissue Kit (Qiagen Inc., Hilden, Alemania). Se llevó a
cabo una validación adicional de la línea celular mediante el
perfil de repeticiones cortas en tándem (STR) en el ADNg extraído
utilizado para la WGS con loci disponibles comercialmente (kit de
genotipado canino Stockmarks, Applied Biosystems) según las
recomendaciones del fabricante y se comparó con los loci disponibles
publicados para cada línea celular cuando estaban disponibles.
Construcción de bibliotecas y
secuenciación.
La WGS fue realizada por la Plataforma
Genómica del Instituto Broad en una plataforma Illumina con
seguimiento de la muestra con LIMS automatizado como se describió
previamente. Brevemente, 100 ng de ADN genómico fueron sometidos a
un cizallamiento utilizando un sonicador ultrafocalizado Covaris,
seguido de una limpieza con perlas SPRI.
Se utilizó el KAPA Hyper Prep Kit con
Library Amplification Primer Mix (KAPA Biosystems; #KK8504) con
adaptadores palindrómicos en horquilla que contenían una secuencia
de índice única de 8 bases (Roche). Tras la normalización de las
bibliotecas a 2,2 nM, se completó la amplificación de grupos y la
secuenciación en un HiSeqX, utilizando los kits de secuenciación
por síntesis para generar lecturas de 151 pb de extremo emparejado.
Las muestras se secuenciaron a una profundidad objetivo de 30x.
Preprocesamiento de los datos de
secuenciación.
Las muestras alcanzaron una profundidad
de secuenciación media de 53,7x (rango 38,5x - 80,9x, Tabla S1). Los
datos de secuenciación de la línea celular se procesaron mediante
el flujo de trabajo ilustrado en la Fig. 1. Brevemente, los archivos
fastq se alinearon con el genoma de referencia canino (CanFam3.1)
utilizando BWA y posteriormente se sometieron a un control de calidad
siguiendo las mejores prácticas de GATK.
Para todas las herramientas de GATK, se
utilizó la versión 4.1.3.0, a menos que se indique lo contrario.
Las lecturas duplicadas se identificaron utilizando Picard Tools
MarkDuplicates (http://broadinstitute.github.io/picard). La
recalibración de la puntuación de calidad de las bases (BQSR) se
realizó utilizando un archivo VCF que contenía variantes de la
línea germinal identificadas en 676 perros y otros cánidos.
Determinación de mutaciones somáticas
simples.
Las mutaciones somáticas simples
(variantes de un solo nucleótido (SNV) y pequeñas
inserciones/deleciones (indels)) se detectaron utilizando un enfoque
de llamada de consenso que combina Mutect2 y Platypus, los cuales
permiten la llamada de variantes sin una muestra normal emparejada.
Mutect2 se ejecutó utilizando los
scripts WDL de GATK Showcase disponibles en la plataforma de
computación en la nube Terra. En primer lugar, se generó un panel
de variantes normales utilizando datos WGS de la línea germinal de
23 perros de un conjunto de datos previamente publicado.
El VCF de las variantes de la línea
germinal llamadas en 676 perros y otros cánidos se utilizó como
referencia de la línea germinal, y un subconjunto de estas variantes
se utilizó en el paso CalculateContamination.
Mutect2 se ejecutó con los argumentos
adicionales "-downsampling-stride
20-max-reads-per-alignment-start
6-max-suspicious-reads-per-alignment-start 6". FilterMutectCalls
se ejecutó con la opción
"-run_orientation_bias_mixture_model_filter" ajustada a
"True" y la opción "-min-median-read-position"
ajustada a 10 pb.
Los cromosomas no anclados y
mitocondriales se excluyeron de la llamada de variantes. Las
variantes también se llamaron en las líneas celulares y en 23 BAMs
WGS normales publicados utilizando Platypus (v. 0.8.1), con la
bandera "-minReads" establecida en 3.
Empleamos un proceso de filtrado de
varios pasos para identificar las llamadas de variantes de alta
confianza y eliminar las variantes putativas de la línea germinal en
la medida de lo posible. Como nuestro VCF de referencia de la línea
germinal se había actualizado para eliminar dos individuos y todas
las variantes no admitidas por los 674 individuos restantes,
actualizamos el indicador de filtro en las llamadas de Mutect2 para
reflejar estos cambios.
Paso 1: utilizando Bcftools (v. 1.12)
se reajustó el indicador de filtro a "PASS" para cualquier
variante en la salida de Mutect2 que se superpusiera a la posición
de una variante eliminada de la referencia de la línea germinal y en
la que el campo de filtro se estableciera como "línea germinal"
solamente.
Paso 2: se utilizó el mismo enfoque
para restablecer la bandera "alleleBias" en la salida de
Platypus, ya que esto podría eliminar las variantes somáticas de
baja fracción alélica. Paso 3: se creó un panel de normales para
los datos de Platypus fusionando las llamadas de variantes de las
mismas muestras de la línea germinal utilizadas en el panel Mutect2.
A continuación, se utilizó el comando
isec de Bcftools para eliminar las llamadas de variantes en los datos
de la línea celular de Platypus que se solapaban con la posición de
una variante llamada en el panel de normales.
Paso 4: se eliminaron los sitios con
una bandera de filtro no pasante utilizando Bcftools view. Paso 5:
Bcftools isec se utilizó para mantener sólo las variantes llamadas
tanto en Mutect2 como en Platypus para cada línea celular. Paso 6:
Bcftools isec se utilizó para eliminar las variantes putativas de la
línea germinal vistas en el VCF de referencia de la línea germinal,
en el conjunto de SNPs de la línea germinal de Broad, o en el
conjunto de SNPs de la línea germinal de Axelsson.
Paso 7: se utilizó la vista de
Bcftools para eliminar las llamadas de variantes con una fracción
alélica (AF) < 0,05, profundidad de lectura (DP) < 10, o menos
de 3 lecturas que apoyaran el alelo alternativo. Paso 8: los sitios
somáticos putativos restantes fueron regenotipados en 23 muestras
normales de la línea germinal utilizando la herramienta Graphtyper,
y las variantes encontradas en las muestras de la línea germinal
fueron filtradas utilizando Bcftools.
Las variantes pasantes se anotaron
utilizando SnpEff v5.0e. El paquete KaryoploteR, usando R (R3.5.0)
fue implementado para identificar áreas de kataegis [35]. Se crearon
gráficos de mutaciones con la herramienta lollipops. Los genes con
mutaciones recurrentes fueron priorizados por su probable relevancia
en el OS canino como se describió previamente.
Llamada de razas.
Los archivos BAM preprocesados se
genotiparon en ubicaciones de variantes putativas de la línea
germinal utilizando GATK HaplotypeCaller (versión 4.1.0.0) con el
modo de ajuste de genotipado GENOTYPE_GIVEN_ALLELES. Se utilizó una
versión anterior de nuestra referencia de línea germinal como lista
de sitios a genotipar.
Esta referencia de línea germinal
contenía 435 muestras (287 perros de raza pura, 6 perros con
ascendencia desconocida, 100 perros indígenas o de pueblo de todo el
mundo, 36 lobos y otros 6 cánidos salvajes). Para determinar la raza
de cada línea celular, se creó el pipeline de llamada de raza
seleccionando datos de genotipos disponibles públicamente (N =
1.212) [25, 26, 37] de 101 razas modernas con al menos 12 perros de
raza pura por raza.
Se calculó la estadística F de Wright
mediante el método de Hudson para cada raza utilizando 2.468.442
polimorfismos de nucleótido único bialélicos con <10% de
genotipos perdidos. Se seleccionaron los SNPs con FST>0,15 en
todas las comparaciones y se realizó una poda basada en LD en
ventanas de 50kb (r2>0,5) para extraer 688.060 marcadores para la
inferencia de la ascendencia global. Se fusionaron los genotipos de
estos SNPs de las líneas celulares con los genotipos de las muestras
de referencia, y luego se realizó la inferencia de ascendencia
global utilizando ADMIXTURE [38] en modo supervisado (semilla
aleatoria: 43).
Llamada a la firma mutacional.
Se utilizó la herramienta
SigProfilerMatrixGenerator [39] para generar una matriz de contextos
mutacionales variantes. A continuación, se utilizó la herramienta
SigFit (v2.2) para identificar las firmas de sustitución de base
única (SBS) de COSMIC v3 [41] presentes en los datos de la línea
celular.
La matriz de oportunidades mutacionales
para el genoma CanFam3.1 fue amablemente proporcionada por Adrián
Báez-Ortega, de la Universidad de Cambridge, uno de los autores de
SigFit. El ajuste se realizó con 10.000 iteraciones y 5.000
iteraciones de calentamiento, utilizando el modelo multinomial. Se
seleccionaron las firmas que eran suficientemente mayores que cero
(lo que significa que el extremo inferior del intervalo Bayesiano HPD
era > 0,025 en cualquier muestra) y se volvió a realizar el
ajuste utilizando sólo esas firmas.
Llamada de variantes estructurales.
Las aberraciones somáticas del número
de copias (SCNAs) se detectaron utilizando el pipeline GATK somatic
CNV, a través del espacio de trabajo Terra showcase WDLs. Se creó
un panel autosómico de normales utilizando las 23 muestras de la
línea germinal, y se crearon paneles sólo de hombres y sólo de
mujeres para el cromosoma X. La opción "do_explicit_gc_correction"
se estableció en "True" para la creación del panel. Como
el sexo del donante no estaba anotado para muchas de las líneas
celulares, determinamos el sexo basándonos en la relación de la
profundidad media de las lecturas en los autosomas y en el cromosoma
X (determinada por la herramienta GATK DepthOfCoverage).
Los ratios de cobertura X/autosoma
entre 0,3 y 0,7 se consideraron masculinos, y los ratios entre 0,8 y
1,2 se consideraron femeninos. Se realizó la llamada de CNV, con los
parámetros de suavización "kernel_variance_allele_fraction"
y "kernel_variance_copy_ratio" establecidos en 0,8, y
"num_changepoints_penalty_factor" establecido en 5. Los
gráficos de CNV se rehicieron utilizando un archivo DICT ordenado
para trazar los cromosomas en orden numérico y excluir los
cromosomas no anclados y mitocondriales.
Las pérdidas de número de copias con
un cambio de pliegue log2 de ≥ 0,4 (ganancia de una copia) o ≤
-0,9 (pérdida de dos copias) se consideraron en nuestro análisis.
Se utilizó un script personalizado de Python para anotar el
solapamiento de los segmentos de número de copias con los genes
utilizando la anotación de genes caninos de Ensembl (Release 99).
Las variantes estructurales (SV) se
llamaron utilizando la versión 1.6.0 de Manta. Las líneas celulares
y las 23 muestras normales de la línea germinal se ejecutaron por
separado utilizando la configuración de sólo tumor o línea
germinal, según el caso. Los VCFs de salida se procesaron utilizando
el script "convertInversion.py" proporcionado por Manta
para convertir las inversiones al antiguo formato INV, en lugar del
formato actual de final de ruptura (BND). Para mitigar la incidencia
de falsos positivos cuando se analizan muestras derivadas de tumores
no coincidentes, se realizaron múltiples pasos de filtrado.
Paso 1: se creó un panel de normales
fusionando las llamadas SV de los 23 VCFs de la línea germinal con
cada uno de los VCFs de la línea celular utilizando la herramienta
Jasmine [45], usando los ajustes "-nonlinear_dist max_dist =
1000", "-output_genotypes", y "-keep_var_ids".
Se utilizó un script personalizado de Python para añadir genotipos
al campo "GT" de manera que los VCFs pudieran ser
analizados por Bcftools.
Todos los genotipos se fijaron en 0/1.
Para cada línea celular-panel de normales fusionado VCF, se
extrajeron los IDs de variantes presentes en la línea celular pero
en ninguna de las normales. Paso 3: utilizando Bcftools, se
eliminaron los IDs de variantes presentes en las normales, así como
las variantes en las que el campo de filtro no era "PASS",
que estaban marcadas como "IMPRECISO", o en las que ni el
soporte de lecturas emparejadas (PR) ni el de lecturas divididas (SR)
era mayor o igual a 15. Se utilizó la herramienta "vcfbedsetfilter"
de Jvarkit para marcar las variantes que se solapaban con las
regiones centroméricas putativas (ventanas de 5000 pb que contienen
≥80% de repeticiones centroméricas, de
https://github.com/Chao912/Mischka/CanFam3.1.centromere.bed).
Paso 4: las variantes restantes no
filtradas se volvieron a genotipar en las muestras normales
utilizando la herramienta Graphtyper, y cualquier variante con
soporte en una muestra normal se eliminó utilizando Bcftools. Paso
5: los extremos de ruptura de translocación en los que se había
filtrado un extremo en un paso anterior se eliminaron utilizando
Bcftools.
Comparación con la literatura.
Identificamos cinco conjuntos de datos
WES o WGS publicados de tejido canino OS (Sakthikumar, et al. [16],
Gardner, et al. [18], Das, et al. [17], Chu, et al. [19]) o líneas
celulares (Das, et al. [1]). Las llamadas de variantes se obtuvieron
en formato VCF o tabular a partir de los datos suplementarios y se
estandarizaron en formato VCF. Para minimizar la variabilidad debida
a la anotación de genes y a la estrategia de secuenciación,
limitamos nuestra comparación a las regiones codificantes
(específicamente, las regiones CDS en la anotación canina Ensembl
Release 99) utilizando la vista Bcftools, y reanotamos los VCF de
cada estudio utilizando Snpeff.
Se excluyeron las variantes anotadas
como de bajo impacto. Las variantes estructurales, incluidas las
variantes de número de copias de Gardner, et al. y Chu, et al., se
convirtieron de formato tabular a archivos bed. Las regiones
superpuestas dentro de cada muestra se fusionaron utilizando Bedtools
merge. Los segmentos de número de copias que se encontraron
significativamente alterados de forma recurrente en Sakthikumar, et
al. también se convirtieron a formato de cama para su comparación,
pero no se pudo realizar un recuento de VNC a nivel de muestra.
Los genes solapados por una variante
estructural se anotaron utilizando Bedtools annotate para contar el
número de solapamientos de las regiones CDS en la anotación canina
de Ensembl dentro de cada conjunto de datos. Debido a la falta de
información sobre las coordenadas de los extremos de los puntos de
rotura para las translocaciones en la literatura, no se pudo realizar
una estandarización, y las translocaciones se compararon contando el
número de veces que un gen determinado fue anotado como afectado en
cada conjunto de datos.
Resultados.
Validación de la línea celular.
Se extrajo el ADN aislado de cada línea
celular y se confirmó que era de origen canino y la línea celular
de origen declarada mediante interrogación multiplataforma. El
perfil de STR y la PCR específica de la especie confirmaron que el
ADN secuenciado era canino, y los loci de STR eran coherentes con los
comunicados anteriormente.
Además, la llamada de raza y la
cobertura de secuenciación sobre el cromosoma X confirmaron el
origen de la raza y el sexo de las líneas celulares tumorales cuando
se disponía de datos previamente publicados, e identificaron esta
información para varias líneas en las que dicha información no
estaba disponible públicamente.
Es importante destacar que los perros
de la aldea no tienen ascendencia de raza, lo que hace que el
algoritmo de llamada de razas llame a muchas razas diferentes, cada
una de las cuales se reporta como contribuyente de una pequeña
fracción. Esto es especialmente importante para los conjuntos de
datos de WGS en los que no se dispone de una muestra de referencia de
ADN de la línea germinal, ya que las bases de datos existentes de
variación de la línea germinal pueden no capturar con precisión el
espectro de variantes normales de la línea germinal en estos perros,
lo que da lugar a la aparición falsa de una mayor carga de
mutaciones.
Por último, las llamadas de variantes
de un solo nucleótido (SNV) entre las diferentes líneas celulares
no fueron concordantes, lo que concuerda con la correcta
identificación de las líneas celulares y la ausencia de
contaminación cruzada entre ellas.
Variantes de un solo nucleótido en las
líneas celulares del OS canino.
Las mutaciones sin sentido fueron las
SNV codificantes más comunes identificadas en las líneas celulares
del OS canino, con una fracción menor de mutaciones de cambio de
marco y otros eventos disruptivos. No es sorprendente que se
identificara una alta incidencia de variantes no codificantes,
incluyendo variantes en la región de empalme y variantes en la
región no traducida 3' y 5'.
Es probable que la falta de una
referencia de línea germinal emparejada condujera a una mayor
incidencia de llamadas falsas positivas en el genoma no codificante.
Sin embargo, se reconoce cada vez más que las variantes en las
regiones reguladoras contribuyen a la tumorigénesis. Aunque se
desconoce la importancia de estas variantes, se justifica una mayor
interrogación de las mutaciones no codificantes que pueden afectar a
los genes impulsores del cáncer para empezar a atribuir importancia
funcional a los elementos no codificantes en el SO.
A pesar de un filtrado exhaustivo, la
carga mutacional en cada línea celular, calculada en 5,8 mut/Mb
(rango 2,1-14,7, Tabla S5) fue mayor que la reportada previamente en
tejidos primarios de OS caninos y humanos [18, 49]. Es probable que
esto sea el resultado de un pasaje a largo plazo de las líneas
celulares y de la falta de una muestra de referencia de línea
germinal del individuo en el que se originó el tumor.
En las líneas celulares Gracie y
OSCA-8 se identificaron regiones de hipermutación focal sugestivas
de kaetegis. La línea celular HMPOS, que se originó en un perro de
pueblo cuya ascendencia no está bien representada en nuestro panel
de referencia, tuvo la mayor carga mutacional aparente.
En consonancia con las muestras de
tejido primario del OS, las SNV codificantes más comunes fueron las
mutaciones en TP53 (7/8; 88%), predominantemente compuestas por
mutaciones de sentido erróneo con una menor incidencia de mutaciones
de cambio de marco. El único otro gen con SNV codificantes
identificado en al menos tres líneas celulares fue DST, un gen que
codifica la distonina, una proteína de enlace del citoesqueleto.
Todos los demás SNV codificantes
recurrentes eran privados de una o dos líneas celulares. Sin
embargo, el espectro de SNVs observado era en gran medida
representativo del identificado en las muestras de tejido primario
del OS canino, con mutaciones implicadas en la reparación del ADN y
el ciclo celular, genes reguladores epigenéticos y de la cromatina,
y las vías de señalización PI3K y MAPK.
Comparamos nuestras llamadas de
mutaciones somáticas simples con las reportadas previamente en
muestras de tejido de OS canino WES/WGS. De los 3.836 genes con
SNVs/INDELs notificados en al menos un tumor de OS en estos estudios,
272 (7%) también estaban mutados en al menos una línea celular.
TP53 fue el más comúnmente mutado, tanto en la literatura (64%)
como en nuestros datos (88%).
De los genes notificados en al menos el
5% de las muestras de OS, FSIP2 (13% de líneas celulares, 11%
notificado en la literatura), TTN (3% de líneas celulares, 9%
notificado en la literatura), ENSCAFG00000000632 (13% de líneas
celulares, 7% notificado en la literatura), RYR2 (13% de líneas
celulares, 5% reportado en la literatura), UNC80 (13% líneas
celulares, 5% reportado en la literatura), LRP1B (13% líneas
celulares, 5% reportado en la literatura), y XIRP2 (13% líneas
celulares, 5% reportado en la literatura) fueron mutados en al menos
una línea celular.
Varios genes comúnmente reportados
como mutados en muestras de OS no tenían mutaciones somáticas
simples en ninguna de las líneas celulares, más notablemente SETD2
(19% reportado en la literatura), así como NEB (12% reportado en la
literatura).
También examinamos la concordancia de
nuestras llamadas SNV e INDEL WGS con las reportadas previamente a
partir de la secuenciación WES de las mismas líneas celulares. En
general, una media del 49% de las variantes codificantes reportadas
en WES de estas líneas celulares fueron confirmadas por WGS (rango
35% (McKinley)- 73% (OS2.4)).
Se evaluó el contexto trinucleotídico
de los SNV, identificando la exposición a las firmas de sustitución
de base única (SBS) de COSMIC v3 en las llamadas de SNV de las
líneas celulares.
Las firmas SBS1 (la "firma del
envejecimiento", asociada a la desaminación espontánea de la
5-metil-citosina), SBS5 (una firma "tipo reloj" de
etiología desconocida), SBS8 (etiología desconocida), SBS9
(posiblemente debida a la hipermutación somática a través de la
polimerasa eta en las células linfoides), SBS17a (etiología
desconocida), SBS17b (asociada en algunos casos humanos a la
quimioterapia con fluorouracilo y al daño por especies reactivas del
oxígeno), SBS19 (etiología desconocida), SBS22 (exposición al
ácido aristolóquico), SBS30 (deficiencia en la reparación de la
escisión de bases, asociada a la pérdida de la función de NTHL1),
SBS32 (asociada al tratamiento con azotiaprina), SBS35 (asociada a la
quimioterapia con platino), SBS36 (deficiencia en la reparación de
la escisión de bases, asociada a la pérdida de la función de
MUTYH), SBS37 (etiología desconocida), SBS39 (etiología
desconocida) y SBS40 (etiología desconocida, asociada al
envejecimiento en algunos cánceres humanos) se identificaron en
proporciones variables en las líneas celulares [41]. Las mayores
contribuciones fueron las firmas SBS1, SBS40 y SBS5.
Las firmas SBS1, SBS5, SBS8, SBS17a,
SBS17b, SBS30, y SBS40 han sido previamente reportadas en muestras de
OS humano, mientras que las firmas SBS1, SBS8, SBS9, y SBS17b han
sido reportadas en OS canino.
Variantes estructurales en las líneas
celulares del OS canino.
Se identificaron VS, incluyendo
deleciones, inserciones, inversiones, translocaciones y
duplicaciones. La incidencia media de VS en este panel de líneas
celulares fue de 1139 VS por línea celular, lo cual es notablemente
más alto que lo reportado en los tejidos del OS y probablemente sea
el resultado de la falta de una muestra de línea germinal compatible
disponible. Los SV más comunes fueron deleciones y translocaciones
cromosómicas complejas.
En consonancia con las VS reportadas en
los tejidos primarios del OS, estaban presentes variantes
estructurales sin número de copias que involucraban a DMD (4/8 (50%)
líneas celulares), DLG2 (5/8 (62,5%) en este estudio), CDKN2A (6/8
(75%)), MAGI2 (7/8 (88%)), y MLLT3 (6/8 (75%)). En particular, se
identificaron múltiples variantes que afectan a los genes
epigenéticos y reguladores de la cromatina en todas las líneas
celulares, lo que apoya las afirmaciones anteriores que implican
alteraciones del paisaje epigenético en la biología del OS.
En 2/8 (25%) de las líneas celulares
de este estudio se encontraron deleciones a gran escala que abarcan
SETD2, mientras que otra línea celular tenía una duplicación que
implicaba a SETD2. Por último, se identificaron SV recurrentes
adicionales en NF1 (8/8 (100%)), NEDD4L, una ubiquitina ligasa E3
responsable de la homeostasis de PTEN (7/8 (88%)), así como en los
genes de la desmetilasa de histonas KDM4A y KDM4C (alteración en uno
de los dos presentes en todas las líneas celulares de este estudio),
y KDM5A y KDM5C, (alteración en uno de los dos presentes en todas
las líneas celulares de este estudio).
Variantes estructurales en las líneas
celulares del OS canino.
Se identificaron VS, incluyendo
deleciones, inserciones, inversiones, translocaciones y
duplicaciones. La incidencia media de VS en este panel de líneas
celulares fue de 1139 VS por línea celular, lo cual es notablemente
más alto que lo reportado en los tejidos del OS y probablemente sea
el resultado de la falta de una muestra de línea germinal compatible
disponible. Los SV más comunes fueron deleciones y translocaciones
cromosómicas complejas.
En consonancia con las VS reportadas en
los tejidos primarios del OS, estaban presentes variantes
estructurales sin número de copias que involucraban a DMD (4/8 (50%)
líneas celulares), DLG2 (5/8 (62,5%) en este estudio), CDKN2A (6/8
(75%)), MAGI2 (7/8 (88%)), y MLLT3 (6/8 (75%)). En particular, se
identificaron múltiples variantes que afectan a los genes
epigenéticos y reguladores de la cromatina en todas las líneas
celulares, lo que apoya las afirmaciones anteriores que implican
alteraciones del paisaje epigenético en la biología del OS.
En 2/8 (25%) de las líneas celulares
de este estudio se encontraron deleciones a gran escala que abarcan
SETD2, mientras que otra línea celular tenía una duplicación que
implicaba a SETD2. Por último, se identificaron SV recurrentes
adicionales en NF1 (8/8 (100%)), NEDD4L, una ubiquitina ligasa E3
responsable de la homeostasis de PTEN (7/8 (88%)), así como en los
genes de la desmetilasa de histonas KDM4A y KDM4C (alteración en uno
de los dos presentes en todas las líneas celulares de este estudio),
y KDM5A y KDM5C, (alteración en uno de los dos presentes en todas
las líneas celulares de este estudio).
Del mismo modo, se identificaron
diversas mutaciones y aberraciones del número de copias en los genes
de la vía PI3K y MAPK, y todas las líneas celulares presentaban al
menos una alteración en MAP2K1, MAP2K2, MAP2K4 o MAP2K5. En
consonancia con la noción de que el OS es genómicamente
heterogéneo, pocas aberraciones en genes individuales fueron
recurrentes. Además, se identificaron pérdidas de número de
copias, deleciones, inversiones y translocaciones en PTEN (5/8
(62,5%) líneas celulares) y NEDD4L (7/8 (88%)), lo que sugiere que
la desregulación de la vía PI3K mediada por PTEN debe considerarse
en el contexto de mutaciones concurrentes en NEDD4L, una ubiquitina
ligasa E3 que regula negativamente a PTEN.
Discusión.
Las líneas celulares establecidas se
han utilizado durante mucho tiempo para estudiar la biología del
tumor y la respuesta a las terapias dirigidas. Más recientemente, la
evaluación de un solo gen y la WES se han utilizado para trazar el
paisaje mutacional de las líneas celulares de cáncer canino,
proporcionando un recurso crucial para los estudios prospectivos.
Los datos de la WGS aquí reportados
identificaron muchas mutaciones somáticas simples previamente
publicadas en conjuntos de datos de WES. Sin embargo, el uso de la
WGS permitió interrogar a las CNVs y a las SVs, permitiendo una
comprensión más completa del espectro de la desregulación de las
vías en las células del OS canino. Esto es particularmente
importante en los cánceres genómicamente complejos, como el OS,
donde las SNVs de punto caliente son menos comunes.
Mientras que muchas de las mutaciones
somáticas simples conocidas asociadas al OS canino se conservaron
entre las líneas celulares evaluadas en este estudio, algunas
mutaciones típicamente encontradas en los tejidos primarios del OS
estaban ausentes. Una característica sorprendente fue la ausencia de
mutaciones somáticas simples en SETD2 en las líneas celulares
utilizadas en este estudio. Sin embargo, SETD2 se eliminó en dos
líneas celulares, y había mutaciones en las desmetilasas de lisina
H3K36, lo que sugiere que los mecanismos que impulsan la
desregulación de H3K36 son una característica fundamental del OS
canino.
La concordancia con las llamadas
SNV/INDEL entre las mismas líneas celulares incluidas en nuestro
análisis y el análisis WES de Das, et al. fue moderada, y las
discrepancias observadas se debieron probablemente a varios factores.
Se sabe que los diferentes métodos de secuenciación y llamada de
variantes tienen una baja concordancia. Además, el uso de distintos
umbrales de filtrado de variantes y de diferentes bases de datos de
la línea germinal probablemente dio lugar a la eliminación de
conjuntos divergentes de mutaciones. Por otra parte, las presiones
selectivas del cultivo in vitro y la inestabilidad genómica actual
suelen impulsar el desarrollo de una importante heterogeneidad
genética entre diferentes cepas de la misma línea celular
Se identificó una mayor carga
mutacional en las líneas celulares del OS en comparación con los
tejidos del OS. En parte, esto representa probablemente un error de
tipo I debido a la falta de una muestra de línea germinal
compatible. Esto es especialmente relevante en la línea celular
HMPOS, que se determinó que procedía de un perro de pueblo
basándose en nuestro algoritmo de llamada de raza y tiene una
variedad de polimorfismos de un solo nucleótido no catalogados en
nuestros archivos de recursos de variantes de línea germinal. Como
la mayoría de las variantes genéticas son raras, y los perros de
pueblo son más diversos genómicamente que los perros de raza pura,
la falta de un normal emparejado probablemente dio lugar al mayor
número de llamadas de variantes somáticas falsas positivas en la
línea HMPOS.
La incorporación de un control de
línea germinal emparejado se utiliza habitualmente para minimizar
las llamadas de mutaciones falsas positivas en los conjuntos de datos
de WES y WGS. Desarrollamos una línea de filtrado estricta tanto
para las variantes somáticas simples como para las estructurales con
el fin de reducir la aparición de falsos positivos debidos a la
falta de una muestra de línea germinal emparejada. Los fundamentos
de esta canalización son métodos establecidos en el campo; sin
embargo, se aplicó de forma más estricta en este contexto. Por
ejemplo, eliminamos cualquier variante que se superpusiera a una
variante en nuestro recurso de línea germinal en lugar de exigir que
se viera en dos o más individuos.
No exigimos que los alelos alternativos
coincidieran, ya que encontramos casos en los que los alelos fueron
anotados de forma diferente por distintas herramientas, a pesar de
parecer la misma variante. Además, añadimos un paso de regenotipado
con la herramienta GraphTyper, que identificó cualquier soporte para
variantes somáticas putativas en nuestro panel de normales. Este
paso fue especialmente útil para filtrar los INDELs en los que
diferentes herramientas podrían situar las posiciones de inicio y
final en lugares alternativos.
Creemos que este paso puede explicar
algunas de las discrepancias en las llamadas somáticas simples
reportadas en nuestro estudio y el estudio de Das, et al. para las
mismas líneas celulares. No obstante, debido a las dificultades
mencionadas y a la falta de validación ortogonal de nuestras
llamadas de variantes, recomendamos que los investigadores validen
las variantes de interés con una fracción alélica baja antes de
realizar análisis posteriores adicionales.
En general, nuestros datos demuestran
que el caótico paisaje genómico de las líneas celulares del OS
canino coincide con el observado en el tejido tumoral primario del OS
canino, definido por una alta complejidad estructural y pocas
mutaciones puntuales recurrentes. No es sorprendente que algunos de
los SNVs y SVs comunes encontrados en el tejido tumoral del OS no
hayan sido identificados en este pequeño subconjunto de líneas
celulares, probablemente debido a la evolución de las líneas
celulares a lo largo del tiempo de cultivo.
Quizás lo más notable es que la
conservación de las mutaciones en vías con relevancia funcional
redundante subraya la probable importancia biológica de estas
aberraciones en el OS. Este estudio destaca características
importantes de cada una de estas líneas celulares, creando una hoja
de ruta para los investigadores que persiguen la investigación de la
medicina de precisión basada en hipótesis.
Por último, hemos detallado el uso de
herramientas específicas y scripts modificados en este manuscrito
para facilitar la implementación de esta línea de producción en
otros conjuntos de datos WES/WGS caninos en los que no se dispone de
muestras de referencia de la línea germinal. Además, como los
pequeños cambios en la versión y los parámetros de ejecución de
las herramientas computacionales pueden alterar notablemente los
resultados, hemos puesto a disposición nuestras metodologías para
facilitar el uso futuro de este enfoque en otros conjuntos de datos
de secuenciación canina.
Conclusiones.
Las líneas celulares de osteosarcoma
caninos son ampliamente representativas del paisaje genómico de los
tejidos primarios de osteosarcoma caninos. La evaluación del
panorama genómico, incluida la variación estructural, es importante
para identificar con precisión la desregulación de las vías en los
cánceres complejos cuando se utilizan líneas celulares en la
investigación.
Cita: Megquier K, Turner-Maier J,
Morrill K, Li X, Johnson J, Karlsson EK, et al. (2022) El paisaje
genómico de las líneas celulares de osteosarcoma canino revela una
complejidad estructural conservada y alteraciones de las vías. PLoS
ONE 17(9): e0274383. https://doi.org/10.1371/journal.pone.0274383
Editor: Douglas H. Thamm, Universidad
Estatal de Colorado, ESTADOS UNIDOS
Recibido: 6 de junio de 2022; Aceptado:
25 de agosto de 2022; Publicado: 13 de septiembre de 2022
Por: Erik Farina (Etólogo Canino)
PSICOLMASCOT
Contacto: psicolmascot@gmail.com
Copyright © Por: Erik Farina -
Psicolmascot