Anteproyecto: Uniendo clusters en datos Single-Cell
Författare
Bernardo Álvarez del Castillo
Last Updated
för 5 år sedan
Licens
Creative Commons CC BY 4.0
Sammanfattning
Breve exposición de mi proyecto final para el curso de PCA.
Breve exposición de mi proyecto final para el curso de PCA.
\documentclass[12pt, letterpaper, twoside]{article}
\usepackage[utf8]{inputenc}
\usepackage[spanish]{babel}
\title{{\bf Anteproyecto}: \\ Uniendo \emph{clusters} en datos \emph{Single-Cell}}
\author{Bernardo Álvarez del Castillo}
\date{\today}
\begin{document}
\begin{titlepage}
\maketitle
\end{titlepage}
\begin{abstract}
Los conjuntos de datos biológicos que se analizan mediante las técnicas \emph{Single-Cell} (es decir, célula por célula) son altamente dimensionales, ya que la expresión de cada gen se contabiliza en el orden de $10^5$ células (véase \cite[p.~1519]{Re19}). Por ello, es importante reducir al mínimo la dimensionalidad de estos datos. Una de las técnicas más antiguas, pero más empleadas para ello, es el {\bf análisis de componentes principales} (o \emph{PCA}, por sus siglas en inglés). Ella nos permite fijar la atención en las dos primeras componentes (cuya interpretación biológica debe analizarse luego), lo que a su vez facilita el despliegue visual de los datos, si bien indirectamente. Varios problemas se presentan inmediatamente, y en este proyecto me propongo poner en práctica algunas ideas para resolver uno de ellos en específico: la unión de \emph{clusters} generados a través de las primeras dos componentes principales, pero que de acuerdo con cierto criterio biológico deberían conformar un mismo \emph{cluster}. En efecto, al reducir las dimensiones de los datos originales mediante el \emph{PCA}, nos quedamos con las componentes que presentan la mayor variabilidad (expresada a través de la varianza). Aun preservando solamente las primeras dos componentes, usualmente se mantiene un porcentaje importante de la variabilidad contenida en los datos. No obstante, alguna información adicional que no se contempla en dichas componentes podría oscurecer el hecho de que un par de \emph{clusters} formen parte de un \emph{cluster} más grande. El enfoque de este proyecto, por lo tanto, será analizar las siguientes componentes principales para poner a prueba esta idea.
\end{abstract}
\newpage
\section*{Método}
\begin{enumerate}
\item{Dado un conjunto de datos biológico de expresión génica célula por célula, donde se manifieste la separación de \emph{clusters} que naturalmente deberían formar uno solo, compararé su primera componente principal con algunas de las siguientes componentes por separado, analizando las gráficas de dispersión resultantes.}
\item{Para cada una de las reducciones de datos obtenidas en el primer paso, implementaré un algoritmo de agrupamiento, o \emph{clusterización}, de datos previamente usado para obtener los \emph{clusters} propuestos en algún artículo de investigación, para comprobar si los \emph{clusters} resultantes coinciden o no con los arriba mencionados.}
\item{Para el mismo conjunto de datos, compararé entre sí las componentes principales que siguen a la primera, dos a dos, analizando sus correspondientes gráficas.}
\item{Para cada una de las reducciones de datos obtenidas en el tercer paso, implementaré el algoritmo de agrupamiento, o \emph{clusterización}, de datos empleado en el segundo paso, para comprobar si los \emph{clusters} resultantes coinciden o no con los del artículo, o con los que se hayan obtenido en el mismo paso.}
\end{enumerate}
\begin{thebibliography}{9}
\bibitem{Re19}
Reyfman, P. A., Walter, J. M., Joshi, N., Anekalla, K. R., McQuattie-Pimentel, A. C., Chiu, S., ... \& Verma, R. (2019). Single-cell transcriptomic analysis of human lung provides insights into the pathobiology of pulmonary fibrosis. American journal of respiratory and critical care medicine, 199(12), 1517-1536.
\end{thebibliography}
\end{document}