Modelos de clasificación de datos astronómicos utilizando técnicas de active learning

transcript

Modelos de clasificación de datos astronómicos utilizando técnicas de Active

Learning

Presentador: Javier Machin Matos

Profesor Supervisor: Karim Pichara Baksai

Agenda

• Motivación

• Marco Teórico

• Pregunta de Investigación

• Solución Propuesta

• Limitaciones

• Estado de la Investigación

Motivación

NASA. 2015. https://www.youtube.com/watch?v=6tmbeLTHC_0

No todas las estrellas son tan tranquilas como nuestro SolBinarias Eclipsantes

• Sistema estelar compuesto por dos estrellas.

• Se observan disminuciones regulares de luminosidad.

Estrellas variables eruptivas

• Muestran un brillo irregular causado por el material que se pierde de la estrella.

No todas las estrellas son tan tranquilas como nuestro Sol

Experimento pionero de AtacamaObservatorio Cerro Tololo

Conjunto Very Large Telescope Large Synoptic Survey Telescope

AURA and NOAO. 1962. http://www.ctio.noao.edu/noao APEX.. http://www.eso.org/public/chile/teles-instr/apex/ESO. 1999. http://www.eso.org/public/chile/teles-instr/paranal/ LSST. 2019. http://www.lsst.org/

Ubicación del Large Synoptic Survey Telescope (LSST)

• Construir un mapa de la Vía Láctea.

• Una imagen del LSST es el equivalente a 3000 imágenes del Hubble.

• Cada imagen cubre 40 lunas llenas.

• Cada 3 días tendremos un mapa del cielo en Chile.

• Cámara con 3200 megapíxel.• 1.7 metros de diámetro.

• 40 mil millones de estrellas y galaxias.

SDSS (Sloan Digital Sky Survey)

SDSS.2000. http://www.sdss.org/

Big Data

• Cada noche de observación LSST obtendrá 30 terabytes de información.

• La transferencia de la información por la red es muy lenta.

• Es importante solo tener las observaciones importante.

Los catálogos no se comunican entre si

• Sesgo en las observaciones.

• i.e, las observaciones no distribuyen uniforme.

• Los astrónomos se interesan por trabajos diferentes.

• Supernovas.

• Clasificación de estrellas variables.

R. Angelon et, al. 2014. The VVV Templates Project Towards an automated classification of VVV light-curves

Ciclo de Investigación

• ¿Qué datos vamos a procesar?

Marco Teórico

Curvas de Luz

• Series de tiempo que muestran la variación del brillo de las estrellas en diferentes instantes de tiempo.

• Se mide el brillo con fotometría sobre las imágenes midiendo el valor de cada pixel.

• Basados en las características de variabilidad, las curvas de luz son clasificadas en diferente grupos.

• ¿Qué características poseen?

• ¿Cuáles son importantes?

Características que describen Curvas de Luz

• Estas características tiene el rol de ser informativas y discriminativas para utilizar métricas de Maching Learning como:

• Clasificación de estrellas variables.

• Detección de objetos atípico.

• Análisis general de los datos.

Karim Pichara et,al. 2013. An improved quasar detection method in EROS-2 and MACHO LMC datasets

Características que describen Curvas de Luz

Isadora Num et.al. 2015 FATS: FEATURE ANALYSIS FOR TIME SERIES

• ¿Existe un set de entrenamientos lo suficientemente representativos?

Active Learning

Burr Settles. 2010. Active Learning Literature Survey

Pool-Based Sampling

• Asume que existe un conjunto de objetos etiquetados (L) y un conjunto de objetos no etiquetados (U).

• Evalúa toda la colección de los objetos antes de realizar la consulta.

D. Lewis and J. Catlett. 1994. Heterogeneous uncertainty sampling for supervised learning. In Proceedings of the International Conference on Machine Learning (ICML), pages 148–156. Morgan Kaufmann.

Pregunta de Investigación

¿ Como confeccionar un set de entrenamiento representativo para modelos de clasificación en datos astronómicos utilizando técnicas de

Active Learning ?

Solución Propuesta

Query by Committee

• Analiza el comportamiento de varios clasificadores.

• Consulto la etiqueta del objeto mas incierto.

Solución Propuesta

Limitaciones

• Observaciones realizadas en diferentes frecuencias.• Ejemplo: La fotometría de ASAS es menos precisa que Hippacros y OGLE por

lo que en ASAS muchas observaciones son erróneas o clasificadas mal.

• Las observaciones no son informativas.

• Consume mucho tiempo de Observación.

• Dependiendo de las coordenadas muchas veces no se puede observar una curva de luz con espectroscopia de seguimiento.

Estado de la Investigación

Estado de la InvestigaciónActividades 2014-2 2015-1 2015-2 2016-1 2016-2 2017-1 2017 -2 2018-1

1 Revisión de la Literatura

2 Obtención de catálogos

3 Desarrollo de la metodología

4 Obtención de las Características

5 Candidatura

6 Limpieza y descripción de los datos

7 Artículo # 1

8 Pasantía Investigación

9 Integración de los Catálogos

10 Aplicación de metodología propuesta

11 Artículo # 2, ISI

12 Escritura de documento de Tesis

Referencias

• [1] NASA. 2015. https://www.youtube.com/watch?v=6tmbeLTHC_0

• [2] APEX. http://www.eso.org/public/chile/teles-instr/apex/

• [3] AURA and NOAO. 1962. http://www.ctio.noao.edu/noao

• [4] Burr Settles. 2010. Active Learning Literature Survey

• [5] D. Cohn. Neural network exploration using optimal experiment design. In Advances in Neural Information Processing Systems (NIPS), volume 6, pages 679–686. Morgan Kaufmann, 1994.

• [6] D. Lewis and J. Catlett. 1994. Heterogeneous uncertainty sampling for supervised learning. In Proceedings of the International Conference on Machine Learning (ICML), pages 148–156. Morgan Kaufmann.

• [7] ESO. 1999. http://www.eso.org/public/chile/teles-instr/paranal/

Referencias

• [8] Isadora Num et.al. 2015 FATS: FEATURE ANALYSIS FOR TIME SERIES

• [9] Karim Pichara et,al. 2013. An improved quasar detection method in EROS-2 and MACHO LMC datasets

• [10] K. Lang and E. Baum. Query learning can work poorly when a human oracle is used. In Proceedings of the IEEE International Joint Conference on Neural Networks, pages 335–340. IEEE Press, 1992.

• [11] LSST. http://www.lsst.org/

• [12] R. Angelon et, al. 2014. The VVV Templates Project Towards an automated classification of VVV light-curves

• [13] SDSS.2000. http://www.sdss.org/

Modelos de clasificación de datos astronómicos utilizando técnicas de Active

Learning

Presentador: Javier Machin Matos

Profesor Supervisor: Karim Pichara Baksai

Modelos de clasificación de datos astronómicos utilizando técnicas de active learning

Engineering