Ampliar la pila de herramientas actual del equipo de ciencia de datos

Recientemente comencé a liderar una empresa enfocada en la ciencia de datos con dos departamentos que utiliza ampliamente SPSS Modeler. Para ser honesto, nadie tiene las habilidades cercanas a un científico de datos. Mi expectativa de un científico de datos es, en pocas palabras, que pueda aplicar/probar/desarrollar modelos complejos a los datos. Como esta habilidad básicamente faltaba en el pasado, la empresa existente se convirtió en un departamento de informes e inteligencia comercial que básicamente proporciona datos en Excel a otros departamentos dentro de la organización en general.

El proceso habitual es el siguiente:

  1. Alguien de la organización en general necesita algunos datos
  2. Llama al departamento y hacemos SQL dentro de SPSS Modeler para proporcionarles los datos.
  3. Si no están satisfechos, hacemos esto una y otra vez, lo que generó mucho trabajo para todos los miembros del equipo.

¡Este proceso es horrible y requiere mucho tiempo!

Recientemente contraté a alguien que está más cerca de un científico de datos " real ". Puede programar python/R y tiene una amplia experiencia en modelado. Actualmente implementa una búsqueda semántica para el escaneo de correo electrónico, ya que este es uno de los modelos que actualmente planeamos implementar. Sin embargo, básicamente no es aceptado por el equipo ya que todos piensan que Jupyter, Python, etc. no valen nada. No lo necesitan y están contentos con lo que tienen y también, para mi sorpresa, con lo que están haciendo actualmente.

Sin embargo, la hoja de ruta de nuestra empresa es convertirse más en una unidad de TI/ciencia de datos. ¡Quiero que, como empresa, nos centremos en crear modelos analíticos, automatizar paneles y NO seleccionar datos y enviar excels!

Sé que este es un tema cultural profundo y actualmente estoy tratando de resolverlo de la siguiente manera:

  1. En el futuro, solo se contratarán empleados que solo conozcan R/Python y análisis exhaustivos para impulsar el cambio cultural.
  2. Ofrecer a los empleados existentes cursos de Python y ayudarlos a ponerse al día

Recientemente comuniqué que todavía tendremos SPSS Modeler, PERO para los problemas correctos, ya que Python es la herramienta adecuada para otros problemas.

También estaba pensando comunicar que a partir de ahora solo desarrollaremos modelos en Python/R, ya que algunos de nuestros modelos existentes solo se crearon en SPSS Modeler y no funcionan bien.

También siento que me gustaría convencer al equipo de usar Jupyter aún más y luego ver las posibilidades.

¿Cómo impulsaría este cambio cultural utilizando Jupyter/Python para acercarse a nuestro objetivo de convertirnos en una empresa de TI/ciencia de datos?

Si tiene la autoridad, simplemente hágalo y elimine gradualmente la forma actual de hacer las cosas.
Me parece que necesitas separar las funciones aquí. Los informes no están muertos, no se vuelven obsoletos por el aprendizaje automático (no sé si eso es lo que está sugiriendo). Su equipo suena como un buen equipo de informes, incluso si SPSS tampoco es la mejor herramienta aquí, pero necesita un equipo (separado) que haga ML / ciencia de datos. Clavijas cuadradas, agujeros redondos, etc.
@JoeStevens Gracias por tu consejo. Entonces, básicamente, convertiría a este nuevo empleado en el científico principal de datos para los modelos, ¿verdad? Si alguien del equipo quiere hacer modelos, básicamente necesita ser parte de esta nueva infraestructura.
Es preocupante que piensen que Python es "inútil" para el trabajo de datos. SQL hace algunas cosas muy, muy bien (y debe usarse junto con Python cuando sea apropiado), pero para todo lo demás, ¿qué están haciendo?
@Oso Para ser honesto, todos usan SPSS para casi todo. La creación de trabajos ETL, la selección de datos y, si realmente los necesita, también puede codificar SQL ligero que se implementa en SPSS Modeler. Básicamente, mi jefe de equipo directo conoce bien SPSS Modeler y ahora todo el mundo tiene que usarlo.
La solución aquí no podría ser más simple, déjalos ir mañana. (O, hoy, si su zona horaria lo permite). UN PUÑADO de "científicos de datos" no tiene precio. El resto, déjalos ir.
Ni siquiera es necesario mencionarlo, pero cualquiera que piense o mencione que "Python es inútil para la ciencia de datos" debería ser dejado ir en el acto.

Respuestas (2)

No lo necesitan y están contentos con lo que tienen y también, para mi sorpresa, con lo que están haciendo actualmente.

Ahí tienes. Su equipo está contento con lo que está haciendo y sus herramientas funcionan lo suficientemente bien para ellos. Debe demostrarles que sus métodos son mejores o necesarios. El heliocentrismo también tenía este problema: era la mejor teoría, pero llevó mucho tiempo demostrar su utilidad.

Tienes que demostrarles tu punto, de lo contrario, todo el entrenamiento y los dictados serán ineficaces. Tienes que ser respetuoso con tus empleados y solicitar su opinión. Conozca los beneficios que ven en su herramienta actual. Luego, cuantifique lo que no funciona o es ineficiente con el sistema actual y por qué sus herramientas son superiores. Luego, garantice su apoyo para ellos mientras aprenden las nuevas herramientas.

Este es definitivamente un patrón en el lugar de trabajo: un sistema superior / llega gente nueva, pero luchan por ganar aceptación. Póngase en contacto con líderes experimentados para obtener asesoramiento.

Por lo que has descrito, el problema no está en las herramientas.

El modelador de SPSS usa Python y puede codificarlo en Python. Pero la herramienta está destinada a reducir la complejidad de la codificación y la facilidad de implementación.

Cambiar a Python/R porque la falta de cómo usar las funciones completas de una herramienta no es una buena razón para cambiar.

Si desea que la gerencia lo compre, deberá demostrar que el costo de cambiar y ejecutar la nueva herramienta reducirá drásticamente los costos y el tiempo.

Esto tiene en cuenta (no es una lista inclusiva)

  • Eliminación de procesos existentes
  • Conversión a nuevos sistemas (tiempo y complejidad)
  • Capacitación de los empleados actuales
  • Expectativas de los empleados después de recibir nuevas habilidades.
  • Costo de propiedad del nuevo proceso.
  • Costo de encontrar/contratar nuevos empleados
  • Cualquier otro cambio organizativo.

Según tengo entendido, se trata más de un equipo informático/de desarrollo. ¿Eres el entrenador de ese equipo?

Si es así, un enfoque a seguir es el siguiente.

  • Vea dónde se puede mejorar la automatización de procesos a través de nodos personalizados en SPSS
  • Haga que los miembros del equipo construyan esos nodos personalizados en Python
  • Busque tener 1-2 del equipo enfocado en aprender habilidades de ciencia de datos + Python.
  • Pídales que conviertan 1-2 flujos de proceso a Python (primero usando SPSS, luego Python nativo)

De esta manera, puede tener una idea de si un cambio organizacional de este tipo vale la pena. Potencialmente, también logrará que el equipo se involucre en el cambio. En el peor de los casos, adquieren más experiencia y la mejora de procesos reduce las molestias.