La ciencia de datos necesita rencores | InfoWorld
Los científicos de datos podrían ser uno de los trabajos más atractivos del siglo. Harvard Business Review Opine, pero ciertamente implica una gran cantidad de trabajo manual poco atractivo. Según Anaconda 檚 2021 Data Science Survey, dedicamos el 39% de nuestro tiempo a preparar y limpiar nuestros datos, que es más que una combinación de entrenamiento de modelos, selección de modelos, y la implementación del modelo, dijo un encuestado. Fijado.
¿Científico de datos? Es como un administrador de datos.
Eso no es malo. De hecho, hay muchos Derecha Y con eso. A lo largo de los años, hemos exagerado los aspectos fascinantes de la ciencia de datos (¡construyendo modelos para tratar el cáncer!), Pero gran parte de la ciencia de datos pasa por alto la simple realidad de limpiar y preparar datos. Yo hice. Este aspecto de la ciencia de datos es la base para una ciencia de datos exitosa. Como consultor Aaron Zhu Note, el análisis estadístico y los modelos de aprendizaje automático pueden ser tan buenos como la calidad de los datos que ingrese. 滭 / p>
Positivo o negativo, la disputa de datos (preparación y limpieza de datos) parece estar disminuyendo. Los científicos de datos informan hoy que pasan el 39% de su tiempo discutiendo datos, y también lo hizo el año pasado. Encuesta Anaconda Se informó que el número era del 45%. Hace solo unos años, ese número podría haber estado cerca del 80%. Algunas citas …
Se podría decir que tales estimaciones de la altura del cielo eran incorrectas. Open Data Institute 檚 insistió Leigh Dodds. Para empeorar las cosas, afirma no entender el valor de la disputa de los datos al insultar el acto de disputar los datos. Depende de los científicos de datos dedicar tiempo a manipular los datos para transformarlos, investigarlos y comprenderlos mejor. Este es el medio en el que están trabajando. Una mejor comprensión del material. , Puede obtener mejores conocimientos.淈 / p>
En otras palabras, es posible que desee centrarse en la ciencia de datos. producciónSi lo pasa por alto, puede hacerlo de manera efectiva aporte.. Basura dentro basura fuera.
En lo que respecta a la ciencia de datos y sus antepasados, los datos de 渂ig, hemos levantado nuestras manos sobre máquinas que eliminan la necesidad humana. Esto se aplica no solo a la ciencia de datos como categoría, sino también a la disputa de datos como entrada a esa categoría.
Quiere pensar que toda esta preparación de datos se puede automatizar fácilmente. Después de todo, ¿cuánta consideración se puede dar a la limpieza de datos? Pero en realidad, parte del trabajo de datos puede automatizarse, pero en última instancia, es trabajo humano. ¿Por qué? La manipulación de datos es una parte importante del proceso analítico de la siguiente manera: Sugerencia de Tim Stobierski, colaborador en línea de la Escuela de Negocios de Harvard. Necesita a alguien que pueda comprender cómo se ven los datos limpios y cómo dar forma a los datos sin procesar en formatos utilizables. Por ejemplo, al descubrir problemas de datos, necesita a alguien que pueda ver no solo patrones, sino también lagunas de datos.
O, como se indica en el informe de Anaconda 2021, la preparación de un ataque y la limpieza de datos pueden llevar mucho tiempo y ser engorrosos, pero la automatización no es la solución. En cambio, mezclando humanos. , La calidad de los datos y los resultados más precisos están garantizados y se proporciona el contexto de los datos.淈 / p>
Este es siempre el caso. En los primeros días del big data, imaginé un mundo en el que se pudieran obtener conocimientos prácticos con solo poblar Apache Hadoop. Pero la ciencia de datos y la vida no funcionan de esa manera. Como se escribió en 2014, Eventually data science Hombre.. Los practicantes de la ciencia ataca combinan con éxito habilidades estadísticas, matemáticas y de programación con conocimientos de dominio. Ese dominio de conocimiento permite la creatividad humana con datos. Cuanto más familiarizada esté una persona con su negocio, más probabilidades tendrá de preparar los datos para el modelado, así como de comprender intuitivamente los conocimientos de los patrones y anomalías.
El conocimiento del dominio también debería ayudar en el resultado final de su modelo de ciencia de datos. Según el informe de Anaconda, 淥 sólo el 36% de los responsables de la toma de decisiones organizacionales son muy conocedores de los datos y entienden la historia contada por visualizaciones y modelos. En comparación. El cincuenta y dos por ciento dice que la mayoría de los tomadores de decisiones organizacionales están familiarizados con los datos, pero necesitan alguna orientación sobre la historia contada por la visualización y el modelo.漌 ell, 檚 el modelo / visualización. Puede ser en parte un problema para el destinatario, pero definitivamente tiene algo que ver con los científicos de datos que los preparan. La familiaridad con el dominio le brinda una imagen más clara de cómo los modelos de aprendizaje automático describen lo que su empresa puede aprender de sus datos.
Nuevamente, ese conocimiento del dominio no comienza a ayudar cuando el científico de datos toma el modelo y hace el sprint final hacia la sala de conferencias. Comienza temprano en la tarea de disputa de datos no tan baja, que es la base de toda buena ciencia de datos. Deberíamos celebrarlo sin menospreciarlo.
Fuga de derechos de autor 2021 IDG Communications, Inc.
Moderna Booster obtenga la aprobación de la FDA: lo que necesita saber
El Comité del Senado recomienda una nueva licencia de mercado ASIC para el cambio de moneda digital Según los informes, Apple requerirá que los empleados no vacunados realicen pruebas de COVID-19 El compromiso futuro de los viajes espaciales de la NASA es un viaje salvaje de ciencia ficción