06 julio, 2014

Les Data et les Choses, une recyclage des sciences humaines

 El Wall Street Journal (WSJ)
publicaba recientemente una información sobre el mercado laboral y la
calidad del empleo, en relación al salario medio en 2014.  Los resultados de la clasificación obtenida son los siguientes:
Best Jobs of 2014 / Midlevel Income
Worst Jobs of 2014 / Midlevel Income
1. Mathematician / $101,360
200. Lumberjack/ $24,340
2. Tenured Univers. Professor / $68,970
199. Newspaper Reporter / $37,090
3. Statistician /$75,560
198. Enlisted Military Person. / $28,840
4. Actuary / $93,680
197. Taxi Driver / $22,820
5. Audiologist / $69,720
196. Broadcaster / $55,380
6. Dental Hygienist / $70,210
195. Head Cook / $42,480
7. Software Engineer / $93,350
194. Flight Attendant $37,240
8. Computer Systems Analyst / $79,680
193. Garbage Collector / $22,970
 Teniendo además éstos (matemáticos y estadísticos), unas expectativas de crecimiento del  25 %  en los próximos años


Lo que es gracioso, es poner en paralelo los Recolectores de Datos y los Recolectores de Basura (Mathematician and Statistician again Garbage Collector).  Data Collector and Garbage Collector. El análisis se sitúa entre la basura de materiales y la basura de datos. De modo que un recolector de datos-basura cobra  un 400% más, que un recolector de cosas-basura.  Recordando y a la vez rectificando a Focuault (Les Mots et les choses: Une archéologie des sciences humaines)  , se puede decir aquello de “entre los Datos y las Cosas”: Les Data et les choses, une  recyclage des sciences humaines. Estamos en un universo epistemológico, dónde lo que prevalece es: la “semiótica de control” (ver un ejemplo de ésta aplicada al entorno capitalista) y una “semiurgia ontológica” (ver un ejemplo en De la metalurgia a la Semiurgia).


El estudio se realizó por la Consultora de RRHH,  Carrer Cast: http://www.careercast.com/jobs-rated/best-jobs-2014 

 En realidad, debemos precisar más, puesto que se trata de un “reclassement” más que de un “recyclage”: Les Data et les Choses, une  reclassement des sciences humaines. 

Reclasificar y reciclar entre la basura de los datos (Data Mining) y de las palabras (Text Mining). En cuestión de Text Mining, me pregunto si no podemos ¿considerar todo texto, todo fragmento o totalidad escrita, como un vertedero de palabras? Hablando de reciclar la basura, me topo con el  Síndrome de Diógenenes del pensamiento gasesoso. http://www.colombia.com/tecnologia/informatica/sdi/80959/basura-de-datos-el-sindrome-de-diogenes-del-siglo-xxi.

El síndrome de Diógenes es un trastorno de la conducta,  que se manifiesta en la acumulación de objetos inservibles. https://medes.com/publication/41030  (Formas clínicas del síndrome de Diógenes. A propósito de tres casos. GÓMEZ-FERIA PRIETO I. Psiquiatría Biológica 2008;15(3): 97-99 Tipo artículo: Caso Clínico). “Y el síndrome de Diógenes llegó al ordenador”  (Cristina Castro, 31/03/2014, El País). http://cemical.diba.cat/es/actualidad/ficheros/diogenesPA31_03_09.pdf

 La patología  de almacenar basura electrónica lleva a muchos a disponer de una casa electrónica (ordenador) repleta de papeleras de reciclaje infinitas, que convierten el ordenador en un inmenso vertedero digital.  Otros por el contrario, actúan como recicladores de basura-Data.  Incluso,  empresas y negocios ya han encontrado una ventana de oportunidad en el mercado. Recoger Basura-Data: http://www.baquia.com/tecnologia-y-negocios/entry/emprendedores/2014-03-18-el-big-data-y-la-basura
Imaginemos que tenemos dos gráficos con una Serie de Data, todo depende de cuántas y qué variables manejemos: “Supongamos que en vez de cinco variables, tenemos a disposición mil variables, ¡eso ya parece Big Data!”.


En un nivel más profesional, se trataría de “separar los datos de calidad de la basura o separar el ruido de la señal”.
http://gallir.wordpress.com/2013/05/29/se-cuidadoso-con-el-big-data/   Realmente lo importante es reclassement”, “fer triar”….”separar el ruido de la señal” o “el grano de la paja”. Pues no es tarea sencilla, saber usar un software de Text Mining (RapidMiner), o un programa de estadística (como el R-Commander), una hoja de cálculo (Excel) o un programa de Business Intelligence (como Pentaho, SAP Hana, etc.). Hay que saber de Matemáticas y de Estadística, de Análisis de Datos, para poder clasificar y separar la información valiosa de la información basura.

Qué hacer con la información excesiva, que nos conduce a un estado de infoxicación o de alteración del estado de conciencia analítico. Un ejemplo lo encontramos en el artículo titulado: “Terminaremos analizando el consumo de cacahuetes para prever que hace la bolsa” (http://lacartadelabolsa.com/leer/articulo/...).  Infoxicación que en el caso de los analistas bursátiles, se aparece en forma de: “Innumerables datos macro y microeconómicos, indicadores de última generación, análisis de flujo, técnicos, gráficos, cuantitativos, fundamentales…en principio destinados a aclarar la operativa de los inversores, pero que precisamente producen el efecto contrario.....se ha puesto de moda los análisis de patrones y correlación entre dos variables. Es decir, si la correlación entre un indicador X con la evolución de la bolsa es superior al 0,90 (un alto grado), entonces nuestro modelo operativo tiene que incluir dicha variable”. Pearson no lo es todo.

Como bien dice el artículo,  estas correlaciones son “ ridículas pero casi perfectas” (coeficiente cercano a uno), pero  “hay que poner en cuestión, cuanto menos, todos esos argumentos financieros que nos indican con cierta vehemencia que las bolsas deben comportarse de tal o cual manera de aquí en el futuro porque esta o la otra variable así lo anticipan”.

No obstante, no puedo estar de acuerdo con la conclusión del articulo: “Es tal el número de variables que intervienen en la evolución de los mercados, que cada vez son más los intervinientes que empiezan a pensar que aunque no son aleatorios, son prácticamente impredecibles”. Pues cisnes negros, haberlos, háylos...como las meigas. Taleb nos lo explicó con su “cuarto cuadrante”: el de las colas gruesas. Y Mandelbrot supo que hay que andarse a hombros de gigantes, para no quedar a los pies de los ridículos Data.

3 comentarios:

  1. Hay un término que no aparece en el artículo: "minería de DATA". Está debajo del texto, como escondido u ocultado. Los informáticos inventaron este término de "minería de datos" en analogía a los buscadores de minerales. De ahí mi libro titulado "De La metalurgia (minería de metales pesados) a la Semiurgia (minería de datos gaseosos y livianos)".

    Pero sin duda, desde una visión (no informática) sino sociológica o/y humanista, en paralelo a la Archeologie de Foucault, es mejor hablar de "reciclaje de datos" (reclasificación o "fer una tria", seleccionar). Por eso considero más preciso hablar en términos de reciclaje que de minería de DATA.

    ResponderEliminar
  2. Nota: "El gráfico de producción de miel no aparece" en la imagen. El gráfico de divorcios en Maine y consumo de margarina es el de abajo, no el de arriba.

    ResponderEliminar
  3. Intuitus: creo que desde la estadística en temas de correlaciones habría que practicar el "principio del pensamiento light". Se trata de pensar en relaciones o vínculos de naturaleza pearsoniana (coeficiente de Perason como medida de vínculo fenomenológico, entre dos variables cualitativas). quiero decir que habría que pensar en buscar las relaciones "afectivas" estadísticamente hablando, a partir de enunciados como el de la CocaCola Light: "Cocacola-sin-azúcar". Imaginen por un momento, preguntarse al principio de todo análisis por las relaciones asociativas entre dos variables mediadas por el "sin", no por el "con". For example, a partir de dos variables cualitativas complementarias, buscar qué pasa cuando se dan a una-sin-la otra.

    ResponderEliminar

rillenri@gmail.com