INTRODUCCIÓN
En Chile se crean en promedio 20.216 empresas al año, de distintos rubros y tamaños, existiendo un total de 1.045.046 empresas . Las condiciones del entorno cada vez más competitivo han obligado a las empresas a realizar cambios tendientes a mejorar su eficiencia.
El alineamiento entre la estrategia de negocios y las tecnologías de información y comunicación (TIC) es un factor clave para mejorar la competitividad de las empresas 1,3; aunque, no todas las compañías gozan del éxito esperado al momento de incorporar TIC a sus procesos 4, algo en lo que existe consenso es que los entornos en los que compiten las empresas actuales, mayoritariamente mercados altamente dinámicos e inciertos, la tecnología es un factor crítico para alcanzar y sostener una ventaja competitiva 5-8. Consecuentemente, la capacidad de incorporar TIC a la estrategia de negocios puede marcar la diferencia entre el éxito y el fracaso 2,7-8. Por qué algunas empresas tienen o no tienen éxito al intentar incorporar una TIC ha sido tema de investigación permanente y, como resultado, se han elaborado diversos modelos individuales y organizacionales que buscan responder a esa interrogante.
Uno de los modelos más citados en la literatura de sistemas de investigación es TAM (Technological Acceptance Model) 9. TAM postula que existen dos razones fundamentales que explican por qué un usuario decide adoptar una TIC: las percepciones, que será útil y que será fácil de usar. Desde la aparición de TAM, otros modelos han sido planteados pero fundamentalmente son extensiones de este (por ejemplo 10-12) o se han desarrollado como una alternativa teórica (ver por ejemplo 13-14). A pesar de la abundante investigación usando modelos tipo-TAM, estos describen la adopción desde una perspectiva individual, por tanto, su poder explicativo se ve altamente limitado cuando la adopción se analiza en un contexto organizacional, en los que la decisión de adopción de los usuarios se ve influida por contextos internos y externos 14.
Alternativamente a los modelos individuales se encuentran los organizacionales. Uno de los más aceptados entre la comunidad académica es el marco de trabajo tecnología-organización-entorno (TOE) 15. TOE postula que la decisión de adoptar una tecnología dentro de la organización depende de tres dimensiones: la organización propiamente tal (por ejemplo su tamaño, el grado de formalidad, y capacidad ociosa); el entorno (industria, estructura de mercado, regulaciones); y la tecnología misma (disponibilidad y sus características). A pesar que TOE data desde los años 90, hoy en día es un marco de trabajo bien aceptado en la comunidad científica, principalmente porque ha sido ampliamente validado y porque explica de forma parsimoniosa las similitudes y diferencias en la configuración del conjunto de TIC que las empresas poseen, ya sean estas del mismo o diferente rubro 11. Se utiliza este modelo, por una parte, porque es un marco de trabajo organizacional y las variables obtenidas de la ELE2 son obtenidas en torno a datos de las empresas y, por otra, porque además TOE explica la configuración tecnológica en una organización, por ejemplo, explicaría por qué una organización tiene Facebook y otra no.
Si bien se han logrado grandes avances en investigaciones referentes a la adopción de TIC, aún existen importantes limitaciones. Una de las limitaciones que recientemente ha comenzado a ser discutida entre los investigadores se relaciona con la poca capacidad predictiva que tienen los modelos existentes. En efecto, la teoría actual de sistemas se funda esencialmente en modelos estadísticos causales-explicatorios, es decir, que describen un modelo lineal que es construido para probar hipótesis causales que especifican el cómo y por qué de cierto fenómeno empírico. Por tanto, aunque estos modelos pueden explicar con cierta validez las relaciones entre los constructos que influencian un fenómeno, no necesariamente serán adecuadamente predictivos, ya que, "contrario a lo que se piensa comúnmente, poder explicatorio no implica poder predictivo" 16. En la búsqueda de la solución a este problema algunos investigadores 18-20 han propuesto como complemento a la estadística convencional el uso de redes neuronales artificiales (RNA).
Teniendo en consideración el gran número de empresas que se crean en Chile cada año y, la importancia que tienen las TIC dentro de la organización, resulta de gran interés estudiar la asociación que tienen los contextos organización y entorno sobre el contexto tecnología. El estudio de estas relaciones podría mostrar patrones que conduzcan a entender si el nivel tecnológico de una empresa guarda relación con los factores de los contextos organización, entorno u otros. La identificación de esta relación permitiría validar de forma parcial el modelo TOE y además proveería de un modelo que sirva de guía, tanto a nuevas empresas como a las ya existentes, para el momento de decidir invertir sus recursos en TIC.
Este documento presenta una investigación exploratoria con enfoque cuantitativo, en la que participan principalmente tres disciplinas, que son: clusterización, redes neuronales artificiales y adopción tecnológica.
La investigación plantea como objetivo general construir un modelo predictivo del perfil de desarrollo tecnológico de una empresa chilena que permita identificar las relaciones de los contextos organización y entorno sobre el contexto tecnología, propuestas por el marco de trabajo TOE.
ESTADO DEL ARTE
El uso de las estadísticas está presente en la mayoría de los estudios que buscan establecer relaciones entre factores que inciden en la adopción de tecnologías de información y el uso de ellas.
Considerando la revisión bibliográfica se puede decir que investigaciones anteriores pueden ser clasificadas en tres enfoques: 1.- Uso de técnicas estadísticas, 2.- Uso de enfoque mixto estadísticas/ redes neuronales y 3.- Uso de redes neuronales. La revisión bibliográfica se focalizó en la búsqueda de investigaciones que utilizarán los enfoques 2 y 3. Algunos autores 19-24 plantean que una de las principales limitantes de solo aplicar modelamiento mediante técnicas estadísticas para la determinación de estos factores es que estos solo consideran las relaciones de carácter lineal entre los factores de adopción y la variable dependiente, quedando excluidas de los resultados las relaciones de tipo no-lineales.
Nuevas investigaciones 19-20,22-23,25 han propuesto utilizar enfoque mixto estadísticas/ redes neuronales obteniendo buenos resultados al momento de identificar factores incidentes sobre la adopción tecnológica, los que además permiten modelar relaciones no lineales entre estos factores y la variable dependiente estudiada.
Un enfoque distinto apunta hacia la obtención de relaciones en modelos de adopción, mediante el uso exclusivo de redes neuronales. Bajo este concepto un trabajo de interés fue el desarrollo de un modelo de adopción que estudió los factores incidentes en la adopción de un sistema para compartir conocimiento. El modelo desarrollado se basó en TAM 26 y fue llamado KSAM (Knowledge Sharing Adoption Models), el que fue construido mediante el uso de redes neuronales artificiales 21. El modelo de RNA, recibió como entrada los factores de adopción extraídos de una encuesta aplicada en un entorno universitario, y como salida la intención de adoptar el sistema. La investigación demuestra la factibilidad para desarrollar un modelo de adopción utilizando RNA.
Como se puede observar, en la literatura surgen diversas propuestas de modelos enfocados a explicar la adopción tecnológica los que, en definitiva, buscan identificar los factores tomados en cuenta en la decisión de adoptar, por lo que se estima que la incorporación de RNA al proceso de modelar la adopción de tecnologías, es una tendencia que resulta interesante de ser considerada en investigaciones que busquen elaborar modelos de adopción que permitan predecir de mejor forma la utilización de TIC.
METODOLOGÍA
Para lograr el objetivo planteado se aplica un conjunto de técnicas computacionales, asociadas principalmente a minería de datos, entre las que se puede mencionar principalmente a redes neuronales artificiales y clusterización de datos.
Los datos utilizados en esta investigación fueron obtenidos de la segunda Encuesta Longitudinal de Empresas (ELE2) . Esta encuesta permite comprender las características del mundo empresarial y de los emprendedores de Chile por sectores de actividad económica, tamaños de las empresas, nivel de desarrollo y otras características relevantes. La muestra de datos, correspondiente a la encuesta ELE2, consta de 7.062 empresas, de los que, luego del preprocesamiento, quedaron 5.953. Dentro de las características de esos datos se tiene el tamaño de las empresas, que contempla: micro (14%), pequeña (34%), mediana (20%) y grande (32%), definidas como tales, según ventas. Se consideran solo empresas formales con ventas superiores a 800 UF.
La encuesta contiene un total de 111 preguntas (con más de una variable por pregunta), dividida en cinco módulos. El módulo 1 contiene información general de la empresa, por ejemplo: si es privada/ estatal, si es persona jurídica o natural, si cuenta con prestamos u otros instrumentos financieros que haya utilizado; y de la situación financiera contable de la empresa. El módulo 2 presenta información referente a las compras y ventas de la empresa, sus principales clientes; y la relación que tienen estas con el portal web del Estado "Chile Compra". El módulo 3 entrega información del administrador de la empresa, instrumentos de fomento estatales, actividades de investigación y desarrollo que pudieran estarse efectuando. El módulo 4 contiene información referente a la fuerza laboral de la empresa, número de trabajadores, y costos asociados. El módulo 5 corresponde a la información relacionada con el ámbito tecnológico de la empresa, ya sea sobre la infraestructura que esta posee y el uso que hace de ella, además de la utilización que hace la empresa de plataformas tecnológicas de terceros, ya sea de empresas relacionadas o de organismos del Estado.
Se realizó un preprocesamiento de los datos obtenidos con las respuestas a estas preguntas, con la finalidad de generar un grupo de variables normalizadas y adecuadas para utilizarlas en el diseño del modelo neuronal. Las variables del módulo 5 fueron utilizadas para generar el perfil de desarrollo tecnológico de las empresas (variable de salida) y las variables de los módulos 1 al 4 fueron utilizadas como entradas para la RN.
Los criterios utilizados para realizar el preprocesamiento de los datos fue, entre otros: eliminación de registros con información no coherente, tratamiento de valores nulos, creación de variables que agruparan un conjunto de variables del mismo tipo, eliminación de variables con información insuficiente y eliminación de variables de tipo "OTROS" y redundantes. Luego de realizar este preprocesamiento, los datos fueron normalizados entre 0 y 1.
Para lograr el objetivo general propuesto, el trabajo se desarrolló en tres etapas:
Generación del perfil de desarrollo tecnológico de la empresa
En primer lugar, se definió qué tipo de nivel tecnológico tenía la empresa. La generación de este nivel o perfil se lleva a cabo a partir de la creación de una nueva variable, utilizando técnicas de clusterización aplicada a los datos tecnológicos de las empresas (módulo 5 de la encuesta). Una vez identificadas las variables asociadas al contexto tecnológico de la empresa se generan los perfiles de desarrollo tecnológico mediante la aplicación de técnicas de clusterización, utilizando el algoritmo K-means. Los cluster obtenidos conformaron las clases asociadas al perfil de desarrollo tecnológico que fueron validadas por un experto y caracterizadas como empresas con: TI insuficiente, TI básico y TI básico-intermedio, respectivamente.
Generación de modelo neuronal
El modelo de red neuronal utilizó como entrada las variables no pertenecientes al contexto tecnológico (variables del módulo 1 al 4 de la encuesta) y como salida el perfil o nivel tecnológico correspondiente a las empresas. También se realizó un proceso de preprocesamiento para estas variables.
Para la creación de la red neuronal se designa el 90% de los datos para el ciclo de entrenamiento (entrenamiento, validación y prueba interna del algoritmo) utilizándose para el conjunto de prueba el otro 10% de la muestra. Después del preprocesaminto de los datos, quedaron en total 5.953 empresas distribuidas en 1.250 con "TI insuficiente", 3.359 con "TI básico" y 1.344 con "TI básico-intermedio".
Con el propósito de identificar las variables con mayor incidencia sobre el modelo RNA, se aplica un algoritmo de sensibilización, mediante el que se selecciona un subconjunto de variables, bajo el criterio de la importancia que estas tengan sobre el modelo de red neuronal creado. Este proceso identifica las principales variables que influyen en la predicción del modelo.
Comprobación parcial del modelo TOE
Para esta investigación se ha planteado la siguiente proposición: Un modelo predictivo de redes neuronales con un subconjunto de entrada E, O, X representa un buen predictor del perfil de desarrollo tecnológico o nivel tecnológico (T) de una empresa.
Para la comprobación parcial de TOE, se usa un modelo que ha sido adaptado para fines explicativos, reduciéndolo solo a las relaciones que sustentan el postulado de esta investigación, esto es, a las relaciones bidireccionales que existen entre los contextos organización (O) y entorno (E); versus el contexto tecnología (T), representado en la Figura 1.
Fuente: Elaboración propia.
Entonces, se identifican las variables más influyentes en el modelo de red neuronal y luego se clasifican según sean del contexto E u O, existiendo la posibilidad de un tercer conjunto de factores no pertenecientes al modelo TOE, denominado contexto extendido (X), incidentes sobre el contexto tecnológico (T).
La Figura 2 muestra un diagrama explicativo de la metodología utilizada en esta investigación.
RESULTADOS
Los resultados se muestran según las tres etapas definidas en la metodología.
Resultados generación del perfil de desarrollo tecnológico de la empresa
Luego del preprocesamiento de los datos, la cantidad de observaciones (ejemplos entrada/salida) se redujo de 7.062 a 5.953 empresas.
Las variables del módulo 5, referentes a aspectos tecnológicos de las empresas, posteriores al preprocesamiento se redujeron a 49 de un total inicial de 70 variables. Con estas 49 variables se realizó un proceso de clusterización, mediante la aplicación del algoritmo K-means. Para esto se aplicó el algoritmo a distintos subconjuntos de variables, generando el número K de particiones.
Para crear los clústeres se elaboró un algoritmo que generó todas las posibles combinaciones desde dos a nueve preguntas (cada pregunta relacionada con sus correspondientes variables), generando en total 502 combinaciones.
Para cada una de las 502 combinaciones se generaron clúster con K=3, 4 y 5. Esto generó 1.506 grupos de clústeres diferentes. Para cada clúster se calculó el índice de Silhouette que indica la calidad del clúster (33.
Para la selección del grupo de clúster a ser utilizado en la generación del perfil de desarrollo tecnológico de la empresa (nivel de uso de tecnología) se utilizó el siguiente criterio: mayor cantidad de preguntas consideradas y más alto Silhouette.
Respecto al índice de Silhouette, se considera un índice mayor a 0,5 para un clúster de calidad; y en cuanto al criterio de selección de la mayor cantidad de preguntas, esto está relacionado con considerar la mayor cantidad de variables del total de 49.
De los 1.506 grupos de clústeres, considerando solo aquellos con un índice Silhouette mayor a 0,5, quedaron 117, con los que se efectuó un ordenamiento descendente según la cantidad de preguntas utilizadas para la clusterización, con el propósito de obtener la mayor representatividad de variables en la confección de los perfiles tecnológicos, y como segundo orden el máximo índice de Silhouette.
El método de selección aplicado señala como mejor alternativa de clusterización a la asociada a la inclusión de las preguntas 3, 5, 9, 10 y 11 (17 variables en total), logrando un índice de Silhouette de 0,54851. La cantidad de clústeres asociada al mejor índice de Silhouette reportado fue K=3. La Figura 3, muestra la caracterización de los clústeres y las variables consideradas.
Una vez obtenidos los clisteres, se sometió a estos a la revisión de un experto con la finalidad de validarlos en términos conceptuales y caracterizarlos, consiguiendo de esta forma establecer las clases que representarán los perfiles de desarrollo tecnológico de las empresas. Por lo tanto, se crearon las siguientes clases de empresas, según su uso de tecnología:
Clase 1: Uso de TI insuficiente (Clúster 1): Son empresas que prácticamente no han adoptado ningún tipo de tecnología. Aunque han incorporado algunas TI de infraestructura (redes LAN y PC), estos se mantienen a niveles inferiores. Por su parte, el uso de PC llega en promedio de 39% aproximadamente. Además no han incorporado páginas web ni ninguno de los servicios asociados a este tipo de TI.
Clase 2: Uso de TI básico (Clúster 2): Estas empresas han adoptado casi en su totalidad tecnologías de infraestructura como: redes LAN y sitio web. Poseen un nivel intermedio de cantidad de PC por trabajador y el uso llega en promedio a 53% aproximadamente.
Clase 3: Uso de TI básico-intermedio (Clister 3): Son las empresas que han llegado a los niveles superiores de uso de TI. Casi la totalidad de ellas poseen redes LAN, un sitio web e intranet. La cantidad de PC es la más alta de los tres grupos y el uso promedio de computadores por trabajador es de 63%. Los sitios web de estas empresas en su totalidad permiten una interacción básica con clientes (hacer preguntas). Un porcentaje menor de ellas, pero superior a los otros grupos, posee extranet (44%).
Por lo tanto, la salida de la RN, estará asociada a una de estas clases, según el perfil de desarrollo tecnológico de la empresa.
Resultados generación de modelo de red neuronal
Respecto al tratamiento de variables correspondientes a los módulos 1, 2, 3 y 4, la cantidad final se redujo de un total inicial de 663 a 66 variables, luego del preprocesamiento. Estas 66 variables corresponden a las variables de entrada en el modelo neuronal y suministran información de distintos ámbitos de la empresa.
Para cada propuesta de cantidad de neuronas en la capa oculta, se ejecutó el algoritmo de entrenamiento para la RNA asociada, el que se aplicó reiterativamente mediante un ciclo de reentrenamiento en la búsqueda del mejor indicador de precisión, obteniendo como resultado que la cantidad apropiada a ser utilizadas son 30 neuronas en la capa oculta. Se entrenó la RNA con los datos de 4.358 empresas, considerando como entrada las 66 variables y como salida la clase a la que pertenece la empresa, según su nivel de tecnología.
Para efectos de evaluación de la RNA, se utilizó el conjunto de prueba que corresponde al 10% de los datos originales, es decir, 595 empresas. Tras entrenar la red neuronal con 30 neuronas en la capa oculta, se puede observar como resultado obtenido una precisión del 75%, como muestra la Tabla 1.
Con la RNA obtenida se efectuó un análisis de sensibilidad para detectar las variables que más influyen en el modelo. El proceso de sensibilización aplicado fue el propuesto por Hunter 15, que consiste en un enfoque basado en valores perdidos, el que radica en anular la variable a ser sensibilizada mediante la asignación del valor 0 a la correspondiente entrada de red neuronal y observar el efecto que genera esto en el indicador de desempeño a ser evaluado.
Finalmente, se efectuó una reducción de variables en el modelo de RNA, descartando todas las variables que, al ser anuladas, mejoran el indicador de desempeño o lo mantienen en su valor original. De esta forma la cantidad de variables a ser consideradas más incidentes sobre el modelo son las listadas en la Tabla 2.
Con este listado de variables se construyó un nuevo modelo de red neuronal. Se realizaron distintas combinaciones de neuronas en la capa oculta, con el propósito de buscar la mejor configuración para la RNA.
Como resultado del reentrenamiento de la RNA considerando solo las variables seleccionadas por la sensibilización, se obtuvo un modelo con 15 variables de entrada (Tabla 2), 5 neuronas en la capa oculta, y la clase de salida. La Tabla 3 muestra el resultado del modelo neuronal, considerando los datos de prueba, que corresponden al 10% de los datos, en total 595.
Resultados comprobación parcial del modelo TOE
Los factores identificados en la Tabla 2 pueden ser organizados como pertenecientes a los contextos organización o entorno. La tabla muestra que el perfil de desarrollo tecnológico puede ser predicho por factores tanto del entorno como organizacional, siendo de gran interés el hecho de que además de los factores TOE surgen otros factores que predicen el perfil de desarrollo tecnológico de la empresa, que son externos al marco de trabajo.
En la Figura 4 se puede observar la influencia que ejercen sobre el perfil de desarrollo tecnológico los factores proveedor de exportador, usuario ChileCompra, usuario franquicia tributaria, empresa certificada y empresa importadora; pertenecientes al contexto entorno. Asimismo, el perfil tecnológico de la empresa es predicho por los factores organizacionales: crédito financiero, financiamiento propio, empresa privada/nacional y tipo organización.
El recuadro punteado representa los factores predictivos que no pertenecen al modelo TOE, los que están asociados principalmente a características del líder de la empresa.
CONCLUSIONES
Tras la aplicación de un enfoque multidisciplinario, Clusterización-RNA-TOE, se logró establecer un método para verificar las relaciones existentes de los contextos organización y entorno sobre el contexto tecnología, en datos de empresas chilenas.
La aplicación de un método de sensibilización permitió obtener un conjunto reducido de variables como entrada al modelo neuronal, sin disminuir su precisión. Este conjunto de variables predicen el perfil o nivel tecnológico de la empresa y son parte, tanto del contexto entorno (E) como del contexto organización (O) de la empresa, corroborándose de esta forma las relaciones planteadas por el marco de trabajo TOE. Los factores asociados al contexto entorno corresponden a los elementos regulaciones gubernamentales y características de la industria, presentados en TOE, siendo estos: proveedor de exportador, usuario ChileCompra, usuario franquicia tributaria, empresa certificada y empresa importadora. Los elementos del contexto organizacional que fueron identificados entre los resultados son la disponibilidad de recursos y estructura administrativa y grado de formalización de la empresa, los que están constituidos por los factores: crédito financiero, financiamiento propio, empresa privada/nacional y tipo organización.
Además de los factores OE, los resultados muestran una influencia de factores externos a TOE (definidos como contexto X) sobre el perfil de desarrollo tecnológico de la empresa, siendo estos principalmente correspondientes a información asociada al administrador de la empresa, los que están dados por: la edad, el género, la experiencia y la educación del mismo; pudiendo estos ser conceptualizados como características del líder. La mayoría de estos factores han sido objeto de estudio en investigaciones anteriores, siendo asociados a modelos de adopción enfocados a individuos 16-20.
Concluyendo, en base al marco de trabajo TOE, fue posible encontrar una relación predictiva entre los contextos organización, entorno y otros; sobre el contexto tecnología, el que fue generado por medio de una variable representativa del perfil de desarrollo tecnológico de la empresa, mediante una técnica de clusterización, k-means.
De acuerdo con el postulado de que en una empresa chilena los factores de los contextos E, O, X predicen el nivel tecnológico T, se puede concluir que los factores encontrados efectivamente permiten corroborarlo, donde X corresponde a características del líder de la empresa. Con los resultados obtenidos del 75% de precisión, se puede concluir que el modelo obtenido es satisfactorio para el desarrollo de modelos predictivos en contextos empresariales.
Los resultados muestran que la utilización de RNA como modelo predictivo del perfil de desarrollo tecnológico es viable. Según la literatura, el uso de redes neuronales permite encontrar variables que se relacionan de forma lineal y no lineal, por lo que mediante este enfoque es posible realizar estudios exploratorios, como en este caso para la determinación de un grupo reducido de factores claves que permiten predecir el perfil tecnológico de una empresa.
LIMITANTES Y TRABAJOS FUTUROS
Como una limitante de este estudio es posible mencionar que el modelo de clasificación obtenido es útil y representativo solo en el contexto empresarial chileno basado en los datos procedentes de la ELE2, por lo que sería de interés, como trabajo futuro, aplicar el método utilizado para determinar el modelo asociado a contextos empresariales de otros países para obtener así un modelo adhoc a otras realidades.
Otra limitante es que las RN son modelos predictivos y no causales, por lo tanto, para poder validar las relaciones obtenidas en este trabajo se deben aplicar modelos estadísticos como, por ejemplo, SEM o Logit.
Finalmente, sería de interés establecer modelos predictivos utilizando como variable dependiente algún contexto distinto al tecnológico del modelo TOE. Por ejemplo, la predicción de los factores del contexto organizacional a partir de los contextos tecnología y entorno.