Tesis formulación de Minería de Datos para la Empresa Distribuidora de Productos Espinoza Aguilar S. A




descargar 68.19 Kb.
títuloTesis formulación de Minería de Datos para la Empresa Distribuidora de Productos Espinoza Aguilar S. A
fecha de publicación24.12.2015
tamaño68.19 Kb.
tipoTesis
med.se-todo.com > Economía > Tesis
c:\users\ms@lc\desktop\55555555.png

TESIS

Formulación de Minería de Datos para la Empresa Distribuidora de Productos Espinoza Aguilar S.A.

Por

Álvaro Alejandro Alcántara Mori

Alumno de Ingeniería de Sistemas de la

Facultad de Ingeniería Industrial y Sistemas

Para optar el Título Profesional de

INGENIERO DE SISTEMAS

EN LA

UNIVERSIDAD TECNOLOGICA DEL PERU

MAYO 2012

Tesis Dirigida por: Ing. Carlos Zorrilla Vargas

Resumen

El presente trabajo es un estudio de la viabilidad, adaptación y beneficios que puede ofrecer la metodología de la minería de datos aplicado a la pequeña empresa, que no cuenta con plan de proyección estructurado de los análisis internos y externos que van cambiando durante el ciclo de vida de la empresa.

Al final de la investigación se llegará a determinar el beneficio cualitativo y cuantitativo aproximado de la implementación del sistema, así como estructurar una guía de implementación.

Resumen

1. Introducción

2. Justificación de la Investigación

a. Objetivos (generales y específicos)

b. Diferenciación con otros proyectos similares.

3. Situación Actual

a. Definición del Problema

b. Volúmenes de Información (del negocio, de los clientes, años anteriores, mercado local, mercado global, si aplica, información estadística)

4. Marco teórico

5. Solución Propuesta

a. Alcance de la propuesta de Solución

b. Análisis de la solución propuesta

i. Benchmarking

ii. Análisis de estratégico

iii. Análisis funcional

iv. Etapas de la solución

c. EVS

d. Metodología

e. Sistema propuesto

6. Impacto esperado

7. Conclusiones

8. Bibliografía

9. Glosario

10. Anexos

2. JUSTIFICACION

¿Por qué?

Para detectar falencias en las los procesos que generen perdidas por gastos innecesarios en la logística.

¿Para qué?

Para aumentar la rentabilidad del negocio, eliminado perdidas, y agilizar los procesos internos de comercialización en todas sus áreas.

Desde sus inicios la rentabilidad en las cuales está orientada la empresa, DIPESA, se basa en la cantidad de volumen comercializado, dejando de lado la investigación relacionada con las estadísticas y las proyecciones que puede establecer nuevos elementos estratégicos al momento de realizar las funciones cotidianas.

Al contar con información orientado a los datos, encontrará elementos que puede facilitar las operaciones que se realiza para cumplir con los procedimientos del negocio.

  1. OBJETIVOS

Objetivo General

  • Conocer el impacto económico y en la alineación de los posesos al implantar un sistema de Minería de Datos en la logística de la empresa.

Objetivos Específicos

  • Calcular la ganancia económica resultante después de la implantación.

  • Caracterizar los procesos no atendidos adecuadamente, conocer su influencia.

3. SITUACION ACTUAL

3.1. EL PROBLEMA

3.1.1 Planteamiento del Problema

  • Carrera : Informática

  • Área : Base de Datos

  • Asignatura : Minería de Datos

  • Tema : Implantación de un sistema de Minería de Datos.

3.1.2 Formulación del Problema

  • Medir el beneficio económico y en los procesos con la aplicación de un sistema de minería de Datos para la empresa DIPESA (Abarrotes-PYMES)

3.1.3 Descripción del Problema

  • La empresa DIPESA, dedicada a la comercialización de productos de primera necesidad.

  • Tiene procesos básicos de comercialización y cuenta con un sistema de almacenes que solo gestiona parte de sus procesos.

  • Se ha visto perdidas por el mal ingreso de los datos en algunas de las áreas de sus procesos y gastos excesivos por el tema de almacenamiento.

  • También ligeras pérdidas de productos que exceden las fechas de vencimiento y que aún no han sido distribuidos.

4. MARCO TEORICO REFERENCIAL

4.1. Marco Teórico

Según CC Steelman de la ACM, el cuerpo de conocimiento de la informática está compuesto por:

  • Estructuras discretas.

  • Programación.

  • Algoritmos y complejidad.

  • Lenguajes de programación.

  • Arquitectura y organización de computadores.

  • Sistemas operativos.

  • Redes de computadoras.

  • Interacción humana.

  • Gráficos y visualización.

  • Sistemas inteligentes e inteligencia artificial.

  • Sistemas de información y gestión de información.

  • Ingeniería de software.

  • Aspectos sociales y profesionales de la informática.

  • Ciencia computacional.


Teoría de la computación


Teoría de la computación

Teoría de autómatas

Teoría de la computabilidad.

Teoría de la complejidad computacional

Límites fundamentales (en especial de espacio en memoria y tiempo) de los cómputos.

Algoritmos y estructuras de datos


Análisis de algoritmos

Algoritmos: procesos formales usados para los cómputos, y eficiencia de estos procesos.

Estructuras de datos: organización y manipulación de los datos

Lenguajes de programación y compiladores


Compiladores formas de traducir programas computacionales, usualmente a partir de lenguajes de alto nivel a lenguajes de bajo nivel.

Teoría de lenguajes de programación, lenguajes formales para expresar algoritmos y las propiedades de estos lenguajes.

Bases de datos


Minería de datos, estudio de algoritmos para buscar y procesar información en documentos y bases de datos; muy relacionada con la adquisición de información.

Inteligencia artificial


Inteligencia artificial la implementación y estudio de sistemas que exhiben (ya sea por su comportamiento o aparentemente) una inteligencia autónoma o comportamiento propio, a veces inspirado por las características de los seres vivos. Las ciencias de la computación están relacionadas con la IA, ya que el software y las computadoras son herramientas básicas para el desarrollo y progreso de la inteligencia artificial.

Razonamiento automatizado Robótica algoritmos para controlar el comportamiento de los robots.

Visión por computador algoritmos para extraer objetos tridimensionales de una imagen bidimensional.

Aprendizaje Automático

Ciencias Aplicadas al Negocio

Economía: es la ciencia social que estudia el comportamiento económico de agentes individuales: producción, intercambio, distribución y consumo de bienes y servicios, entendidos estos como medios de satisfacer necesidades humanas y resultado individual o colectivo de la sociedad.

Microeconomía: es una parte de la economía que estudia el comportamiento económico de agentes económicos individuales, como son los consumidores, las empresas, los trabajadores y los inversores; así como de los mercados. Considera las decisiones que toma cada uno para cumplir ciertos objetivos propios. Los elementos básicos en los que se centra el análisis microeconómico son los bienes, los precios, los mercados y los agentes económicos. La gran mayoría de los modelos que se exponen en el presente artículo tienen como base la existencia de un marco económico y social de economía descentralizada, en el que existe propiedad privada.

Macroeconomía: es la parte de la teoría económica que se encarga del estudio global de la economía en términos del monto total de bienes y servicios producidos, el total de los ingresos, el nivel de empleo, de recursos productivos, y el comportamiento general de los precios. La macroeconomía puede ser utilizada para analizar cuál es la mejor manera de influir en objetivos políticos como por ejemplo hacer crecer la economía, conseguir la estabilidad de precios, fomentar el empleo y la obtención de una sustentable y equilibrada balanza de pagos.

Administración: ciencia social y técnica encargada de la planificación, organización, dirección y control de los recursos (humanos, financieros, materiales, tecnológicos, el conocimiento, etc) de la organización, con el fin de obtener el máximo beneficio posible; este beneficio puede ser económico o social, dependiendo esto de los fines perseguidos por la organización.

Psicología Social: es la psicología que se encarga del estudio especializado de las conductas pero a su vez estudia la forma y el por qué el hombre lo hace de una manera o de otra según sea su sociabilización por medio de los padreso familiares o amigos estudiándolo desde su forma mental

Relaciones Públicas: Rama de la comunicación que se encarga de crear, modificar y/o mantener la imagen positiva ya sea de una empresa, organización, ente público o privado, o persona; y fortalecer los vínculos con todos sus públicos (Internos, externos o indirectos), utilizando diferentes estrategias, técnicas e instrumentos, su misión es generar un vínculo entre la organización, la comunicación y los públicos relacionados ( Stakeholder), además de convencer e integrar de manera positiva.

Contabilidad de Costos: es un sistema de información para predeterminar, registrar, acumular, distribuir, controlar, analizar, interpretar e informar de los costos de producción, distribución, administración y financiamiento.

Logística: conjunto de medios y métodos necesarios para llevar a cabo la organización de una empresa, o de un servicio, especialmente de distribución.[1] En el ámbito empresarial existen múltiples definiciones del término logística, que ha evolucionado desde la logística militar hasta el concepto contemporáneo del arte y la técnica que se ocupa de la organización de los flujos de mercancías, energía e información.

PYMES

En el Perú, las PYME representan el 99.5% del total de empresas del país, son responsables del 49% de la producción nacional y producen el 49% del PBI nacional. Según estadísticas del ENAHO, son las PYME las que concentran el 60% de los empleos totales, siendo la microempresa la que más empleos genera: 53% de la PEA ocupada a nivel nacional (el restante 7% pertenece a la pequeña empresa). En la última década, el sector PYME ha sido el más dinámico en relación a la creación de nuevos puestos de trabajo creciendo a tasas de 9% anual mientras que la gran empresa creció a tasas de 2% anual.

  • Centro de Documentación para la Innovación de la Cadena de Suministro

Mayo 15, 2011 (15/05/2011)

El costo de la logística en la mayoría de empresas varía entre el 10 y 20% de sus ventas”

Edward Frazelle Ph.D., fundador de The Supply Chain Logistics Institute en Georgia Tech, y presidente y CEO de Logistics Resources International

  • PLANEAN TENER UN INDICADOR PARA EL PERÚ EN DICIEMBRE

Costos logísticos para pymes de la región llegan al 33%

"Según el Centro Logístico para América Latina (LALC, por sus siglas en inglés) el promedio de los costos logísticos sobre las ventas es de 14,7% en la región, pero en el Perú no hay un 'benchmark' formal, aunque se habla de un 19% o 20% como referencia", señala Wong.

2.2. Marco Conceptual

2.2.1 Data Mining, la extracción de información oculta y predecible de grandes bases de datos, es una poderosa tecnología nueva con gran potencial para ayudar a las compañías a concentrarse en la información más importante de sus Bases de Información (Data Warehouse). Las herramientas de Data Mining predicen futuras tendencias y comportamientos, permitiendo en los negocios tomar decisiones proactivas y conducidas por un conocimiento acabado de la información (knowledge-driven). Los análisis prospectivos automatizados ofrecidos por un producto así van más allá de los eventos pasados provistos por herramientas retrospectivas típicas de sistemas de soporte de decisión. Las herramientas de Data Mining pueden responder a preguntas de negocios que tradicionalmente consumen demasiado tiempo para poder ser resueltas y a los cuales los usuarios de esta información casi no están dispuestos a aceptar. Estas herramientas exploran las bases de datos en busca de patrones ocultos, encontrando información predecible que un experto no puede llegar a encontrar porque se encuentra fuera de sus expectativas.

Hay cuatro tipos de tareas que normalmente se involucran en la minería de datos:

  • Clasificación – la tarea de generalizar una estructura familiar para utilizarla en los nuevos datos

  • Agrupamiento – la tarea de encontrar grupos y estructuras en los datos que son de alguna manera u otra lo mismo, sin necesidad de utilizar las estructuras observadas en los datos.

  • Aprendizaje de reglas de asociación – Busca relaciones entre las variables.

  • Regresión – Su objetivo es encontrar una función que modele los datos con el menor error.

2.2.2 Los Fundamentos del Data Mining

Las técnicas de Data Mining son el resultado de un largo proceso de investigación y desarrollo de productos. Esta evolución comenzó cuando los datos de negocios fueron almacenados por primera vez en computadoras, y continuó con mejoras en el acceso a los datos, y más recientemente con tecnologías generadas para permitir a los usuarios navegar a través de los datos en tiempo real. Data Mining toma este proceso de evolución más allá del acceso y navegación retrospectiva de los datos, hacia la entrega de información prospectiva y proactiva. Data Mining está lista para su aplicación en la comunidad de negocios porque está soportado por tres tecnologías que ya están suficientemente maduras:

  • Recolección masiva de datos

  • Potentes computadoras con multiprocesadores

  • Algoritmos de Data Mining.

http://www.linkses.net/img/dataminning.gif

2.2.3 Datos, información, conocimiento


¿En qué se diferencia el conocimiento de los datos y de la información? En una conversación informal, los tres términos suelen utilizarse indistintamente y esto puede llevar a una interpretación libre del concepto de conocimiento. Quizás la forma más sencilla de diferenciar los términos sea pensar que los datos están localizados en el mundo y el conocimiento está localizado en agentes de cualquier tipo (personas, empresas, máquinas...), mientras que la información adopta un papel mediador entre ambos.

pirámide de datos, información y conocimiento

Datos

Los datos son la mínima unidad semántica, y se corresponden con elementos primarios de información que por sí solos son irrelevantes como apoyo a la toma de decisiones. También se pueden ver como un conjunto discreto de valores, que no dicen nada sobre el porqué de las cosas y no son orientativos para la acción.

Un número telefónico o un nombre de una persona, por ejemplo, son datos que, sin un propósito, una utilidad o un contexto no sirven como base para apoyar la toma de una decisión. Los datos pueden ser una colección de hechos almacenados en algún lugar físico como un papel, un dispositivo electrónico (CD, DVD, disco duro...), o la mente de una persona. En este sentido las tecnologías de la información han aportado mucho a recopilación de datos.

Como cabe suponer, los datos pueden provenir de fuentes externas o internas a la organización, pudiendo ser de carácter objetivo o subjetivo, o de tipo cualitativo o cuantitativo, etc.



2.2.4 El Alcance de Data Mining

El nombre de Data Mining deriva de las similitudes entre buscar valiosa información de negocios en grandes bases de datos - por ej.: encontrar información de la venta de un producto entre grandes montos de Gigabytes almacenados - y minar una montaña para encontrar una veta de metales valiosos. Ambos procesos requieren examinar una inmensa cantidad de material, o investigar inteligentemente hasta encontrar exactamente donde residen los valores. Dadas bases de datos de suficiente tamaño y calidad, la tecnología de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades:

  • Predicción automatizada de tendencias y comportamientos. Data Mining automatiza el proceso de encontrar información predecible en grandes bases de datos. Preguntas que tradicionalmente requerían un intenso análisis manual, ahora pueden ser contestadas directa y rápidamente desde los datos. Un típico ejemplo de problema predecible es el marketing apuntado a objetivos (targeted marketing). Data Mining usa datos en mailing promocionales anteriores para identificar posibles objetivos para maximizar los resultados de la inversión en futuros mailing. Otros problemas predecibles incluyen pronósticos de problemas financieros futuros y otras formas de incumplimiento, e identificar segmentos de población que probablemente respondan similarmente a eventos dados.

  • Descubrimiento automatizado de modelos previamente desconocidos. Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un sólo paso. Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de créditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos.

¿QUE PUEDE HACER EL DATA MINING?

Una empresa en posesión de unas bases de datos de calidad y tamaño suficiente puede emplear el Data Mining para generar nuevas oportunidades de negocio, dada su capacidad para proporcionar:

�� Predicción automática de comportamientos.

Generalmente se trata de problemas de clasificación. Como ejemplo podemos citar el marketing dirigido. Data Mining usa los resultados de campañas de marketing realizadas anteriormente para identificar el perfil de los clientes que son más propensos a comprar el producto y de este modo permitirnos substituir el correo masivo por el correo dirigido.

�� Predicción automática de tendencias.

Basándonos en base de datos históricas, Data Mining creará un modelo para predecirlas tendencias. Como ejemplos podemos citar la predicción de ventas en el futuro ola predicción en mercados de capitales.

�� Descubrimiento automatice de comportamientos desconocidos anteriormente.

Las herramientas de Data Mining de visualización y clustering, permiten «ver» nuestros datos desde una perspectiva distinta y por ello descubrir nuevas relaciones entre ellos.

2.2.5. Software

Cinco de las mejores herramientas de software de código abierto para minería de datos que puedes obtener de forma gratuita:

  • Orange

Orange es una suite de software para minería de base de datos y aprendizaje automático basado en componentes que cuenta con un fácil y potente, rápido y versátil front-end de programación visual para el análisis exploratorio de datos y visualización, y librerias para Python y secuencias de comando. Contiene un completo juego de componentes para preprocesamiento de datos, característica de puntuación y filtrado, modelado, evaluación del modelo, y técnicas de exploración. Está escrito en C++ y Python, y su interfaz gráfica de usuario se basa en la plataforma cruzada del frameworkQt.c:\users\msalc\desktop\orange.jpg

  • RapidMiner

RapidMiner, antes llamado YALE (Sin embargo, otro ambiente de aprendizaje), es un ambiente de experimentos en aprendizaje automático y minería de datos que se utiliza para tareas de minería de datos tanto en investigación como en el mundo real. Permite a los experimentos componerse de un gran número de operadores anidables arbitrariamente, que se detallan en archivos XML y se hacen con la interfaz gráfica de usuario de RapidMiner. RapidMiner ofrece más de 500 operadores para todos los principales procedimientos de máquina de aprendizaje, y también combina esquemas de aprendizaje y evaluadores de atributos del entorno de aprendizaje Weka. Está disponible como una herramienta stand-alone para el análisis de datos y como motor para minería de datos que puede integrarse en tus propios productos.c:\users\msalc\desktop\rapidmine.jpg

  • WEKAc:\users\msalc\desktop\weka.jpg

Escrito en Java, Weka (Entorno Waikato para el Análisis del Conocimiento) es una conocida suite de software para máquinas de aprendizaje que soporta varias tareas típicas de minería de datos, especialmente pre procesamiento de datos, agrupamiento, clasificación, regresión, visualización y características de selección. Sus técnicas se basan en la hipótesis de que los datos están disponibles en un único archivo plano o relación, donde cada punto marcado es etiquetado por un número fijo de atributos. WEKA proporciona acceso a bases de datos SQL utilizando conectividad de bases de datos Java y puede procesar el resultado devuelto como una consulta de base de datos. Su interfaz de usuario principal es el Explorer, pero la misma funcionalidad puede ser accedida desde la línea de comandos o a través de la interfaz de flujo de conocimientos basada en componentes.

  • JHepWork

Diseñado para los científicos, ingenieros y estudiantes, jHepWork es un framework para análisis de datos libre y de código abierto que fue creado como un intento de hacer un entorno de análisis de datos usando paquetes de código abierto con una interfaz de usuario comprensible y para crear una herramienta competitiva a los programas comerciales. Esto se hace especialmente para las ploteos científicos interactivos en 2D y 3D y contiene bibliotecas científicas numéricas implementadas en Java para funciones matemáticas, números aleatorios, y otros algoritmos de minería de datos. jHepWork se basa en Jython un lenguaje de programación de alto nivel, pero codificación en Java también puede ser usada para llamar librerías jHepWork numéricas y gráficas.c:\users\msalc\desktop\jhepword.jpg

  • KNIME

c:\users\msalc\desktop\knime.jpgKNIME (Konstanz Information Miner) es una plataforma de código abierto de fácil uso y comprensible para integración de datos, procesamiento, análisis, y exploración. Ofrece a los usuarios la capacidad de crear de forma visual flujos o tuberías de datos, ejecutar selectivamente algunos o todos los pasos de análisis, y luego estudiar los resultados, modelos y vistas interactivas. KNIME está escrito en Java y está basado en Eclipse y hace uso de sus métodos de extensión para soportar plugins proporcionando así una funcionalidad adicional. A través de plugins, los usuarios pueden añadir módulos de texto, imagen, procesamiento de series de tiempo y la integración de varios proyectos de código abierto, tales como el lenguaje de programación R, WEKA, el kit de desarrollo de Química y LIBSVM.

4.3. Marco Referencial

a. FOROS

www.dataminingperu.info es una iniciativa para compartir las experiencias de los autores en la aplicación directa de la estadística en el día a día
Intentaremos centrarnos exclusivamente en temas como:

  • Minería de Datos

  • Data Warehouse

  • Business Intelligence

  • Herramientas de Análisis de Datos

  • Aplicaciones diversas en el ámbito privado y gubernamental.


b. Casos de Éxito

  • Rainforest


Rainforest Expeditions (fundado en 1989) es una empresa de Ecoturismo que opera tres albergues en la Amazonía ampliamente reconocidos: Posada Amazonas, Refugio Amazonas y el Centro de Investigaciones de Tambopata.

Objetivo. Ingreso de encuestas sobre el nivel de satisfacción de turistas de forma mensual.
  • Poder Judicial Huaura


Ente del Estado perteneciente a la sede Central de Lima del Poder Judicial.

Objetivo. Ingreso de expedientes Judiciales al nuevos Sistema Integrado Judicial.
  • Instituyo Apoyo


Organización sin fines de lucro, focalizada en la ejecución de proyectos educativos, dirigidos a mejorar la enseñanza de la Economía, las Matemáticas y la Gestión Empresarial en el Perú.

Objetivo. Ingreso de fichas del programa Aula Empresa de los años 2009 y 2010 por doble digitación.
  • Maestristas Universidad Cesar Vallejo


La universidad César Vallejo – Campus Lima, forma parte del más grande consorcio universitario del Perú. Se fundó en Trujillo hace 16 años, y hoy tiene sedes en Piura, Chimbote, Tarapoto y Chiclayo, donde también se encuentra la Universidad Señor de Sipán y, próximamente en el distrito de Villa el Salvador, con la Universidad Autónoma del Perú.

Objetivo. Realizar el análisis estadístico de los proyectos de tesis de los alumnos de maestría en Educación.

2.4. Hipótesis

  • La implantación de un Sistema de Minería de Datos, en la empresa DIPESA, logrará reducir en un 20% los costos de logística.

  • La implantación de Sistemas basados en análisis de Data Minig, implicara la reingeniería de los procesos en la empresa.

Tipo de Hipótesis:

Hipótesis de correlación - causalidad

Variables:

  • Costos logísticos.

  • Tiempo de implantación.

  • Implantación de Sistema

2.5 LIMITACIONES

Las limitaciones que se encuentran en el estudio e investigación, son con referencia a la falta de cultura que tienen las empresas en la inversión para conocer sus datos estadísticos y proyecciones de inversión. Así como en la estructura cerrada de las compañías que por seguridad y estrategias comerciales limitan a nula la información de sus logros internos en la implantación de alguna metodología de investigación de procesos.

similar:

Tesis formulación de Minería de Datos para la Empresa Distribuidora de Productos Espinoza Aguilar S. A iconEs una empresa comercializadora de productos biotecnológicos y biológicos...

Tesis formulación de Minería de Datos para la Empresa Distribuidora de Productos Espinoza Aguilar S. A iconResumen El presente documento plantea la importancia actual que representa...

Tesis formulación de Minería de Datos para la Empresa Distribuidora de Productos Espinoza Aguilar S. A iconReglamento de ley para la protección de los datos de prueba o información...

Tesis formulación de Minería de Datos para la Empresa Distribuidora de Productos Espinoza Aguilar S. A iconEmpresa mexicana dedicada a la elaboración y comercialización de...

Tesis formulación de Minería de Datos para la Empresa Distribuidora de Productos Espinoza Aguilar S. A iconResumen Business Intelligence se refiere al uso de los datos de una...

Tesis formulación de Minería de Datos para la Empresa Distribuidora de Productos Espinoza Aguilar S. A iconMinería de Datos aplicados a las ventas con Tarjeta de Crédito realizados...

Tesis formulación de Minería de Datos para la Empresa Distribuidora de Productos Espinoza Aguilar S. A iconDatos identificativos de la empresa

Tesis formulación de Minería de Datos para la Empresa Distribuidora de Productos Espinoza Aguilar S. A iconManual de calidad empresa productos caribe

Tesis formulación de Minería de Datos para la Empresa Distribuidora de Productos Espinoza Aguilar S. A iconH ierrobeco, C. A. Catalogo de productos I n d I c e nuestra empresa (reseña historica)

Tesis formulación de Minería de Datos para la Empresa Distribuidora de Productos Espinoza Aguilar S. A iconOportunidades de inversión por actividades para una empresa mediana y pequeña empresa


Medicina



Todos los derechos reservados. Copyright © 2015
contactos
med.se-todo.com