Este capítulo explora conjuntos de datos adicionales que la Intervención General de la Administración del Estado (IGAE) de España puede utilizar para mejorar el modelo de riesgo descrito en el Capítulo 2. El capítulo proporciona una hoja de ruta e indica qué bases de datos son más prometedoras para mejorar la evaluación de riesgo de fraude de subvenciones utilizando el modelo, en función de la accesibilidad, relevancia y calidad de los conjuntos de datos. Los conjuntos de datos se agrupan en tres categorías: 1) datos organizativos de las partes del proceso de concesión; 2) datos sobre conexiones personales y conflictos de intereses; y 3) datos sobre fiabilidad organizativa e infracción de normas.
La Lucha contra el Fraude en las Subvenciones Públicas en España
3. Mirando hacia el futuro: Un mapa de ruta de conjuntos de datos para mejorar el modelo de riesgo de fraude de la Intervención General de España
Abstract
Introducción
Este capítulo presenta un mapa de ruta para complementar los datos de subvenciones existentes de la Intervención General de la Administración del Estado (IGAE), con el fin de mejorar los modelos de evaluación de riesgos. Implícitamente, describe conjuntos de datos que pueden enlazar con datos ya existentes de subvenciones de la IGAE, mejorando así la sofisticación analítica y la precisión de la evaluación de riesgos de la IGAE. Como se trató en el Capítulo 2, los modelos de aprendizaje automático están limitados por el alcance y el tipo de datos incluidos en la muestra de entrenamiento. El modelo no puede estimar con precisión las probabilidades de riesgo basándose en información incompleta, porque hay factores claves y mecanismos que determinan los riesgos siguen sin ser considerados. Por tanto, cuanto más completo es el conjunto de datos inicial, más precisos y exactos se vuelven los cálculos de riesgos.
Dado que el universo de conjuntos de datos potencialmente relevantes es enorme, es imperativo reducir la lista de a los más relevantes antes de invertir recursos importantes en el mapeo, tratamiento, vinculación y posterior incorporación de datos a los modelos predictivos. Se deben tener en cuenta tres factores al seleccionar conjuntos de datos adecuados: Accesibilidad, relevancia y calidad. La accesibilidad en este contexto es la facilidad con la que el conjunto de datos se puede obtener de su fuente original, lo que puede incluir cuestiones como si el conjunto de datos se puede descargar públicamente o debe solicitarse. El formato en el que están disponibles los datos también es fundamental, si existe como conjunto de datos descargable, o está constituido por una serie de páginas HTML. La relevancia se refiere al potencial de los elementos de datos para mejorar la sofisticación y precisión analítica. Esto debe evaluarse antes de recopilar los datos. La prueba definitiva de esta evaluación inicial es si los datos mejorarían la precisión predictiva del modelo. Cuando se incluyen demasiadas variables redundantes, el modelo final puede sufrir un sobreajuste. La calidad de los datos en este contexto captura la tasa de valores no omitidos y la fiabilidad de la información. Es probable que los datos de poca calidad con muchos valores omitidos o datos recopilados de manera inexacta sesguen los resultados. Este capítulo solo abarca los conjuntos de datos que se consideren fácilmente accesibles para la IGAE, relevantes para dicho modelo de riesgo y de suficiente calidad.
Mapa de ruta para complementar los datos de subvenciones de la IGAE
Los dos capítulos anteriores han descrito el proceso mediante el cual se puede implantar el aprendizaje automático para mejorar el enfoque de la IGAE para identificar riesgos en la concesión de subvenciones y ayudas. El proceso de utilizar conjuntos de datos externos, además de los datos internos existentes, sigue la misma lógica. Primero, se deben definir indicadores de antecedentes y de riesgo para cada conjunto de datos, para identificar los factores que potencialmente influyen en los riesgos de fraude. El siguiente paso es vincular los conjuntos de datos al conjunto de datos interno ya existente. Para hacerlo, se deben tener en cuenta algunas cosas: La unidad de análisis en cada conjunto de datos, la relevancia de la variable, el índice de omisión y la varianza. Como se trataba en el Capítulo 2, el índice de omisión debe ser inferior al 50 %, con una varianza de al menos el 35 %. Además, para fusionar nuevos datos, deben alinearse con la misma unidad de análisis con ID únicas, para evitar filas duplicadas después de la combinación. Hay que descartar las variables que no contienen información útil (es decir que no pueden utilizarse como indicadores).
Por ejemplo, para agregar conjuntos de datos externos a la Base de Datos Nacional de Subvenciones (BDNS) existente, deben tener identificaciones que coincidan con los utilizados en BDNS. Dichas identificaciones incluyen identificaciones de subvenciones, Número de Identificación Fiscal (NIF) español de los beneficiarios y nombres de los órganos concedentes, así como los nombres de los municipios. Esto implica algunas limitaciones. Por ejemplo, actualmente es imposible hacer combinar beneficiarios por sus nombres; solo pueden combinarse por NIF. Además, combinar por municipio acarreará una pérdida significativa de datos, porque alinear los datos con la misma unidad de análisis con identificaciones únicas significa que las puntuaciones de riesgo deben agregarse por municipio. Se aplica una lógica similar a la combinación por nombres de los concedentes y el NIF de los beneficiarios, ya que hay muchos valores idénticos en todos los datos de la BDNS (es decir, el mismo beneficiario puede recibir varias subvenciones o ayudas).
Hay algunas fuentes, unas más fiables que otras, que pueden usarse potencialmente para agregar datos al conjunto de datos existente de la BDNS. En primer lugar, están las fuentes oficiales, como el Registro Nacional de Asociaciones del Ministerio del Interior, que registra las organizaciones no gubernamentales (ONG) acreditadas, la base de datos tributaria de la Agencia Estatal de Administración Tributaria (AEAT) y la Asociación Española de Fundaciones (listas fundaciones acreditadas). Algunos de los datos son de acceso público, mientras que otros están restringidos solo a agencias autorizadas.
Los registros de propiedad efectiva (BO) y los datos de contratación pública también pueden considerarse fuentes oficiales fiables. La ventaja de trabajar con datos oficiales obtenidos directamente de los titulares de datos es que no es necesario verificar la información facilitada, más allá de las verificaciones de calidad de datos estándar utilizadas como parte de las canalizaciones de datos descritas. Los datos oficiales sobre ayudas de la Unión Europea son otro ejemplo de datos fiables.
El siguiente grupo de fuentes son las ONG y asociaciones independientes. Esta información es menos fiable, ya que el proceso de recopilación y verificación de datos no es claro. Si bien las fuentes oficiales probablemente incluyen datos e información primarios, las fuentes secundarias se adquieren de diferentes fuentes o se recopilan manualmente, a menudo sin transparencia sobre cómo se forma el conjunto de datos. Por tanto, estos conjuntos de datos deben usarse con más cuidado y su validez debe verificarse más a fondo. En España, entre dichas fuentes, se encuentran evaluadores independientes de ONG, así como FICESA, una base de datos de altos cargos y directivos.
Descripción general de los grupos de conjuntos de datos más relevantes
Hay cuatro grupos principales de datos que son relevantes para vincular con la base de datos BDNS, con el fin de mejorar las evaluaciones de riesgo de fraude de la IGAE. Cada grupo puede facilitar información sobre dimensiones y factores claramente distintos de riesgos de fraude. Algunos datos crean oportunidades para métodos alternativos de análisis, como el análisis de redes, que revelan conexiones entre empresas privadas y personas políticamente expuestas, así como beneficiarios finales y empresas asociadas. Reunir todos estos conjuntos de datos ofrece la oportunidad de realizar la evaluación de riesgos más completa; sin embargo, hacer coincidir solo algunos, o incluso solo un conjunto de datos adicional, puede ser muy útil para mejorar el modelo de riesgo de la IGAE, incluidos los siguientes grupos de datos:
i. Datos organizativos de las partes del proceso de concesión. Este grupo abarca datos sobre concedentes y beneficiarios, así como sobre terceros (como implantadores de proyectos). Las posibles fuentes de información para este grupo son:
Registro de empresas e información financiera: proporciona información sobre la estructura organizativa y la historia de la empresa (por ejemplo, cuándo se fundó) y también descubre la situación financiera, como la rentabilidad de la organización.
Datos organizativos sobre ONG acreditadas, fundaciones, asociaciones: proporciona información sobre las características del registro, la fiabilidad de la organización y los registros financieros.
ii. Datos sobre conexiones personales y conflictos de interés. Este grupo puede ser útil para identificar conexiones entre cargos de organizaciones privadas que solicitan subvenciones y los responsables políticos que supervisan las subvenciones. Conectar cargos públicos y privados puede resultar útil para seguir investigando posibles conflictos de intereses. Las posibles fuentes de información para este grupo son:
El registro de propiedad efectiva (BO): puede ayudar a identificar a los beneficiarios finales, las empresas asociadas y sus registros.
Personas políticamente expuestas: ayuda a revelar a las personas a las que se les ha confiado el poder y que son más susceptibles de verse envueltas en sobornos u otras prácticas corruptas.
Datos sobre altos cargos y directivos: proporciona nombres de personas potencialmente vinculadas a empresas privadas a través de propiedad legal o propiedad efectiva
iii. Datos sobre fiabilidad de las organizaciones e infracción de normas. Este grupo puede ayudar a predecir riesgos de fraude, al ofrecer información sobre infracciones relevantes, pero solo indirectamente relacionadas, como irregularidades en el pago de impuestos. Este grupo también puede proporcionar información sobre medidas de fiabilidad más suaves, como la acreditación ante la sociedad civil. Las posibles fuentes de información son:
Datos sobre quiebras o pagos de impuestos: muestra la fiabilidad de una organización basada en registros financieros pasados:
Acreditaciones de ONG: identifica a las ONG acreditadas u otras asociaciones como más fiables.
iv. Datos sobre otros fondos y contratos. La información sobre otras fuentes de financiación y contratos públicos puede revelar factores adicionales que influyen en la probabilidad de fraude, como la doble financiación para la misma actividad. Además, los riesgos de corrupción en contratación pública u otros procesos de financiación pueden apuntar debilidades sistemáticas a escala organizativa y la propensión a cometer fraude. Los conjuntos de datos relevantes en este grupo incluyen:
Fondos de la UE: la lista de beneficiarios de ayudas de la UE puede mostrar si la organización recibió financiación doble de diferentes fuentes para el mismo proyecto.
Contratación pública: los riesgos de corrupción en los contratos públicos obtenidos de organizaciones o proporcionados por el mismo concedente pueden influir en la posibilidad de irregularidades en subvenciones y ayudas.
La Tabla 3.1 presenta los conjuntos de datos más prometedores en España, que bien son de acceso público o que su contenido y características son de dominio público. Para cada conjunto de datos que pertenece a uno de los 4 grupos de conjuntos de datos, la tabla contiene información sobre la unidad de medida (que se refiere una sola fila), el número de observaciones cuando estén disponibles, la identificación clave para enlazar con la BDNS1 y la prioridad para el futuro trabajo de la IGAE. La tabla destaca los conjuntos de datos de máxima prioridad en la parte superior, teniendo en cuenta las tres dimensiones principales de la evaluación de datos tratadas anteriormente: Accesibilidad, relevancia y calidad. Solo los conjuntos de datos que han obtenido puntuaciones altas en las 3 dimensiones (descarga masiva de datos de fácil acceso, alcance y contenido de datos muy relevantes y calidad adecuada) se han considerado de prioridad alta para la IGAE.
Por el contrario, algunos conjuntos de datos que han obtenido puntuaciones altas en solo una o dos dimensiones se han considerado de prioridad media o baja. Por ejemplo, cuando la accesibilidad a los datos es limitada, la prioridad se consideraba media incluso para los datos que de otro modo se hubieran considerado muy relevantes o de calidad adecuada. La clasificación de los conjuntos de datos en términos de prioridad general establece la ruta detallada para ampliar y enriquecer el conjunto de datos actual de la IGAE y el modelo de riesgo descrito en el Capítulo 2. Las siguientes secciones analizan cada uno de estos conjuntos de datos en detalle, junto con algunos indicadores de riesgo de fraude, que se pueden calcular cuando se conectan datos.
Tabla 3.1. Breve descripción de conjuntos de datos adicionales
Nombre del conjunto de datos |
Grupo de conjuntos de datos |
Unidad de medida |
Número de observaciones |
ID para combinar con el conjunto de datos principal de la IGAE |
Prioridad para el trabajo de seguimiento de la IGAE |
---|---|---|---|---|---|
Registradores De España |
i, ii |
Organización |
>5 000 000 |
NIF de beneficiarios, nombres de organizaciones |
alta |
Registro de propiedad efectiva (LibreBOR) |
i, ii |
Organización |
>5 000 000 |
NIF de beneficiarios |
alta |
Base de datos de altos cargos y directivos españoles (FICESA) |
ii |
Instituciones y organismos estatales |
~100 000 |
Nombre de organizaciones |
alta |
CINCOnet |
iii |
Organizaciones |
debe acceder un organismo oficial |
NIF de organizaciones |
alta |
Plataforma de contratación pública |
iv |
Licitación |
1 391 558 |
NIF de organizaciones |
alta |
El Registro Público Concursal |
iii |
Organizaciones |
el sitio web no permite buscar |
NIF de organizaciones |
media |
iv |
Base |
15 840 |
Ubicación y tipo de beneficiario |
media |
|
iii |
Organizaciones |
no en acceso público |
NIF de organizaciones |
media |
|
iv |
Subvención o contrato |
40 567 |
Nombre del beneficiario, NIF |
media |
|
i, iii |
ONG acreditada |
44 |
NIF de la organización |
baja |
|
i, ii, iii |
ONG acreditada |
191 |
Nombre de la organización |
baja |
Fuente: Autor
Combinación de datos organizativos: perfiles organizativos más precisos y detección de anomalías
Los datos organizativos de las partes involucradas en la concesión de subvenciones incluyen los concedentes, los beneficiarios y los terceros (es decir, los ejecutores del proyecto). La combinación de datos sobre organizaciones permite obtener una visión más completa y detallada de los controles organizativos ante los riesgos de fraude. Ayuda a identificar características organizativas adicionales que podrían influir en la probabilidad de sanciones. Por ejemplo, la información contable, el tamaño de la empresa y las empresas asociadas pueden ser características útiles para identificar los riesgos de fraude y mejorar el modelo de riesgo de la IGAE en el futuro. Este grupo incluye las siguientes bases de datos: Registradores de España, datos de la Asociación Española de Fundaciones (AEF) y el Registro Nacional de Asociaciones del Ministerio del Interior.
Registro mercantil y datos financieros
Uno de los conjuntos de datos más relevantes para el propósito de la IGAE y para mejorar el modelo de riesgo es el Registro Mercantil nacional. Contiene datos sobre las empresas, el capital, los representantes (por ejemplo, consejeros y abogados), los actos registrados y la presentación de cuentas anuales (es decir, el desempeño financiero). La lista de variables se presenta en la Tabla 3.2.2
Tabla 3.2. Lista de variables (Registro Mercantil Nacional)
Variables |
Descripción |
Tipo de variable |
---|---|---|
Nombre |
El nombre de la empresa |
Texto |
NIF |
El NIF de la empresa |
Texto |
Fecha de creación |
La fecha de constitución de la empresa |
Fecha |
Domicilio social |
La dirección en la que está registrada la empresa |
Texto |
Sector de actividad económica |
En qué sector económico opera la empresa (NACE) |
Categórico |
Forma jurídica |
Forma jurídica oficial de la empresa (formas nacionales) |
Categórico |
Estado de la empresa |
Si la empresa está activa y operativa |
Categórico |
Activos de la empresa |
Valor total de los artículos que benefician económicamente a la empresa |
Numérico |
Pasivos de la empresa |
Valor total de las obligaciones de la empresa |
Numérico |
Ingresos de la empresa |
Cantidad total de ingresos generados anualmente |
Numérico |
Gastos de la empresa |
Importe total de gastos al año |
Numérico |
Cambios en el patrimonio |
Si hubo cambios en el patrimonio neto durante el año anterior |
Binario + texto |
Liquidez |
Incremento o disminución de la cantidad de dinero |
Lista |
Miembros |
Incluye el nombre de todos los miembros de la representación empresarial actual |
Texto |
Propietarios efectivos |
Lista de nombres de los propietarios finales de la empresa. |
Texto |
El Registro Mercantil puede cruzarse con el conjunto de datos principal de la BDNS por el NIF de la empresa, o en caso de error, por el nombre de la organización. Casi todos los elementos de datos que contiene el conjunto de datos de empresas son relevantes para la IGAE, en lo referente a mejorar su modelo de riesgo. Estos campos van desde la información básica de registro, como la fecha de creación o el domicilio social, hasta los balances y estados de resultados. Del mismo modo, las variaciones recientes en el patrimonio y la lista completa de accionistas de la empresa pueden proporcionar información adicional sobre posibles conflictos de interés cuando se cruzan con otros conjuntos de datos.
Con respecto a la información básica del registro, existen señales de alerta que han demostrado ser útiles para predecir los riesgos de corrupción y fraude. Por ejemplo, las empresas que se han constituido, o cuyos datos de registro se han modificado poco antes de solicitar una subvención, tienen un riesgo mayor. Del mismo modo, las empresas registradas en las llamadas direcciones de «cementerio de empresas» pueden ser de alto riesgo, donde un gran número de empresas están registradas con altos grados de fluctuación (por ejemplo, miles de empresas creadas y cerradas con la misma sede social cada mes). De manera similar, como se trata en el Capítulo 2, el tipo de organización (es decir, la naturaleza jurídica de la empresa), así como sus ingresos y tamaño generales, pueden influir en el nivel de riesgo de fraude. Por ejemplo, debido a la legislación, ciertos tipos de organizaciones pueden ser menos transparentes o estar menos reguladas (por ejemplo, fideicomisos o propiedad empresarial presentada por acciones al portador).
En cuanto a los datos financieros de la empresa, la IGAE puede tener en cuenta una serie de indicadores relevantes para la predicción de riesgos. Primero, la relación entre gastos e ingresos de una empresa puede proporcionar información sobre si la empresa es rentable. Las empresas que no son rentables son de mayor riesgo en subvenciones y ayudas, ya que pueden utilizar los fondos para pagar sus deudas en lugar de financiar sus proyectos. Del mismo modo, una relación negativa entre los pasivos y los activos de una empresa sugiere un mayor riesgo en términos del uso adecuado de las subvenciones. Los cambios frecuentes en el capital social pueden ser una señal de conflictos internos e inestabilidad dentro de la empresa, lo que aumenta el nivel de riesgo asociado a subvenciones y ayudas para dichas organizaciones. La disminución sistemática de liquidez refleja el estancamiento o la reducción de la actividad de la empresa, lo que también pone en tela de juicio su viabilidad. Combinar los datos de las subvenciones con los datos financieros de la empresa también puede revelar el tamaño relativo de la subvención en comparación con la empresa, ya que las pequeñas empresas que reciben subvenciones importantes pueden ser de riesgo.
Registro de Asociaciones
Otro conjunto de datos organizativos que la IGAE podría tener en cuenta para su modelo de riesgo, aunque de baja prioridad, es el Registro Nacional de Asociaciones, del Ministerio del Interior. Se trata de un listado de organizaciones que han pasado una revisión realizada por la Agencia Española de Cooperación Internacional para el Desarrollo (AECID), en la que se utilizaron más de 70 criterios cualitativos y cuantitativos, en su mayoría relacionados con la experiencia, solvencia económica, transparencia y recursos humanos. La principal limitación de este conjunto de datos es el pequeño número de ONG acreditadas que proporciona, ya que solo tiene 44 entidades. Se almacenan en formato HTML y se pueden exportar fácilmente a Excel o cualquier otro formato de datos. El directorio de variables se detalla en la Tabla 3.3.
Tabla 3.3. Directorio de variables (Registro Nacional de Asociaciones del Ministerio del Interior)
Variables |
Descripción |
Tipo de variable |
---|---|---|
Nombre |
Cuál es el nombre de la ONG |
Texto |
Sectores |
Para qué sectores está cualificada |
Categórico |
CIF |
Cuál es el número de identificación de cliente de la ONG |
Texto |
El conjunto de datos proporciona dos ID posibles para enlazar: el nombre de la organización y su número de identificación fiscal (NIF). Ambos se pueden utilizar para vincular los datos a los datos de subvenciones de la IGAE. Los datos constan de tres variables, dos de las cuales son identificaciones y una especifica los sectores precisos en los que la ONG está cualificada para operar. Partiendo de esta información, se pueden crear dos variables binarias: 1) Si la ONG ha sido revisada y 2) si la ONG está actuando en la misma área para la que estaba cualificada (por ejemplo, la ONG estaba cualificada para el sector sanitario, pero recibe subvenciones para el sector de educación). Debido al bajo número de entidades, es poco probable que se produzcan cambios significativos en las calificaciones de riesgo previstas. Sin embargo, si el conjunto de datos principal de la BDNS se filtra solo para las ONG, esta información podría influir en los resultados para este sector.
Evaluaciones de ONG
El tercer conjunto de datos que merece tenerse en cuenta es el de la Fundación Lealtad. Se trata de un evaluador independiente de ONG, que analiza la gestión, gobernanza, uso de fondos, situación económica, voluntariado y transparencia de las ONG. En el sitio web de la fundación existe un archivo PDF descargable con la lista de todas las ONG evaluadas positivamente. Sin embargo, esta lista contiene información limitada más allá del nombre de las organizaciones. Por tanto, un enfoque más eficaz sería acceder a las páginas HTML de cada organización y analizar los datos manualmente. Existe la posibilidad de analizar información de archivos PDF estandarizados denominados «informes completos» para cada ONG. El directorio de variables se detalla en la Tabla 3.4.
Tabla 3.4. Directorio de variables (Fundación Lealtad)
Variables |
Descripción |
Tipo de variable |
---|---|---|
Nombre |
El nombre de las ONG |
Texto |
Sectores |
Sectores en los que opera |
Categórico |
NIF |
El código NIF de la ONG |
Texto |
Ingresos |
Los ingresos anuales de la organización + fuentes |
Numérico + categórico |
Gastos |
Los gastos anuales de la organización + tipos de gastos |
Numérico + categórico |
Año |
Año de origen de la organización |
Fecha |
Beneficiarios |
El número total y el tipo de beneficiarios de esta ONG. |
Numérico |
Socios |
Número de socios que tiene la ONG |
Numérico |
Empleados |
Número de empleados que tiene la ONG |
Numérico |
Voluntarios |
Número de voluntarios que tiene la ONG |
Numérico |
NIF |
El número de NIF de la organización |
Texto |
Puestos de gerencia |
Persona/s que representan a la gerencia de esta ONG |
Texto |
Contactos |
Correo electrónico, teléfono, dirección de la organización |
Texto |
Zona geográfica |
Dónde opera la ONG |
Texto |
Las principales ID mediante las cuales las organizaciones pueden vincularse a los conjuntos de datos de la IGAE son el nombre de la organización y el NIF. Si bien el nombre está disponible en archivos HTML y PDF, el NIF se almacena en el PDF del informe completo. Los datos sobre ingresos, gastos, sector de actividad, año de origen, así como el número de beneficiarios, socios y empleados pueden agregarse a la información de antecedentes para el análisis. Como antes, se puede crear una variable binaria que refleje si la organización en cuestión está verificada o no por la Fundación Lealtad. Además de la información general de antecedentes, se pueden extraer algunos indicadores adicionales de este conjunto de datos. Por ejemplo, se debe tener en cuenta la proporción de gastos para evaluar cuánto se gasta la ONG en su propia gestión en comparación con su misión. Un gasto elevado en gestión podría ser una señal de calificación de riesgo más alta aunque, por sí solo, no sería un indicador de fraude o irregularidades. Las personas en cargos directivos, cuando se cruzan con otros conjuntos de datos (por ejemplo, personas políticamente expuestas), pueden proporcionar información sobre posibles conflictos de intereses.
Cruzar datos personales para rastrear conexiones y conflictos de interés
El segundo grupo de conjuntos de datos que podrían mejorar el modelo de riesgo de la IGAE, descrito en el Capítulo 2, son los datos sobre conexiones personales y conflictos de interés. Vincular datos sobre conexiones personales entre los sectores público y privado abre la posibilidad de rastrear conflictos de interés. Estos datos se pueden analizar mediante análisis de redes, para identificar si existen conexiones entre personas políticamente expuestas y propietarios de las empresas que reciben subvenciones y ayudas. Ya se trataron en el grupo anterior algunas fuentes posibles. Los siguientes apartados se centrarán en el Registro de Propiedad efectiva y FICESA, la base de datos de altos cargos y directivos españoles.
Registro de Propiedad Efectiva (BO)
El registro de BO proporciona información de más de 5 000 000 de organizaciones registradas desde 2009. La lista corta de variables se proporciona en la Tabla 3.2. No hay un conjunto de datos completo de dominio público, pero la fuente – una plataforma online para consultar y analizar el Boletín Oficial del Registro Mercantil (LibreBOR) - proporciona una API y un script de Python para analizar los datos.3 Es posible seleccionar aquellas organizaciones que aparecen en los conjuntos de datos de la IGAE, sin analizar todo el conjunto de datos, lo que hará más eficiente el tiempo de tratamiento.
Tabla 3.5. Directorio de variables en el registro BO
Variables |
Descripción |
Tipo de variable |
---|---|---|
Denominación actual y anterior |
El nombre de la empresa, cuáles son los nombres anteriores |
Texto |
Domicilio social |
La oficina oficial está registrada |
Texto |
Forma jurídica |
La forma jurídica de la empresa |
Categórico |
Provincia |
Provincia en la que opera la empresa |
Texto |
Puestos directivos |
Nombres de la/s persona/s en puestos directivos |
Texto |
Fecha de disolución y motivo |
Si la empresa se cerró o se desintegró; cuándo y por qué sucedió |
Fecha + texto |
Datos de registro |
Información adicional sobre el registro de la empresa |
Texto |
Enlaces a las fuentes oficiales |
Fuente oficial de la que proceden los datos |
Texto |
Propietarios efectivos |
Lista de nombres de los propietarios finales de la empresa. |
Texto |
Fuente: https://docs.librebor.me/
La IGAE tiene dos formas de cruzar los conjuntos de datos de la BDNS con el registro BO: 1) Por nombre de la organización, o 2) por NIF del beneficiario. Como alternativa, es posible agregar datos por provincia y enlazar estos números agregados (por ejemplo, tamaño medio de la empresa) por ubicación particular. El conjunto de datos del BO contiene mucha información de antecedentes para organizaciones, pero la más relevante son los puestos directivos, las organizaciones asociadas y los propietarios efectivos finales. Los datos de propiedad se utilizan mejor cuando se comparan con otros conjuntos de datos, en particular, listas de titulares de cargos políticos (consulte la siguiente sección).
Además, la IGAE puede utilizar parte de la información de antecedentes como predictores de riesgo en sí mismos. Cuando los nombres de los propietarios efectivos de entidades beneficiarias de subvenciones se cruzan con los de los titulares de cargos públicos, es posible identificar conflictos de interés directos (es decir, cuando el beneficiario trabaja para el organismo que concede la subvención) o formas indirectas de conflicto potencial (es decir, cuando el titular del cargo político relacionado trabaja en una organización de nivel superior o en un órgano de supervisión de la organización concedente). Cuando se analizan los datos de propiedad por sí solos, la información sobre las empresas asociadas con el beneficiario puede revelar riesgos si se cruza con otros conjuntos de datos (por ejemplo, formas complejas de conflictos de interés y factores de riesgo relacionados).4
Base de datos de altos cargos
La siguiente fuente es una base de datos de altos cargos y directivos de España llamada FICESA. Esta fuente contiene datos relacionados con altos cargos públicos en una amplia gama de organizaciones públicas: Secretarías de Estado, Subsecretarías, Direcciones Generales y Subdirecciones, Oficinas de Presupuestos, así como diferentes órganos judiciales a escala nacional, regional y local. No son datos de dominio público y los datos deben solicitarse al titular de los datos rellenando un formulario. Por tanto, el formato de los datos y las variables que contiene el conjunto de datos no está claro. No hubo respuesta a los intentos de contactar con la fuente. Se supone que la IGAE podría obtener acceso a la base de datos completa como una descarga masiva.
La única identificación por la que se puede vincular este conjunto de datos son los nombres y, si están disponibles, datos personales adicionales, como la fecha de nacimiento. Si el conjunto de datos de la BDNS contuviera datos sobre propietarios efectivos, como se indica anteriormente, los datos sobre cargos oficiales podrían cruzarse por nombres de personas. Vincular los conjuntos de datos de la IGAE a la información sobre los titulares de cargos de alto nivel crea la posibilidad de realizar análisis de red y ver si existen conflictos de interés entre las organizaciones privadas que reciben subvenciones y los organismos públicos que las conceden. Es especialmente útil utilizar el registro BO para buscar todas las organizaciones asociadas y analizar si están conectadas con personas políticamente expuestas. Por ejemplo, que aunque la organización que recibe la subvención no esté relacionada con nadie de organismos oficiales, una de sus organizaciones vinculadas sí podría estarlo.
Cruzar datos sobre fiabilidad organizativa e infracciones para recopilar riesgos en diferentes dominios
Los conjuntos de datos con información sobre fiabilidad organizativa e infracciones de normas o leyes es el tercer grupo de datos que podría ayudar a la IGAE a fortalecer su modelo de riesgo para evaluar los riesgos de fraude de subvenciones. Este grupo quedó cubierto parcialmente en la sección sobre datos de ONG acreditadas. Además, en este grupo, hay conjuntos de datos sobre suspensiones de pagos e impuestos. Cruzar los datos sobre la fiabilidad organizativa y la infracción de normas arroja luz sobre nuevas dimensiones de riesgos de fraude relacionados con otros dominios. Estos conjuntos de datos pueden ayudar a predecir los riesgos de fraude en las subvenciones al explotar las correlaciones entre la fiabilidad de las organizaciones acreditadas, los comportamientos de cumplimiento de normas (deudas fiscales, suspensiones de pagos, etc.) y el fraude en las subvenciones. Partiendo de propuestas anteriores, la siguiente sección se centra en el Registro Público Concursal, los datos fiscales de la AEAT y los datos contables de CINCOnet.
Registro Público Concursal
El primer conjunto de datos de este grupo, calificado previamente como una prioridad media para la IGAE, es el Registro Público Concursal. La fuente incluye información de resoluciones procesales, suspensiones de pagos y acuerdos extrajudiciales. Los datos HTML se pueden analizar después de filtrar por provincia o tribunal. Desgraciadamente, por motivos desconocidos, el filtrado no funciona correctamente en el sitio, lo que genera errores en la página. Aun así, el directorio aproximado de variables se presenta en la Tabla 3.6.
Tabla 3.6. Directorio de variables (Registro Público Concursal)
Variables |
Descripción |
Tipo de variable |
---|---|---|
Nombre |
El nombre de la empresa |
Texto |
Documento identificativo |
La ID del documento concursal |
Texto |
Deudor |
Si la empresa es una deuda o no |
Binario |
Incapacitada |
Si la empresa está incapacitada o no |
Binario |
Administrador |
Si la empresa es administradora de la quiebra o no |
Binario |
Este conjunto de datos se puede cruzar con los datos de subvenciones de la IGAE por el nombre de la organización o por código NIF. La fuente no brinda la oportunidad de revisar todos los casos, lo que requiere un filtrado de antemano, por lo que la forma más fácil de establecer un filtro es por provincia. La información más relevante para las evaluaciones del riesgo de fraude son los detalles sobre la suspensión de pagos. La fuente proporciona ubicación, nombre de la organización, tribunal, juez y NIF u otros identificadores de las empresas. Lamentablemente, no hay información sobre la fecha de los procedimientos concursales, lo que sería especialmente importante para analizar las subvenciones y ayudas anteriores. Después de lcruzar los datos, el indicador de riesgo más relevante para la IGAE sería la variable binaria («bandera») que refleja si el concesionario estaba o se encuentra actualmente en estado concursal. Dicha información sobre la situación de una empresa podría indicar que el beneficiario hará un mal uso de la subvención o ayuda concedida, o al menos que se gestionará esta de forma inadecuada debido a otras presiones organizativas.
Datos fiscales
El segundo conjunto de datos sobre incumplimiento de normas son los datos de la Agencia Estatal de Administración Tributaria (AEAT). Este es un conjunto de datos con acceso restringido, y solo las estadísticas agregadas son de dominio público. Una vez más, para lo que se trata a continuación, se supuso que la IGAE puede obtener acceso completo a la base de datos, para incorporar dichos datos en su modelo de riesgo. Según las notas publicadas por la AEAT, se dispone de datos en formato desagregado que pueden ser facilitados previa solicitud. Los datos agregados cubren la presentación de declaraciones fiscales, pago de impuestos, deudas y tasas, certificados de impuestos, declaraciones fiscales, etc.
Debido al acceso restringido a los conjuntos de datos, no está claro si las ID son las mismas que en el conjunto de datos BDNS, pero lo más probable es que las entidades se puedan enlazarse por nombre o por NIF del beneficiario. La información sobre el pago puntual de impuestos, deudas y otros cargos es la más relevante para enriquecer los modelos predictivos sobre riesgos de fraude. Los retrasos en el pago de impuestos, así como la existencia de deudas en una determinada empresa (o asociadas) podría ser una señal de mayores riesgos.
Información contable
El tercer conjunto de datos que pertenece a este grupo son los datos contables y presupuestarios de CINCOnet, considerados de alta prioridad para la IGAE, y las mejoras en el modelo de riesgo. Los datos incluyen operaciones de gasto e importe total de gastos en el año en curso, importe de ingresos en el año en curso, liquidez, operaciones no presupuestarias, gastos de terceros, datos generales de terceros, etc. Como los datos de la AEAT, estos datos no son de dominio público; sin embargo, el Ministerio de Hacienda y Función Pública administra CINCO.net y la IGAE tiene acceso directo.
Las entidades de esta base de datos se pueden cruzar por nombre o NIF del beneficiario con la BDNS. Sin embargo, debido al acceso restringido a los datos, es difícil evaluar la calidad y el contenido de las variables. Además de la información general sobre ingresos y gastos, CINCOnet proporciona datos sobre el reintegro de otras subvenciones concedidas por diferentes organizaciones en España. Esto puede ser especialmente útil en la evaluación de riesgos potenciales en la provisión de subvenciones y ayudas en el futuro, como la doble financiación de operaciones o el gran valor de subvenciones recibidas comparado con los ingresos.
Cruzar datos de contratos públicos y otras subvenciones permite rastrear la doble financiación y los riesgos asociados
El grupo final de conjuntos de datos abarca un elenco diverso de datos sobre contratos públicos y otras subvenciones y financiación. Ligar datos de otros fondos y contratos permitiría a la IGAE hacer una referencia cruzada del gasto y desarrollar dimensiones de riesgo adicionales. Por ejemplo, puede ayudar a identificar subvenciones acumuladas para las mismas actividades, que deben considerarse un factor de riesgo. Los contratos públicos recibidos por una empresa pueden puntuarse utilizando indicadores de riesgo de corrupción y luego relacionados con riesgos de subvenciones. Por ejemplo, una empresa o agencia (tercero, concedente, concesionario) que participa en licitaciones de alto riesgo también puede presentar riesgo cuando se trata de subvenciones. Este grupo incluye grupos de datos de la Asociación Española de Fundaciones (AEF), Fondos de la Unión Europea y datos de contratación pública.
Datos de fundaciones
Los datos de la AEF proporcionan información sobre las fundaciones que conceden subvenciones, entre ella: Su tipo de actividad, zonas geográficas, tipo de beneficiarios, fecha de creación y órganos de gestión. El directorio de variables se presenta en la Tabla 3.7. Los datos son de acceso abierto y se pueden descargar fácilmente en formato Excel o PDF. En total hay 15 840 fundaciones recogidas en el directorio.
Tabla 3.7. Directorio de variables de la Asociación Española de Fundaciones (AEF)
Variables |
Descripción |
Tipo de variable |
---|---|---|
Nombre |
Cuál es el nombre de la fundación |
Texto |
Protectorado |
Al amparo de qué ministerio/agencia protectorado se encuentra esta fundación |
Texto |
Año |
Año de creación |
Fecha |
Contactos |
Cuáles son los datos de contacto de la fundación (correo electrónico, teléfono) |
Texto |
Dirección |
Dónde opera la fundación |
Texto |
Relacionar este conjunto de datos con la BDNS implica varios pasos. Primero, todas las observaciones deben filtrarse por tipo de beneficiario, utilizando el filtrado en tiempo real, ya que el tipo de beneficiario no es un campo de datos en el archivo descargable. En segundo lugar, la ubicación particular debe coincidir con la ubicación de los concedentes o beneficiarios. Esto no proporcionará la información exacta sobre si el beneficiario recibió otra subvención de una fundación determinada, pero indica la presencia de la fundación en el mismo lugar con los mismos tipos de beneficiarios.
La información más relevante para que la IGAE evalúe los riesgos sería si alguno de los beneficiarios recibió doble financiación para las mismas actividades. Para rastrear con precisión dichos riesgos, es necesario verificar los beneficiarios exactamente por sus identificaciones. Sin embargo, esta fuente no proporciona información tan detallada. Por tanto, solo la información agregada, que es mucho más imprecisa, se puede utilizar desde esta fuente. La presencia de una fundación que apoye actividades similares en la misma localidad (provincia) que el concedente o concesionario aumenta la probabilidad de recibir doble financiación.
Datos de fondos de la Unión Europea (UE)
El siguiente conjunto de datos relevante para que la IGAE valore su conexión con los datos de la BDNS, con prioridad media, sin datos para Fondos de la Unión Europea. El gobierno español y la Comisión Europea proporcionan los datos y disponen de registros desde 2007 a 2020. Los datos son de fácil acceso y se pueden descargar en formato Excel. El directorio de variables relevantes se presenta en la Tabla 3.8.
Tabla 3.8. Directorio de variables (ayudas de la Unión Europea)
Variables |
Descripción |
Tipo de variable |
---|---|---|
Referencias presupuestarias |
La ID de referencia del presupuesto para esta subvención |
Texto |
Objeto de subvención o contrato |
El fin/objeto de esta subvención |
Texto |
Nombre del beneficiario |
El nombre del beneficiario |
Texto |
Número de IVA (NIF) |
El número de IVA del beneficiario (NIF) |
Texto |
Importe contratado |
El importe que se contrató al beneficiario |
Numérico |
Número de compromisos presupuestarios |
El número de compromisos presupuestarios que tiene el beneficiario |
Numérico |
Nombre del programa |
El nombre del programa bajo el cual se asignó la subvención |
Texto |
Departamento responsable |
El departamento responsable de la asignación de subvenciones |
Texto |
Fecha de inicio y finalización del proyecto |
La fecha de inicio y finalización del proyecto |
Fecha |
Los datos proporcionan un código de IVA como identificación para las organizaciones, que se puede convertir en un NIF eliminando las dos primeras letras. Alternativamente, se pueden usar los nombres de organizaciones para enlazar. El número de compromisos presupuestarios, objeto de subvenciones o contratos, así como las fechas de inicio y finalización del proyecto son especialmente relevantes para identificar si el beneficiario recibió financiación de la UE para el mismo proyecto que su subvención española. La doble financiación es una práctica fraudulenta cuando el mismo proyecto es financiado más de una vez por diferentes subvencionadores, sin proporcionar información a ambos sobre las aportaciones realizadas por el otro. Por tanto, el proyecto podría implantarse, pero el dinero público adicional desembolsado no se utiliza como se esperaba.
Datos de contratación pública
La última fuente de datos que la IGAE podría valorar vincular con sus conjuntos de datos son los datos de contratación pública nacional. El portal opentender.eu contiene estos datos recopilados de dos fuentes gubernamentales oficiales (el Ministerio de Hacienda y Función Pública y la Plataforma de Contratación), así como el Tender Electronic Daily (TED). Los datos contienen toda la información disponible públicamente sobre licitaciones, contratos, licitadores, contratantes y contratistas necesaria para calcular el indicador de riesgo de corrupción (ver Recuadro 3.1). El directorio de variables relevantes se presenta en la Tabla 3.9.
Tabla 3.9. Directorio de variables (datos de contratación pública)
Variables |
Descripción |
Tipo de variable |
---|---|---|
ID del contratista |
ID única del proveedor |
Texto |
ID del contratante |
ID única del comprador |
Texto |
Nombre del contratista |
Nombre del proveedor que gana el contrato |
Texto |
Nombre del contratante |
Nombre del comprador que convoca la licitación |
Texto |
Numero de ofertas |
Cuántas ofertas se hicieron por licitación |
Numérico |
Tipo de procedimiento |
¿El tipo de procedimiento es abierto o restringido? |
Categórico |
Convocatoria pública |
¿Estaba la licitación a disposición del público? |
Categórico |
Duración de la presentación de la oferta |
La duración entre la fecha de inicio y finalización de presentación de la oferta |
Numérico |
Duración del período de decisión |
La duración entre la fecha de finalización de presentación de la oferta y la decisión |
Numérico |
Conexiones |
¿Existen conexiones registradas entre el contratista y la autoridad de contrataciones? |
Categórico |
Fuente: Platforma de Contratacion https://contrataciondelestado.es/; Portal Institucional Del Ministerio De Hacienda y Funcion Pública: https://www.hacienda.gob.es; Tenders electronic daily: http://ted.europa.eu.
Las ID de contratistas son las mismas que los NIF de los beneficiarios. Por tanto, esta ID se puede utilizar para cruzar datos. De forma alternativa, los nombres de organizaciones, así como los nombres de concedentes, pueden cruzarse con los contratantes o proveedores del conjunto de datos de contrataciones. Para evaluar si los contratos ganados por empresas licitadoras, o las licitaciones efectuadas por contratantes públicos son proclives a la corrupción, se pueden usar indicadores de aproximación (proxies) de corrupción. Por ejemplo, la licitación única en mercados competitivos, el tipo de procedimiento utilizado, la publicidad de la convocatoria de licitaciones, la duración del anuncio de licitación y el período de decisión, así como conexiones entre el contratista y la autoridad de contrataciones. La recopilación de riesgos de corrupción en contrataciones públicas en las actividades de contrataciones de los beneficiarios o concedentes puede arrojar más luz sobre los riesgos de fraude en subvenciones, ya que es verosímil que las organizaciones con riesgo en un dominio también lo sean en un otros dominio relacionado. Esta lógica de análisis se demuestra empíricamente en Recuadro 3.1.
Recuadro 3.1. Cruzar datos de subvenciones de la IGAE con datos de contratación pública (conjunto de datos de opentender.eu)
El indicador de riesgo de corrupción (CRI) muestra la restricción deliberada de la competencia en licitaciones de contratación pública en beneficio de una empresa licitadora vinculada. La metodología de CRI utiliza datos administrativos para calcular las puntuaciones de riesgo de corrupción para cada contrato. Basándose en la metodología desarrollada por (Fazekas y Kocsis 2017), el criterio de selección de indicadores de riesgo de contrataciones es el grado de asociación con una restricción injustificada de la competencia, es decir, licitación única en mercados competitivos. Incluye varios indicadores próximos (proxies) de corrupción además de la licitación única, como el riesgo del tipo de procedimiento cerrado de contrataciones, la falta de publicidad de las licitaciones, el registro de residencia en paraísos fiscales de los proveedores, la dependencia de la autoridad de contrataciones del proveedor (es decir, la captura por el agente) y la duración del anuncio de licitación y los períodos de decisión.
Utilizamos la identificación fiscal (NIF) de los proveedores para ligar el conjunto de datos de subvenciones con el conjunto de datos de contrataciones públicas una vez limpias. Después de limpiar NIFs de entradas sin sentido, las calificaciones de riesgo de fraude de subvenciones se agregaron para cada proveedor y se vincularon directamente con el conjunto de datos de contrataciones. Hubo 103 872 contratos adjudicados a 6 408 contratistas que habían recibido una subvención. La Figura 3.1 muestra la distribución CRI agregada para contratistas subvencionados, sin incluir los contratistas con menos de 3 contratos. Hay una calificación media CRI de 0,55, considerablemente más alta que la media nacional.
Cruzar el conjunto de datos de subvenciones con el conjunto de datos de contrataciones públicas permite obtener conocimientos más profundos sobre las relaciones entre las calificaciones de riesgo. Se han efectuado análisis de regresión lineal y no lineal, incluidos los controles de ubicación del contratante, tipo de contratante, tipo de mercado (sectores CPV), tipo de contrato y año de licitación. Ambos modelos en la Tabla 3.10 muestran una correlación positiva entre las calificaciones de riesgo de corrupción en las contrataciones y los riesgos de fraude en subvenciones. Sin embargo, el modelo 2 parece ajustarse mejor al capturar la no linealidad de esta relación. En la Figura 3.2 mostramos los márgenes predictivos de modelar el CRI en una relación cuadrática con el Riesgo de Fraude de Subvenciones. Estos resultados de regresión simple nos aseguran la validez de ambas calificaciones de riesgo, ya que están alineadas y transmiten un mensaje similar: que las calificaciones de riesgo de corrupción más altas se correlacionan positivamente con riesgos de fraude de subvenciones más altos. Además, la asociación es especialmente fuerte cuando los riesgos de corrupción en contrataciones públicas están por encima de la media de la muestra.
Tabla 3.10. Correlación entre CRI y Riesgo de Fraude de Subvenciones
Variable dependiente |
Riesgo de Fraude de Subvenciones |
|
---|---|---|
Modelo |
(1) |
(2) |
Muestra |
Concedido |
Concedido |
CRI |
0,036*** (0,002) |
-0,014 (0,021) |
CRI^2 |
0,054** (0,024) |
|
Controles |
✔ |
✔ |
Observaciones R2 |
103 151 0,1719 |
103 151 0,1721 |
Notas: La regresión incluye controles para valores de contrato, tipo de contrato, tipo de comprador,
ubicación del comprador, mercado, tipo de contrato y año de licitación. Errores estándar robustos entre paréntesis *** p<0,01, ** p<0,05, * p<0,1.
Fuente: Fazekas, M. y G. Kocsis (2017[1]), «Revelar la corrupción de alto nivel: indicadores de riesgo de corrupción de objetivos transnacionales que utilizan datos de contratación pública». British Journal of Political Science 50 (1): 155–64, http://dx.doi.org/10.1017/s0007123417000461
Ventajas de utilizar múltiples conjuntos de datos
Este capítulo ofrece una descripción detallada de cómo y por qué diferentes conjuntos de datos se pueden vincular a los conjuntos de datos actualmente existentes de la IGAE, con especial atención a los prometedores indicadores de riesgo de fraude habilitados por los nuevos datos. Estos nuevos indicadores detectan principalmente el comportamiento de los actores, en lugar de simples características de antecedentes, lo que permite una evaluación de riesgos mucho más precisa. Sin embargo, el cruce de datos no solo permite calcular nuevos indicadores en una base de datos y vincularlos entre sí, sino también crear nuevos indicadores basándose en múltiples conjuntos de datos. Estos indicadores complejos ofrecen información adicional sobre dimensiones relevantes de riesgo. También representan una medida más robusta del comportamiento del actor, porque varias fuentes que apuntan al mismo comportamiento tienen mayor validez que un solo conjunto de datos.
El uso de múltiples conjuntos de datos es crucial para caracterizar de manera integral comportamientos complejos de fraude, así como para reducir el índice de falsos positivos, que son frecuentes en modelos simples (Fazekas, M., Ugale, G, & Zhao, A., 2019[2]). Combinar varios indicadores derivados de diferentes conjuntos de datos se considera una buena práctica en la medición del riesgo, ya que permite la triangulación de la medición. En otras palabras, permite aumentar la convergencia de validación. Los falsos positivos son omnipresentes en las evaluaciones de riesgo simples, ya que muchos indicadores simplemente apuntan a posibles irregularidades en lugar de fraudes reales. Además, los indicadores de conflicto de interés generalmente utilizados suelen indicar la presencia de un conflicto potencial en lugar de un conflicto real que represente el abuso de una situación para un beneficio personal indebido. Sin embargo, cuando la información sobre conflictos de interés se combina con datos sobre resultados, como acumulación de subvenciones o desempeño financiero anómalo, la combinación de indicadores proporciona una mayor validez al enfoque de medición.
Cruzar conjuntos de datos que representan múltiples dimensiones de relaciones también puede impulsar el uso de análisis avanzados de red de múltiples capas. Estas relaciones de varios niveles pueden abarcar conexiones entre empresas privadas y organizaciones públicas que otorgan subvenciones a través de una variedad de relaciones contractuales, o vínculos entre los propietarios reales de empresas y personas políticamente expuestas que tienen cargos del sector público. Varias conexiones de red establecidas mediante el uso de conjuntos de datos cruzados de gestión a gran escala también permiten realizar un seguimiento de los cambios temporales en las conexiones entre entidades e individuos potencialmente de riesgo, lo que aumenta la sofisticación analítica del modelado de riesgos.
Conclusión
Esta sección ha revisado una amplia variedad de conjuntos de datos adicionales útiles para el conjunto de datos actual de la IGAE. Al hacerlo, estableció una hoja de ruta para la captura de datos y el cruce que optimiza el valor analítico para la IGAE. De los conjuntos de datos revisados, la información empresarial sobre registro, propiedad y finanzas representa el mayor potencial para perfeccionar aún más el modelo de evaluación de riesgo de fraude. Estos conjuntos de datos se pueden cruzar fácilmente con datos internos de la IGAE utilizando las ID de registros empresariales. Además, cruzar datos de contratación pública con datos de subvenciones, también demostrado mediante el análisis de conjuntos de datos fácilmente disponibles, puede añadir un gran valor, ya que 2 conjuntos de factores de riesgo se pueden triangular entre sí para producir una evaluación de riesgo más fiable. Una vez que estos conjuntos de datos de prioridad alta se incorporan a la canalización de datos de la IGAE, también se pueden considerar otros conjuntos de datos, como el registro concursal.
Referencias
[2] Fazekas, M., Ugale, G, & Zhao, A. (2019), Analytics or Integrity: Data-Driven Decisions for Enhancing Corruption and Fraud Risk Assessments, OECD Publishing, Paris, https://www.oecd.org/gov/ethics/analytics-for-integrity.pdf.
[1] Fazekas, M. and G. Kocsis (2017), “Uncovering High-Level Corruption: Cross-National Objective Corruption Risk Indicators Using Public Procurement Data”, British Journal of Political Science, Vol. 50/1, pp. 155-164, http://dx.doi.org/10.1017/s0007123417000461.
Notas
← 1. En algunos casos, se presume que determinada información está presente en los conjuntos de datos de la IGAE. Sin embargo, la confirmación de esto no fue posible debido a la anonimización de la mayoría de las bases de datos.
← 2. El acceso al conjunto de datos está restringido y exige pagar una tarifa por cada organización y recibir un certificado digital. Solo se permite el acceso libre a los datos agregados por sector, año o sector empresarial. La única información disponible a escala empresarial sin restricciones adicionales es el estado de la empresa (operativa o no). Para que la IGAE utilice estos datos, necesitaría obtener acceso total al conjunto de datos completo y actual, ya sea pagando la tarifa de acceso masivo o llegando a un acuerdo especial con el proveedor de datos del gobierno. También existen alternativas públicas de fácil acceso, por ejemplo, opencorporates.com, que es una empresa social privada que tiene como objetivo hacer que todos los datos empresariales sean fácilmente accesibles en todo el mundo.
← 3. Consulte https://docs.librebor.me/python/.
← 4. Debido al acceso restringido a la fuente, no está claro si la información sobre los propietarios efectivos está allí. Sin embargo, está presente en el registro mercantil, por lo que es razonable esperar que también contenga una variable en LibreBOR. En caso de que no lo sea, la información se puede obtener del registro de la empresa después de recibir un certificado electrónico.