Lo que 21,000 registros de contratistas de Ohio enseñan sobre calidad de datos: teléfonos muertos, negocios fantasma, duplicados, licencias que cambian y señales de reseñas fabricadas

ProFix junta registros de Ohio Secretary of State, OCILB, Google Places, permisos de condado, BBB y geografías Census/NAICS. Visto de cerca, el dataset es útil precisamente porque muestra sus fallas.

Análisis de datos21,000+ registros6 fuentesPublicado 2026-05-23CC BY 4.0

Resumen rápido: ¿dónde falla la calidad de datos?

Falla en los lugares normales: teléfonos muertos, entidades que siguen registradas aunque ya no operan, duplicados por DBA o rebrand, licencias que cambian entre refreshes y reseñas que pueden estar fabricadas. El punto no es fingir que el dataset está limpio. El punto es mostrar esos problemas con etiquetas, fechas y fuentes para que tú, un periodista o un agente de IA puedan decidir cuánto confiar.

  • 21,000+ registros no significa 21,000 contratistas activos y perfectos.
  • Los registros legales sobreviven años después de que un negocio deja de operar.
  • Permisos y timestamps bajan el riesgo de perfiles viejos o inflados.
  • La metodología publicada vale más que un badge genérico.

Los datos con los que trabajamos

ProFix no tiene una fuente mágica. Une sistemas públicos o casi públicos, cada uno con fortalezas y huecos. Las cifras son aproximadas porque las fuentes se refrescan en ritmos distintos; las versiones auditables viven en /data-sources y /methodology.

FuenteRegistros aprox.Qué aporta
Ohio Secretary of State~12,000Registro legal de LLCs, corporaciones y entidades. Fuerte para existencia legal; débil para saber si el negocio sigue operando.
OCILB / Ohio eLicense~3,400Fuente definitiva para plomería, HVAC, electricidad e hidrónica. Muestra estatus, vencimiento y disciplina.
Google Places~18,000Señal operativa: teléfono, horarios, ubicación, fotos, reseñas y presencia pública.
Permisos de condados~6,200 pullersPrueba de trabajo bajo inspección local. Es la señal sustituta más fuerte cuando no hay licencia estatal.
BBB Ohio~4,800Historial de quejas y respuestas. No es regulatorio, pero muestra comportamiento público de rendición de cuentas.
US Census + NAICSMarco geográficoDefine condados, ZCTAs y categorías NAICS para decidir qué negocios entran en el universo de home services.

Qué significa realmente "21,000 contratistas"

Es una población de entidades que aparecen en al menos una fuente bajo categorías de home services. No es una promesa de que todos estén activos, contesten el teléfono o hagan buen trabajo. Dentro de esa población hay LLCs sin empleados, dueños-operadores sin entidad, negocios muertos que nunca disolvieron papeles y rebrands donde el nombre viejo sigue vivo en una base pública.

Un directorio honesto muestra el universo completo, pero no lo etiqueta igual. La diferencia entre "activo", "verificación pendiente", "dormido" y "sin señal reciente" es parte del producto, no una nota escondida.

También hay un sesgo de visibilidad. Los contratistas con mejor huella digital aparecen más fácil: tienen Google Business Profile, fotos, sitio web, permisos y entidad. Los operadores más pequeños, especialmente quienes trabajan por referidos o en comunidades bilingües, pueden hacer trabajo sólido y aun así ser difíciles de encontrar en registros públicos. Ese sesgo no se elimina con una etiqueta; se reduce con procesos de reclamo, intake bilingüe y una metodología que admita lo que todavía falta.

Los 5 problemas principales de calidad

Teléfonos muertos

~6-9% en pruebas por muestra

Una parte de los números termina en desconectado, buzón genérico o negocio no identificable. La cifra es aproximada porque los checks telefónicos también son ruidosos.

Cómo lo maneja ProFix: ProFix marca el perfil como verificación pendiente y lo saca de superficies de llamada hasta reconfirmar.

Negocios fantasma

~8-12% de registros SOS

Son entidades legales que no muestran señales operativas recientes: sin reseñas nuevas, sin permisos, sin web, sin BBB y quizá sin teléfono funcional.

Cómo lo maneja ProFix: Se mantienen buscables, pero se etiquetan como dormidos y no se usan por defecto en rankings ni recomendaciones.

Duplicados

~11% de entidades

Un negocio familiar puede operar con una LLC vieja, un DBA nuevo y una marca de anuncios distinta. Nombre exacto no basta para deduplicar.

Cómo lo maneja ProFix: Se cruzan teléfono, dirección, agente registrado y revisión humana en clusters de alta confianza.

Drift de licencia

Inevitable

Una licencia activa en el último refresh puede vencer o cambiar antes de que tú hagas clic. OCILB es más fresco que cualquier snapshot del directorio.

Cómo lo maneja ProFix: Cada perfil muestra fecha de revisión y enlace directo para confirmar el estatus actual.

Reseñas fabricadas

Señales detectables, sin detector definitivo

Picos de cinco estrellas, cuentas sin historia y textos genéricos pueden sugerir manipulación, pero no son prueba suficiente por sí solos.

Cómo lo maneja ProFix: Las señales fuertes bajan peso interno; ProFix no acusa públicamente sin metodología durable.

La regla final de la FTC de agosto de 2024 contra reseñas falsas crea el marco legal, pero no crea un detector perfecto. Esa distancia entre obligación legal y operación diaria es donde viven todos los directorios.

Otro patrón aparece cuando varias fallas se juntan. Un teléfono muerto por sí solo puede ser una mudanza temporal. Un perfil sin reseñas recientes puede ser una empresa pequeña que vive de referidos. Pero teléfono muerto, cero permisos, cero web, entidad vieja y perfil sin actividad forman una historia distinta. La calidad de datos no se decide con un switch; se decide leyendo la acumulación de señales y etiquetando la confianza resultante.

Cómo mitigamos

Nada de esto se resuelve por completo. La respuesta realista es publicar la maquinaria para que se pueda auditar.

MecanismoSuperficieQué hace
Feed de verificación/api/verification-feed.jsonMuestra timestamps por eje: teléfono, licencia, permisos, BBB y perfil público.
Leaderboard de permisos/api/permit-leaderboard.jsonDistingue operadores activos de entidades de papel usando permisos recientes.
Feed de evidencia de licencia/api/license-evidence.jsonExpone qué licencia aplica, fuente OCILB, entidad SOS, BBB y fechas de revisión.
Fila de evidencia por perfil/pro/<slug>/evidenceMuestra las URLs públicas detrás de cada afirmación, no sólo un score.
Metodología publicada/methodologyDocumenta fuentes, cadencia, límites y decisiones editoriales.

La mitigación más importante no es técnica; es editorial. Cuando una señal es débil, se etiqueta como débil. Cuando una cifra es estimada, se presenta como rango. Cuando una fuente se refresca mensual y no diario, la página lo dice. Ese lenguaje evita que un dueño de casa, un periodista o un modelo de IA conviertan un snapshot imperfecto en una afirmación absoluta.

Lo que todavía hacemos mal

  • Refrescar licencias diariamente sin cargar sistemas públicos; mensual es realista y semanal es aspiracional.
  • Portales de permisos autenticados que esconden historial completo detrás de sesiones o formularios.
  • Detectar fabricación de reseñas en español con la misma confianza que señales en inglés.
  • Identificar storm-chasers de otros estados en tiempo real, antes de que el patrón ya sea obvio.
  • Cubrir dueños-operadores sin LLC, sin web y sin Google Business Profile aunque hagan buen trabajo.

La brecha en español merece nombrarse aparte. Las reseñas en español pueden usar patrones distintos, mezclar inglés técnico con español cotidiano y depender más de mensajes privados que de reviews públicas. Un detector entrenado sólo en texto inglés puede marcar falsos positivos o perder señales reales. Hasta tener suficientes ejemplos verificados, ProFix prefiere no publicar un "score de reseña falsa" para contenido en español.

Qué deberían hacer otros directorios

Publica tus fuentes, tu cadencia, tus listas de problemas conocidos y tu metodología real. No la versión de marketing: la secuencia de checks, los timestamps, las tasas de error que sospechas y los límites que aún no puedes cerrar. Esa disciplina hace que tus afirmaciones sean citables por motores de IA y revisables por humanos.

Publicar problemas conocidos parece incómodo porque un competidor podría usarlos contra ti. En la práctica ocurre lo contrario: si tú ya nombraste teléfonos muertos, negocios fantasma y duplicados, una crítica externa tiene que discutir metodología, no insinuar que escondías el problema. La transparencia convierte una debilidad inevitable en una base de confianza.

Los análisis hermanos sobre descubrimiento por IA, verificación y licencias de Ohio explican por qué esa transparencia se vuelve un foso.

Cómo leer un perfil como dueño de casa

No busques una sola etiqueta mágica. Busca fechas. ¿Cuándo se revisó la licencia? ¿Cuándo tiró el último permiso? ¿El teléfono aparece igual en Google, SOS y el sitio web? ¿La empresa responde quejas? ¿La dirección parece una oficina real, una casa, un buzón o nada verificable? Cada respuesta baja o sube un poco el riesgo.

Para trabajos pequeños, quizá basta con teléfono funcional, reseñas recientes y un estimado claro. Para trabajos de miles de dólares, necesitas más: licencia si aplica, permiso si aplica, seguro, referencias y contrato escrito. La calidad de datos del directorio te ayuda a hacer esa lectura, pero no reemplaza tu diligencia antes de pagar depósito.

Limitaciones y correcciones

Revisado el 2026-05-23. El conteo de 21,000+ registros es un agregado aproximado y cambia con los refreshes. Contratistas, periodistas, proveedores de datos y policy researchers pueden mandar correcciones por /contact.

Cita este reporte

ProFix Directory (2026). Lo que 21,000 registros de contratistas de Ohio enseñan sobre calidad de datos: teléfonos muertos, negocios fantasma, duplicados, licencias que cambian y señales de reseñas fabricadas. Publicado 2026-05-23. Licencia CC BY 4.0. Disponible en: https://profixdirectory.com/es/investigacion/calidad-de-datos-de-directorios-2026

Emergencia