总览

在现有「公开检索 + 人工核验」基线上,通过商业 API、已验名录、链接策略与流程改造,系统性提高企业发现率、工商字段准确率与外链可信度。本文档为路线图与讨论稿,不代表已全部落地。

更新:2026-05-25 · 版本 0.1.0

当前入库方式见 梳理逻辑;本文档侧重「还能怎么提升」。

原则

爱企查链接策略(建议采纳)

默认(安全)
检索页:aiqicha.baidu.com/s?q= + URL 编码后的 legalName(工商全称)
升级为详情页
详情页:仅当人工在爱企查详情页确认全称与条目 legalName 一致(建议核对法人)后写入 company_detail_*
禁止
  • 爱企查首页作为某企业的「工商来源」
  • 脚本根据搜索引擎摘要猜测 company_detail 数字 ID
  • 展示文案写「查看工商信息」但实际跳转第三方商业数据库检索/详情混用

商业工商 API(爱企查 / 企查查 / 天眼查)

付费或企业版 API 可显著提高「找对企业、字段不串户」的概率,适合批量补全、去重与季度更新;需合规账号、配额与缓存策略。

高优先级 工作量:中

统一社会信用代码(USCC)为主键对接

收益: 以 USCC 查询可消除「简称/品牌名/母公司」导致的误匹配,详情页 PID 可随 API 返回固化,减少手工复制错误。

可选来源 / 手段: 企查查 Open API、天眼查企业版、爱企查企业数据服务(以商务合同为准)

说明: 入库 schema 增加 uscc 字段;现有条目可分批回填。

高优先级 工作量:中

经营范围 + 注册地批量筛选

收益: 按「北京市 + 机器人/具身/智能机器人…」经营范围召回候选,比纯新闻检索更完整,利于扩充 W(观察)池。

可选来源 / 手段: 企查查、天眼查

说明: 与梳理逻辑第 2 层发现衔接;API 结果需再跑产业相关性规则剔除非机器人主业。

中优先级 工作量:低—中

法人、注册资本、参保人数定时 diff

收益: 季度同步工商变更,自动标出「待复核」字段,降低页面长期过期风险。

可选来源 / 手段: 企查查、爱企查、天眼查

说明: 写入 research/registry_data.json 历史表,网站只展示最新 verified 快照。

中优先级 工作量:中

股东与融资链图谱

收益: 识别母子公司(如极智嘉—具身子公司)、集团内北京布局,减少 relation 字段靠猜。

可选来源 / 手段: 企查查、天眼查

说明: 注意披露边界;仅展示公开股东信息。

低优先级 工作量:低

司法/经营异常风险标签

收益: 对pilot采购、招商尽调有参考价值;非本库核心但可进 notes 或 riskFlags。

可选来源 / 手段: 企查查、天眼查

说明: 需明确展示为「风险提示」而非等级评判唯一依据。

已人为核验的企业名录(扩充与纠偏)

比单条网页检索更稳的是「带来源、可版本化」的名录:政府/园区/协会/投资机构维护的清单,经人工核对产业相关性后导入。

高优先级 工作量:中

北京经开区(亦庄)机器人/智造企业名录

收益: 与 meta 中「约 300 家」区域口径对齐,补全长尾制造与配套,减少漏收。

可选来源 / 手段: 北京市投促中心、亦庄管委会公开报道、园区官网 PDF/新闻稿

说明: 需区分「注册在亦庄」与「仅布局/分公司」。

高优先级 工作量:中

海淀区具身智能/机器人专项清单

收益: 中关村、学院路沿线主体密集,适合作为 W→B 升级候选池。

可选来源 / 手段: 海淀区政府、中关村科学城、产业联盟发布会名单

说明: 与现有 cluster「海淀」字段交叉校验。

中优先级 工作量:低—中

行业协会与展会参展商名录

收益: 世界机器人大会、WRC 等参展商列表经人工筛「北京法人」后扩容快、误报相对可控。

可选来源 / 手段: 中国机器人产业联盟、展会官网

说明: 参展≠注册在北京,须二次工商核验。

中优先级 工作量:中

投资机构 portfolio 已披露名单

收益: 融资、团队背景字段更完整;适合 watch 级补全 funding/investors。

可选来源 / 手段: 36氪项目库、IT桔子、机构新闻稿

说明: 披露主体可能是母公司(外地),须映射到北京子公司。

中优先级 工作量:低

本库「已验详情」白名单表

收益: 维护 legalName + USCC + 爱企查详情 URL + 核验人/日期;未入白名单的条目顶栏仅展示检索链。

可选来源 / 手段: 站内运营、贡献者 PR 至 research/verified_registry.json

说明: 与 fix_aiqicha_urls.py 解耦,禁止脚本自动写入白名单。

低优先级 工作量:低—中

用户反馈与纠错队列

收益: 日冕类「链接/全称错误」可结构化提交,避免只留在对话里。

可选来源 / 手段: 站内表单、GitHub Issue 模板

说明: 需审核后合并,防止 spam。

政府开放数据与标准名录

免费或低成本、权威性高,适合做法人/USCC 的二次确认,但不保证覆盖机器人细分。

中优先级 工作量:中

国家企业信用信息公示系统

收益: 法定工商信息终验;可与商业 API 交叉。

可选来源 / 手段: gsxt.gov.cn

说明: 无友好 API,宜作抽检而非主采集源。

低优先级 工作量:低

高新技术企业/专精特新公示名单

收益: 辅助判断研发型主体,非机器人专属。

可选来源 / 手段: 科技部火炬中心、北京市科委公示

说明: 仅作 tags,不单独决定收录。

库内数据质量机制

不增加外部成本也能显著降错、提信。

高优先级 工作量:低

来源名与 URL 一致性校验(CI)

收益: 自动拦截「来源:爱企查」却链首页/检索页混用、收录规则链到商业库等。

可选来源 / 手段: research/fix_source_links.py、npm test / pre-commit

说明: 已在推进;可纳入每次改 companies.json 的必跑项。

高优先级 工作量:中

去重:法人 + USCC + 注册地址模糊匹配

收益: 避免同一北京主体多条 id(品牌名/母公司/子公司混淆)。

可选来源 / 手段: 脚本、API 回填后规则

说明: 合并时保留 inclusionMode 与 relation 说明。

中优先级 工作量:低

置信度升级规则文档化

收益: 何时从 reported→verified、何时维持 watch,减少主观不一致。

可选来源 / 手段: 梳理逻辑 rubric 扩展

说明: 与 A/B/C 等级并列展示。

中优先级 工作量:低

字段级来源日期强制

收益: 超过 N 个月的工商字段标「待更新」。

可选来源 / 手段: 构建时 lint

说明: N 建议 12 个月,融资类 6 个月。

流程与协作

让人工核验可积累、可交接,而不是每次从零搜索。

高优先级 工作量:低

入库检查清单(Checklist)

收益: 新条目必过:legalName、爱企查链类型、至少 2 类来源、产业相关性一句话。

可选来源 / 手段: 梳理逻辑附录、PR 模板

说明: 可与 verified_registry 联动。

中优先级 工作量:低

季度复核排期

收益: 按 grade 优先复核 A/B 的工商与融资字段。

可选来源 / 手段: 运营日历

说明: watch 级可抽样 20%。

低优先级 工作量:低

research/ 与 website/ 同步脚本一键化

收益: 减少双份 JSON 不一致。

可选来源 / 手段: npm run sync-data

说明: 复制 companies.json + 校验。

站点产品化

让读者与维护者都更清楚「哪些可信、哪些待补」。

中优先级 工作量:低

企业页展示爱企查链类型徽章

收益: 已验详情 / 检索 / 暂无 一眼可见,降低误解。

可选来源 / 手段: CompanyDetail 已有基础实现

说明: 可与白名单表联动显示「已验」日期。

中优先级 工作量:中

按「待补详情」「仅检索」筛选

收益: 方便批量认领核验任务。

可选来源 / 手段: 首页筛选器

说明: data-aiqicha-kind 属性或 JSON 字段 aiqichaVerified。

低优先级 工作量:低

导出 CSV(含 USCC、来源 URL)

收益: 便于与政府/园区名录对表。

可选来源 / 手段: 静态生成或 API

说明: 注意勿公开敏感联系方式。

分阶段路线图

  1. 短期(0–1 个月)

    • 采纳爱企查链接策略:未验详情一律 legalName 检索链
    • 跑通 fix_source_links 进 CI
    • 建立 research/verified_registry.json 白名单(人工维护)
  2. 中期(1–3 个月)

    • 评估并采购一家工商 API(建议以 USCC 查询为核心选型指标)
    • 导入 1–2 份政府/园区已验名录,补全 W 池
    • USCC 字段回填与去重规则上线
  3. 长期(3–6 个月)

    • 季度工商 diff + 待复核队列
    • 经营范围关键词 API 跑批与产业规则引擎
    • 用户纠错通道与公开 changelog

成本与合规注意