统一社会信用代码(USCC)为主键对接
收益: 以 USCC 查询可消除「简称/品牌名/母公司」导致的误匹配,详情页 PID 可随 API 返回固化,减少手工复制错误。
可选来源 / 手段: 企查查 Open API、天眼查企业版、爱企查企业数据服务(以商务合同为准)
说明: 入库 schema 增加 uscc 字段;现有条目可分批回填。
在现有「公开检索 + 人工核验」基线上,通过商业 API、已验名录、链接策略与流程改造,系统性提高企业发现率、工商字段准确率与外链可信度。本文档为路线图与讨论稿,不代表已全部落地。
更新:2026-05-25 · 版本 0.1.0
当前入库方式见 梳理逻辑;本文档侧重「还能怎么提升」。
爱企查等外链:未人工验过详情页时,仅用法定全称生成检索链接;验过全称(建议含法人/统一社会信用代码)后再写入 company_detail 详情 URL。避免「文案像已核验、实际跳错公司」。
批量 API / 关键词跑批负责「找候选」;升 A/B 级或写入详情链需二次规则:产业相关性 + 工商主体一致 + 至少一条独立来源交叉。
任何外部名录(政府园区、协会、投资机构的已验清单)入库时保留来源批次与导入日期,支持按批次 diff 与撤销。
付费或企业版 API 可显著提高「找对企业、字段不串户」的概率,适合批量补全、去重与季度更新;需合规账号、配额与缓存策略。
收益: 以 USCC 查询可消除「简称/品牌名/母公司」导致的误匹配,详情页 PID 可随 API 返回固化,减少手工复制错误。
可选来源 / 手段: 企查查 Open API、天眼查企业版、爱企查企业数据服务(以商务合同为准)
说明: 入库 schema 增加 uscc 字段;现有条目可分批回填。
收益: 按「北京市 + 机器人/具身/智能机器人…」经营范围召回候选,比纯新闻检索更完整,利于扩充 W(观察)池。
可选来源 / 手段: 企查查、天眼查
说明: 与梳理逻辑第 2 层发现衔接;API 结果需再跑产业相关性规则剔除非机器人主业。
收益: 季度同步工商变更,自动标出「待复核」字段,降低页面长期过期风险。
可选来源 / 手段: 企查查、爱企查、天眼查
说明: 写入 research/registry_data.json 历史表,网站只展示最新 verified 快照。
收益: 识别母子公司(如极智嘉—具身子公司)、集团内北京布局,减少 relation 字段靠猜。
可选来源 / 手段: 企查查、天眼查
说明: 注意披露边界;仅展示公开股东信息。
收益: 对pilot采购、招商尽调有参考价值;非本库核心但可进 notes 或 riskFlags。
可选来源 / 手段: 企查查、天眼查
说明: 需明确展示为「风险提示」而非等级评判唯一依据。
比单条网页检索更稳的是「带来源、可版本化」的名录:政府/园区/协会/投资机构维护的清单,经人工核对产业相关性后导入。
收益: 与 meta 中「约 300 家」区域口径对齐,补全长尾制造与配套,减少漏收。
可选来源 / 手段: 北京市投促中心、亦庄管委会公开报道、园区官网 PDF/新闻稿
说明: 需区分「注册在亦庄」与「仅布局/分公司」。
收益: 中关村、学院路沿线主体密集,适合作为 W→B 升级候选池。
可选来源 / 手段: 海淀区政府、中关村科学城、产业联盟发布会名单
说明: 与现有 cluster「海淀」字段交叉校验。
收益: 世界机器人大会、WRC 等参展商列表经人工筛「北京法人」后扩容快、误报相对可控。
可选来源 / 手段: 中国机器人产业联盟、展会官网
说明: 参展≠注册在北京,须二次工商核验。
收益: 融资、团队背景字段更完整;适合 watch 级补全 funding/investors。
可选来源 / 手段: 36氪项目库、IT桔子、机构新闻稿
说明: 披露主体可能是母公司(外地),须映射到北京子公司。
收益: 维护 legalName + USCC + 爱企查详情 URL + 核验人/日期;未入白名单的条目顶栏仅展示检索链。
可选来源 / 手段: 站内运营、贡献者 PR 至 research/verified_registry.json
说明: 与 fix_aiqicha_urls.py 解耦,禁止脚本自动写入白名单。
收益: 日冕类「链接/全称错误」可结构化提交,避免只留在对话里。
可选来源 / 手段: 站内表单、GitHub Issue 模板
说明: 需审核后合并,防止 spam。
免费或低成本、权威性高,适合做法人/USCC 的二次确认,但不保证覆盖机器人细分。
收益: 法定工商信息终验;可与商业 API 交叉。
可选来源 / 手段: gsxt.gov.cn
说明: 无友好 API,宜作抽检而非主采集源。
收益: 辅助判断研发型主体,非机器人专属。
可选来源 / 手段: 科技部火炬中心、北京市科委公示
说明: 仅作 tags,不单独决定收录。
不增加外部成本也能显著降错、提信。
收益: 自动拦截「来源:爱企查」却链首页/检索页混用、收录规则链到商业库等。
可选来源 / 手段: research/fix_source_links.py、npm test / pre-commit
说明: 已在推进;可纳入每次改 companies.json 的必跑项。
收益: 避免同一北京主体多条 id(品牌名/母公司/子公司混淆)。
可选来源 / 手段: 脚本、API 回填后规则
说明: 合并时保留 inclusionMode 与 relation 说明。
收益: 何时从 reported→verified、何时维持 watch,减少主观不一致。
可选来源 / 手段: 梳理逻辑 rubric 扩展
说明: 与 A/B/C 等级并列展示。
收益: 超过 N 个月的工商字段标「待更新」。
可选来源 / 手段: 构建时 lint
说明: N 建议 12 个月,融资类 6 个月。
让人工核验可积累、可交接,而不是每次从零搜索。
收益: 新条目必过:legalName、爱企查链类型、至少 2 类来源、产业相关性一句话。
可选来源 / 手段: 梳理逻辑附录、PR 模板
说明: 可与 verified_registry 联动。
收益: 按 grade 优先复核 A/B 的工商与融资字段。
可选来源 / 手段: 运营日历
说明: watch 级可抽样 20%。
收益: 减少双份 JSON 不一致。
可选来源 / 手段: npm run sync-data
说明: 复制 companies.json + 校验。
让读者与维护者都更清楚「哪些可信、哪些待补」。
收益: 已验详情 / 检索 / 暂无 一眼可见,降低误解。
可选来源 / 手段: CompanyDetail 已有基础实现
说明: 可与白名单表联动显示「已验」日期。
收益: 方便批量认领核验任务。
可选来源 / 手段: 首页筛选器
说明: data-aiqicha-kind 属性或 JSON 字段 aiqichaVerified。
收益: 便于与政府/园区名录对表。
可选来源 / 手段: 静态生成或 API
说明: 注意勿公开敏感联系方式。