大模型的数据准备工作总结

数据预处理工作的经验总结

近期接手了一个任务:使用大模型对客户进行画像总结。这个任务涉及多方面的数据汇总和加工处理工作。

  1. 客户在行内的的金融产品信息,覆盖申请、提款、逾期等
  2. 客户的企业基本信息
  3. 客户的个人征信信息
  4. 企业的征信信息
  5. 外部信息(如企查查信息)
  6. 短信、电话记录等

要基于上述信息,构建一个完整的客户风险分析报告。

尝试的方法 - ALL In 大模型

最粗暴的方法: 所有的信息一股脑的扔给大模型,由大模型进行总结输出。 遇到的问题:

  1. 输入长度超出模型的限制
  2. 模型的总结没有抓住重点
  3. 模型的输出格式不符合报告要求

解决办法:

  1. 对任务进行细化分解, 比如上述信息在汇总之前,可由大模型针对每一项整理一个摘要总结(针对独立维度的总结分析)。 这样,每个场景的数据量要小很多。 再完成每一项的总结的基础上,进一步的输出综合评估。
  2. 针对模型的总结没有抓住重点的问题,需要和相关业务分析师进一步澄清细节。每个维度,从业务分析角度,关注的重点信息有哪些?优先级是什么样子的。明确每种特征代表的含义是什么?初步建立数据表现->业务含义->业务应对策略的简易逻辑分析链条。
  3. 建立模型输出报告模板。它实际包括三部分内容:
    • 提取每个子摘要的关键信息,利用固定的模型提取关键信息。
    • 根据前面整理的简易逻辑链条,制定分析结论的输出规则
    • 将规则和关键信息相结合,让模型输出推导的结论

以上方式能输出可行的报告吗? 分析人员验证满意度60%。 还存在哪些问题?

  1. 部分数据不准确,大模型幻觉现象,将数据维度信息进行了“张冠李戴”
  2. 部分数据记录数非常多,没有分析出其波动的趋势信息

精细化分析的要求 - 数据表格的解析和字典提取

对于固定的表格数据,包括word文档中的表格,需要做好数据的提取。不直接依赖模型去提取内容。 细节的工作包括:

  1. 读取表格,提取关键字段信息,进行去重、过滤、格式转换等处理。
  2. 对每个客户的记录做时序分析,给出规则,输出分析结论。需要专门设置时序分析的函数,根据函数结果输出分析结论。
  3. 信息进行交叉对比,比如企业提款时间法人变动时间的关联性,如果提款后发生法人变动情况,这属于欺诈范畴。
  4. 进一步和数据分析师交流细化数据分析处理流程的关键要素、业务逻辑含义等

调用大模型进行总结过程中遇到的一个小问题

由于没有考虑输出给大模型的prompt模版和客户详情清单信息的大小,导致模型调用失败。 针对这一个问题的一个小的trick:

  1. 对单客户的所有信息进行汇总时,按时间进行降序排序
  2. 截取信息长度为限定长度,如2048的长度。

这样做的一个缺陷是没有办法覆盖全部的数据,可以优化的方向包括:对客户的信息进行统计后缩减,统计的模版需要人为制定,然后将总结内容作为首行内容补充到汇总的summary中

后续的计划

当前的摘要总结对应的策略分析是针对单场景的,以上的策略知识,如何能够真正灌注到大模型里面,使其更专业的生成分析报告。是后面要思考落地的方向。从外部搜集的信息看,利用知识图谱,建立规则策略推导路径是一个可行的方案。后续调研以下具体实践方案。


comments powered by Disqus