繁忙的三月

多头汇报,多项工作带来的工作生活失衡

三月过半的总结

三月份同时在推进多个项目,工作和生活上有点’顾头不顾腚’ 。过多的项目推进失衡,导致心理上有点倦怠感。 回顾一下最近半个月的工作:

  1. 数据治理双周报总结, 数据集市双周报总结,连续发了两次。
  2. 大模型项目每周汇报,治理每周也有周报。
  3. 数据治理工具沟通交流2次。
  4. 虚拟数字人厂商沟...
Read More
2024年的减肥计划

重启减肥计划

春三月,减肥的季节

2024农历年过完了,也长肉2公斤,需要尽快进行减肥了。最近三四年,体重像是过山车一样有规律的波动,最低到68公斤,最高到78公斤。减下去了后,又逐步放松,坚持运动的习惯一旦被打破,体重又回升。今年重新制定减肥的计划,这次要再一次的探底,目标定为65公斤。这次的减肥计划,我会从饮食、运动、睡眠三个方面综合调整。

饮食方面:

<......

Read More
数据治理工作随笔

数据治理工作复盘

转眼间转型投入到数据治理有一年时间半。从被动的接收监管质量的问题,到主动介入客户信息系统的治理,这一年半也是治理菜鸟的成长过程。自我评价这一年的数据治理工作:在有限人力投入的情况下,算是略有收获。至少存量的客户信息系统的数据质量得到了改善,关键数据完成了同步,确定了更新规则。监管的数据质量得到了提升,从倒数第一也提升了几个名次。但是在领导看来,我们算是没有啥亮眼产出。

如......

Read More
小聚随笔

工作生活随笔

2023年陈亚军同学邀请我们去无锡多次周末游,本周难得有机会和亚军、海鸿同学一起在火锅店小聚一下。缘分起于金服的工作时间,海鸿做大数据风控、亚军做数据库和BI。转眼间五六年过去了,虽然不在同一家公司了,但是大家仍在在各自的赛道上奔跑着。

许久不见,大家从当前各自的工作状态,聊到了曾经一起经历的金服时光。海鸿从乙方视角看当前给金融机构服务公司服务时的关键收获:“金融落地场景......

Read More
AI 时代的全栈体验

基于 AI 的全栈构建体验

周四晚上,接到安乐的一个请求:"郑博,能否帮我建设一个网页能够查大概 20 万条左右的数据。这个功能很简单,公司内上线要排期,还是内网,使用不方便。"

HTML5任务

刚好,最近在折腾自己的阿里云服务器,除了写博客,应该还能再让它发挥点价值。在 ChatGPT 的帮助......

Read More
Pelican markdown 踩坑记录

Pelican markdown 文件中加载图像的位置问题

写博客的时候,一直没有加图像的东西。 今晚在总结一个项目的时候, 遇到的找不到图像路径的问题。

最终解决掉了: 主要原因在于 pelican 中 markdown的文件路径,不要加载 html 元素。 我是想让图像居中展示, 画蛇添足,增加了

<......

Read More
大模型的数据准备工作总结

数据预处理工作的经验总结

近期接手了一个任务:使用大模型对客户进行画像总结。这个任务涉及多方面的数据汇总和加工处理工作。

  1. 客户在行内的的金融产品信息,覆盖申请、提款、逾期等
  2. 客户的企业基本信息
  3. 客户的个人征信信息
  4. 企业的征信信息
  5. 外部信息(如企查查信息)
  6. 短信、电话记录等
<......

Read More
数据治理工具交流的一些思考

数据治理工具思考总结

治理工具的思考

近期在调研业界数据治理的工具,期望在24年的数据治理工作中,能够通过一些工具或者技术手段解决目前银行的一些治理痛点问题。 目前的主要痛点体现在哪里呢?数据治理工作没有深入到前台业务系统的数据模型开发过程中,无法有效的管控新增的业务设计的数据模型是否遵守数据标准。当大数据后端发现问题时,已经为时已晚,要投入的改造成本巨大。

前期的处理手段:......

Read More
大模型提示词工程遇到的问题 - 幻觉

提示词工程构建过程中遇到的幻觉问题

最近两天使用千问14B模型,构建客户信息的总结摘要。在这个过程中,要求将word文档中的结构化数据(表格),进行归纳总结。 如果不明确的提取指定表格的内容,而是按照行数据进行读取,让模型根据理解来提取数据,存在数据提取出错的问题。 经过对比发现,存在将A场景的数据赋予到B项的内容里面,造成总结的结论有问题。

如何优雅的解决单篇内容内的幻觉问题?

我的一些实践......

Read More
CodeShell大模型训练交流总结

CodeShell交流活动总结速记

CodeShell 参会总结

四川天府银行成立于2001年。现有员工2043人,下设10家省内外分行、119家营业机构;设立4家村镇银行、1家贷款公司、1家金租公司。该公司于2023年4月份开始和北京大学知识计算实验室叶蔚教授合作,开展多语言代码大模型基座研究工作。目前发布了CodeShell-7B代码大模型。CodeShell具有70亿参数,在五千亿Tokens进行......

Read More
数据开发效率和有限算力的冲突问题

数据开发流程优化

数据治理工作随想 - 数据开发效率和有限算力的冲突问题

背景: 银行的大数据平台算力有限,再加上数据探查分析人员使用SQL查询的习惯不够严谨,经常全表扫描,导致大数据平台的算力被占用完,影响到数据开发人员的工作效率。为解决这一问题,数据算力管理团队提出了上缴所有任务发布的权限。 数据开发团队的数据报表产出需要和系统做联调,但是和传统的软件开发不同,数据的测试工作是在生产环......

Read More
Prompt使用总结

提示词工程实践总结 - 像写代码一样写提示词

近期在尝试使用提示词来实现一个周报摘要的生成。在处理过程中,不同的提示词带来的效果区分明显。 本次博客记录Prompt的优化总结。

Prompt使用原则

基本原则:

  1. 编写清晰具体的指令
  2. 给模型充足的思考时间

编写清晰具体的指令:

避免提......

Read More
  • 1
  • 2