三月过半的总结
三月份同时在推进多个项目,工作和生活上有点’顾头不顾腚’ 。过多的项目推进失衡,导致心理上有点倦怠感。 回顾一下最近半个月的工作:
- 数据治理双周报总结, 数据集市双周报总结,连续发了两次。
- 大模型项目每周汇报,治理每周也有周报。
- 数据治理工具沟通交流2次。
- 虚拟数字人厂商沟...
多头汇报,多项工作带来的工作生活失衡
三月份同时在推进多个项目,工作和生活上有点’顾头不顾腚’ 。过多的项目推进失衡,导致心理上有点倦怠感。 回顾一下最近半个月的工作:
重启减肥计划
2024农历年过完了,也长肉2公斤,需要尽快进行减肥了。最近三四年,体重像是过山车一样有规律的波动,最低到68公斤,最高到78公斤。减下去了后,又逐步放松,坚持运动的习惯一旦被打破,体重又回升。今年重新制定减肥的计划,这次要再一次的探底,目标定为65公斤。这次的减肥计划,我会从饮食、运动、睡眠三个方面综合调整。
饮食方面:
<...... Read More数据治理工作复盘
转眼间转型投入到数据治理有一年时间半。从被动的接收监管质量的问题,到主动介入客户信息系统的治理,这一年半也是治理菜鸟的成长过程。自我评价这一年的数据治理工作:在有限人力投入的情况下,算是略有收获。至少存量的客户信息系统的数据质量得到了改善,关键数据完成了同步,确定了更新规则。监管的数据质量得到了提升,从倒数第一也提升了几个名次。但是在领导看来,我们算是没有啥亮眼产出。
如......
Read More工作生活随笔
2023年陈亚军同学邀请我们去无锡多次周末游,本周难得有机会和亚军、海鸿同学一起在火锅店小聚一下。缘分起于金服的工作时间,海鸿做大数据风控、亚军做数据库和BI。转眼间五六年过去了,虽然不在同一家公司了,但是大家仍在在各自的赛道上奔跑着。
许久不见,大家从当前各自的工作状态,聊到了曾经一起经历的金服时光。海鸿从乙方视角看当前给金融机构服务公司服务时的关键收获:“金融落地场景......
Read More基于 AI 的全栈构建体验
周四晚上,接到安乐的一个请求:"郑博,能否帮我建设一个网页能够查大概 20 万条左右的数据。这个功能很简单,公司内上线要排期,还是内网,使用不方便。"
刚好,最近在折腾自己的阿里云服务器,除了写博客,应该还能再让它发挥点价值。在 ChatGPT 的帮助......
Read MorePelican markdown 文件中加载图像的位置问题
写博客的时候,一直没有加图像的东西。 今晚在总结一个项目的时候, 遇到的找不到图像路径的问题。
最终解决掉了:
主要原因在于 pelican 中 markdown的文件路径,不要加载 html 元素
。
我是想让图像居中展示, 画蛇添足,增加了
<......
Read More
大模型的数据准备工作总结
数据预处理工作的经验总结
近期接手了一个任务:使用大模型对客户进行画像总结。这个任务涉及多方面的数据汇总和加工处理工作。
- 客户在行内的的金融产品信息,覆盖申请、提款、逾期等
- 客户的企业基本信息
- 客户的个人征信信息
- 企业的征信信息
- 外部信息(如企查查信息)
- 短信、电话记录等
<......
Read More
数据治理工具交流的一些思考
数据治理工具思考总结
治理工具的思考
近期在调研业界数据治理的工具,期望在24年的数据治理工作中,能够通过一些工具或者技术手段解决目前银行的一些治理痛点问题。 目前的主要痛点体现在哪里呢?数据治理工作没有深入到前台业务系统的数据模型开发过程中,无法有效的管控新增的业务设计的数据模型是否遵守数据标准。当大数据后端发现问题时,已经为时已晚,要投入的改造成本巨大。
前期的处理手段:......
Read More
大模型提示词工程遇到的问题 - 幻觉
提示词工程构建过程中遇到的幻觉问题
最近两天使用千问14B模型,构建客户信息的总结摘要。在这个过程中,要求将word文档中的结构化数据(表格),进行归纳总结。
如果不明确的提取指定表格的内容,而是按照行数据进行读取,让模型根据理解来提取数据,存在数据提取出错的问题。
经过对比发现,存在将A场景的数据赋予到B项的内容里面,造成总结的结论有问题。
如何优雅的解决单篇内容内的幻觉问题?
我的一些实践......
Read More
CodeShell大模型训练交流总结
CodeShell交流活动总结速记
CodeShell 参会总结
四川天府银行成立于2001年。现有员工2043人,下设10家省内外分行、119家营业机构;设立4家村镇银行、1家贷款公司、1家金租公司。该公司于2023年4月份开始和北京大学知识计算实验室叶蔚教授合作,开展多语言代码大模型基座研究工作。目前发布了CodeShell-7B代码大模型。CodeShell具有70亿参数,在五千亿Tokens进行......
Read More
数据开发效率和有限算力的冲突问题
数据开发流程优化
数据治理工作随想 - 数据开发效率和有限算力的冲突问题
背景:
银行的大数据平台算力有限,再加上数据探查分析人员使用SQL查询的习惯不够严谨,经常全表扫描,导致大数据平台的算力被占用完,影响到数据开发人员的工作效率。为解决这一问题,数据算力管理团队提出了上缴所有任务发布的权限。
数据开发团队的数据报表产出需要和系统做联调,但是和传统的软件开发不同,数据的测试工作是在生产环......
Read More
Prompt使用总结
提示词工程实践总结 - 像写代码一样写提示词
近期在尝试使用提示词来实现一个周报摘要的生成。在处理过程中,不同的提示词带来的效果区分明显。
本次博客记录Prompt的优化总结。
Prompt使用原则
基本原则:
- 编写清晰具体的指令
- 给模型充足的思考时间
编写清晰具体的指令:
避免提......
Read More
- 1
- 2