郑清正的博客

繁忙的三月

Sun 17 March 2024 • 工作随笔 •

多头汇报，多项工作带来的工作生活失衡

三月过半的总结

三月份同时在推进多个项目，工作和生活上有点’顾头不顾腚’ 。过多的项目推进失衡，导致心理上有点倦怠感。回顾一下最近半个月的工作：

数据治理双周报总结，数据集市双周报总结，连续发了两次。
大模型项目每周汇报，治理每周也有周报。
数据治理工具沟通交流2次。
虚拟数字人厂商沟...

2024年的减肥计划

Fri 16 February 2024 • 健康 •

重启减肥计划

春三月，减肥的季节

2024农历年过完了，也长肉2公斤，需要尽快进行减肥了。最近三四年，体重像是过山车一样有规律的波动，最低到68公斤，最高到78公斤。减下去了后，又逐步放松，坚持运动的习惯一旦被打破，体重又回升。今年重新制定减肥的计划，这次要再一次的探底，目标定为65公斤。这次的减肥计划，我会从饮食、运动、睡眠三个方面综合调整。

饮食方面：

<......

数据治理工作随笔

Tue 30 January 2024 • 数据治理 •

数据治理工作复盘

转眼间转型投入到数据治理有一年时间半。从被动的接收监管质量的问题，到主动介入客户信息系统的治理，这一年半也是治理菜鸟的成长过程。自我评价这一年的数据治理工作：在有限人力投入的情况下，算是略有收获。至少存量的客户信息系统的数据质量得到了改善，关键数据完成了同步，确定了更新规则。监管的数据质量得到了提升，从倒数第一也提升了几个名次。但是在领导看来，我们算是没有啥亮眼产出。

如......

小聚随笔

Sun 21 January 2024 • General •

工作生活随笔

2023年陈亚军同学邀请我们去无锡多次周末游，本周难得有机会和亚军、海鸿同学一起在火锅店小聚一下。缘分起于金服的工作时间，海鸿做大数据风控、亚军做数据库和BI。转眼间五六年过去了，虽然不在同一家公司了，但是大家仍在在各自的赛道上奔跑着。

许久不见，大家从当前各自的工作状态，聊到了曾经一起经历的金服时光。海鸿从乙方视角看当前给金融机构服务公司服务时的关键收获：“金融落地场景......

AI 时代的全栈体验

Sun 14 January 2024 • 个人项目 •

基于 AI 的全栈构建体验

周四晚上，接到安乐的一个请求："郑博，能否帮我建设一个网页能够查大概 20 万条左右的数据。这个功能很简单，公司内上线要排期，还是内网，使用不方便。"

HTML5任务

刚好，最近在折腾自己的阿里云服务器，除了写博客，应该还能再让它发挥点价值。在 ChatGPT 的帮助......

Pelican markdown 踩坑记录

Sun 14 January 2024 • 个人项目 •

Pelican markdown 文件中加载图像的位置问题

写博客的时候，一直没有加图像的东西。今晚在总结一个项目的时候，遇到的找不到图像路径的问题。

最终解决掉了：主要原因在于 pelican 中 markdown的文件路径，不要加载 html 元素。我是想让图像居中展示，画蛇添足，增加了

<......
                Read More




        
                大模型的数据准备工作总结
                Tue 09 January 2024 • LLM • 
 

                数据预处理工作的经验总结
                
                
近期接手了一个任务：使用大模型对客户进行画像总结。这个任务涉及多方面的数据汇总和加工处理工作。

客户在行内的的金融产品信息，覆盖申请、提款、逾期等
客户的企业基本信息
客户的个人征信信息
企业的征信信息
外部信息（如企查查信息）
短信、电话记录等

<......
                Read More
                
        


        
                数据治理工具交流的一些思考
                Fri 05 January 2024 • 数据治理 • 
 

                数据治理工具思考总结
                
                
治理工具的思考
近期在调研业界数据治理的工具，期望在24年的数据治理工作中，能够通过一些工具或者技术手段解决目前银行的一些治理痛点问题。 目前的主要痛点体现在哪里呢？数据治理工作没有深入到前台业务系统的数据模型开发过程中，无法有效的管控新增的业务设计的数据模型是否遵守数据标准。当大数据后端发现问题时，已经为时已晚，要投入的改造成本巨大。
前期的处理手段：......
                Read More
                
        


        
                大模型提示词工程遇到的问题 - 幻觉
                Wed 03 January 2024 • LLM • 
 

                提示词工程构建过程中遇到的幻觉问题
                
                
最近两天使用千问14B模型，构建客户信息的总结摘要。在这个过程中，要求将word文档中的结构化数据（表格），进行归纳总结。
如果不明确的提取指定表格的内容，而是按照行数据进行读取，让模型根据理解来提取数据，存在数据提取出错的问题。
经过对比发现，存在将A场景的数据赋予到B项的内容里面，造成总结的结论有问题。
如何优雅的解决单篇内容内的幻觉问题？
我的一些实践......
                Read More
                
        


        
                CodeShell大模型训练交流总结
                Tue 26 December 2023 • LLM • 
 

                CodeShell交流活动总结速记
                
                
CodeShell 参会总结
四川天府银行成立于2001年。现有员工2043人，下设10家省内外分行、119家营业机构；设立4家村镇银行、1家贷款公司、1家金租公司。该公司于2023年4月份开始和北京大学知识计算实验室叶蔚教授合作，开展多语言代码大模型基座研究工作。目前发布了CodeShell-7B代码大模型。CodeShell具有70亿参数，在五千亿Tokens进行......
                Read More
                
        


        
                数据开发效率和有限算力的冲突问题
                Wed 06 December 2023 • 数据开发 • 
 

                数据开发流程优化
                
                
数据治理工作随想 - 数据开发效率和有限算力的冲突问题
背景：
银行的大数据平台算力有限，再加上数据探查分析人员使用SQL查询的习惯不够严谨，经常全表扫描，导致大数据平台的算力被占用完，影响到数据开发人员的工作效率。为解决这一问题，数据算力管理团队提出了上缴所有任务发布的权限。
数据开发团队的数据报表产出需要和系统做联调，但是和传统的软件开发不同，数据的测试工作是在生产环......
                Read More
                
        


        
                Prompt使用总结
                Tue 05 December 2023 • LLM • 
 

                提示词工程实践总结 - 像写代码一样写提示词
                
                
近期在尝试使用提示词来实现一个周报摘要的生成。在处理过程中，不同的提示词带来的效果区分明显。
本次博客记录Prompt的优化总结。
Prompt使用原则
基本原则：

编写清晰具体的指令
给模型充足的思考时间

编写清晰具体的指令:
避免提......
                Read More
                
        

    
        1
2


 
    
        
            
            
		    
			        
				    
		    


	    

            
                
                    Categories
                    个人项目
                    General
                    工作随笔
                    健康
                    LLM
                    数据开发
                    数据治理
                    Pages
                    关于我
                    
                    
                    
                    Archives
                
            

            
                Receive Updates
                 ATOM
            
            
            
                Contacts