在做毕设的多模态大模型微调时,我遇到了一个很奇怪的问题:模型明明已经给出了正确回答,却会在正确回答后紧接着输出一大段乱码。
经探索发现:这一问题的根源是结尾符(EOS Token)的输出问题。大语言模型的推理以自回归概率输出为基础,判断回答结束的方法也是识别到输出结果中的结尾符,而Qwen base模型的微调过程中正会出现与之相关的问题,导致了本文所述现象的发生。本文将探讨这一问题的原因和解决方案。
在做毕设的多模态大模型微调时,我遇到了一个很奇怪的问题:模型明明已经给出了正确回答,却会在正确回答后紧接着输出一大段乱码。
经探索发现:这一问题的根源是结尾符(EOS Token)的输出问题。大语言模型的推理以自回归概率输出为基础,判断回答结束的方法也是识别到输出结果中的结尾符,而Qwen base模型的微调过程中正会出现与之相关的问题,导致了本文所述现象的发生。本文将探讨这一问题的原因和解决方案。
“AI Agent编写代码+人工审阅批准”的Vibe Coding流程,已经逐渐成为了我日常工作流中极其重要的一部分,然而吃饭、睡觉、外出活动的间隙,仍然不可避免地要离开电脑屏幕前。俗话说打工人得休息,但AI Agent却是可以在后台替我们完成工作、推进进度的。如何填补这一空缺,让我们不在屏幕前时也能监控、审阅本地电脑的Agent的工作结果,并进一步发出指令?
在学界业界,为解决这一问题,Claude Code、Codex等都纷纷拥抱命令行(Cli)化,也出现了happy等开源项目为其提供手机端和Web端。但就我的日常工作流而言,审阅代码、文件仍然占一大部分,因此仍然依赖Cursor这样的IDE内置AI Agent。Cursor Cli推出后,通过手机端操控本地PC的Cursor AI Agent成为了可能,本篇文章记录实现这一思路的探索历程。
上一学期,我在期末周前为了数据分析课程的结课项目,花大时间服务器部署、本地访问大模型。现在终于有时间整理出来。
这个项目中,我试图部署一个表格大模型,用于解析不同结构的表格信息、汇总为统一的格式。幸运的是,去年十一月份浙大开源了TableGPT2大模型及其Agent(相关介绍和体验将在另一篇文章呈现),让我有合适现成的模型可以使用;不幸的是,我可能也是全网第一篇尝试部署该模型的人,没有任何先例可供参考。
诚然,在一开始探索部署它的过程中,我确实在摸索中走了许多错路,但好在最后发现了VLLM的部署过程是共通的,并由此摸索出一条蹩脚的路径,本文将予以阐述。
最后,还要再Thanks to ChatGPT,作为我构建Agent的Agent,陪我走过了摸黑探路的过程。
使用Python爬虫,基于本地IP直接向网站发送请求以爬取数据时,可能由于网站的反爬措施而导致IP封禁。特别是在课堂演示等场景下,多台主机多次在同一IP发送请求,很难不出现这样的问题。这里以豆瓣电影Top250的爬取为例,对问题进行解析,并提供一种基于IP代理的解决方案。
这两天刚刚考完三科专业课,打开博客后台,却发现评论激增到400余条。结合之前的异常评论,才发现我的服务器正在以一个固定的频率接受一个陌生IP的无意义评论请求,貌似是Ddos攻击。这让我十分疑惑:“攻击者”是谁?“攻击者”的目的是什么?如何防范?