avatar

路漫漫其修远兮

GPT驱动网页通用爬虫

GPT-Web-Crawler是一款基于Python和Puppeteer的通用网络爬虫工具,利用GPT技术大幅简化了从网页提取信息的过程。传统的爬虫需要针对每个网站进行特殊配置,而GPT-Web-Crawler则通过简单的几行代码即可实现对网页的抓取和信息提取。这款工具特别适合那些对网络爬虫不熟悉但希望从网页中提取内容的用户。用户只需安装相关包,配置OpenAI API密钥(如果需要使用AI提取内容),即可启动爬虫。该工具支持四种不同类型的爬虫:NoobSpider、CatSpider、ProSpider和LionSpider,分别提供基本信息抓取、截图功能、AI内容提取和图片提取等功能。CatSpider需要安装Puppeteer以实现网页截图功能。爬虫的输出可以是JSON格式,方便转换为CSV文件或导入数据库。

物联网与传感网课程复习笔记

物联网(IoT)通过智能感应装置和传输网络,实现物与物、人与物之间的信息交互。其特征包括全面感知、可靠传递和智能处理。物联网的概念模型由感知层、网络层和应用层组成,各自承担识别、连接和应用的功能。传感器数据具有海量性、多态性、关联性和语义性等特点,支持多种无线感知方法,包括传统感知和智能无线感知。 无线局域网(WLAN)由站点、无线接入点、无线介质和分布式系统组成,面临隐藏终端和暴露终端等经典问题。CSMA/CD协议因无法在无线环境中检测碰撞而不适用,取而代之的是CSMA/CA协议,通过优先级确认和随机后退算法避免冲突。 无线传感网(WSN)由传感器节点、汇聚节点和管理节点组成,节点特征包括有限的电源、计算和通信能力。传感网的体系结构分为层次体系和分簇体系,数据分发和搜集旨在优化能量消耗和延迟。 定位技术分为基于测距和无需测距两类,前者包括RSS、TOA/TDOA等方法,后者如质心算法和DV-HOP。时间同步在传感网中至关重要,常用的同步机制有NTP、RBS和TPSN。 工业互联网在互联网基础上推动实体经济的升级,与工业4.0共同促进制造业的智能化。数字孪生五维模型通过物理实体、虚拟实体、服务、网络连接和孪生数据实现对物理设备的优化。物联网、大数据、云计算和人工智能相互支撑,共同推动技术进步。

魔改Hexo-Aurora主题

Aurora主题由三钻开发,是一款美观的Hexo主题,但在功能性上存在一些不足,尤其是在小屏幕上的阅读体验不佳。为此,本文介绍了Aurora-s的魔改版本,旨在提高展示密度和优化阅读体验。魔改内容包括: 加载动画:为避免首次加载时间过长导致页面空白,添加了一个纯代码实现的加载动画,开销小且有效。 更小的间距:缩小1-6级标题、引用块等样式之间的间距,提高内容展示密度。 标题样式调整:一级和二级标题居中,视觉效果更匀称,二级标题下方色条更细,1-6级标题字号均降一级。 图片缩放:将图片宽度调整为72%,居中显示,防止小图片占用过多空间。 代码复制功能:在代码块右上角添加代码复制功能,提升用户体验。 菜单栏收窄:阅读时将菜单栏收窄,提高阅读面积。 页脚修改:去除页脚上方色条,调整文字顺序,添加PV和UV提示文字,去除右侧头像。 对于使用过Aurora的用户,只需卸载旧插件并安装新主题,更新配置文件即可。未使用过Aurora的用户则需按照步骤安装Aurora-s主题和插件,并下载配置文件模板进行配置。

GithubWebhook解析服务

Webhook是一种基于HTTP的回调函数,用于在两个API之间实现轻量级的事件驱动通信。本文介绍了如何利用Webhook实现自动化消息推送,特别是通过Flask解析和转发CloudFlare和Github的Webhook消息到企业微信。Webhook的优点在于其实现简单,支持自动化,但由于缺乏统一的协议规范,不同平台的参数定义可能不同。本文以Github Webhook为例,展示了如何根据事件类型解析消息,并将其转发到企业微信。对于CloudFlare Webhook,消息体较为简单,易于解析。Github Webhook则提供了丰富的事件信息,需要根据具体需求进行解析。本文提供了详细的代码示例,展示了如何处理不同类型的Github事件,如push、issue、pull request等,并将解析后的信息推送到企业微信。通过配置服务端和Github,用户可以在历史记录中查看详细的推送信息。本文还提供了相关的参考文档链接,帮助读者深入了解Webhook的使用。

保研文书模板

King of Pigeon项目是一个提供计算机保研文书模板的资源,尽管原作者已删除其GitHub仓库,但这些模板仍然对学生有帮助。项目中包括简历、推荐信、套磁信等模板,帮助学生在申请研究生时更好地展示自己。简历部分提供了模板下载链接,并给出了一些制作简历的建议,如使用PPT制作简历、选择合适的照片背景、调整字号和间距等。强调在简历中要扬长避短,突出科研、竞赛、项目经历,避免列出含金量不高的奖项,使用‘等’字来模糊不重要的内容,并通过排版来制造内容丰富的假象。推荐信部分提供了请求推荐信的模板,以及如何感谢老师的模板,还包括任课老师和科研导师的推荐信模板,展示了如何通过推荐信来突出学生的优点和科研潜力。套磁信部分提供了与导师联系的模板,强调自我介绍、科研经历和对导师研究方向的兴趣。文章还幽默地讨论了如何处理放弃offer的情况,以及如何在节假日向老师和同学表达祝福。整体而言,King of Pigeon项目提供了丰富的文书模板和建议,帮助学生在保研过程中更好地展示自己。

保研经验帖

这篇文章记录了一名末流211计算机学院大数据专业学生在多个夏令营和预推免中的经历。作者详细描述了参加吉林大学、南京大学、中国人民大学高瓴人工智能学院、中南大学和东南大学等五个夏令营的过程。每个夏令营都有不同的考核方式,包括笔试、面试、机试等,作者分享了自己在这些考核中的表现和感受。 在吉林大学软件学院的夏令营中,考核包括自我介绍、试题回答和专家提问,涉及英语、计算机网络、操作系统和项目目标等问题。南京大学的夏令营则包括初筛、在线考试、机试和面试,在线考试内容广泛,涉及多个计算机相关领域。 中国人民大学高瓴人工智能学院的夏令营给作者留下了深刻印象,考核包括笔试和面试,笔试内容涵盖数据结构、算法、英语和数学,面试则包括自我介绍、项目困难和解决方案等问题。中南大学大数据研究院的夏令营包括笔试、机试和英语+PPT面试,考核内容相对简单。 东南大学的夏令营流程较为简单,仅有面试,作者准备了PPT进行介绍,并回答了项目创新点和研究进展等问题。 在预推免阶段,作者参加了浙江大学、西安交通大学和中科院计算所的面试。浙江大学的数据科学项目面试包括自我陈述、专业知识问答和思想考核,西安交通大学的人机所面试则采取了群面的形式。 文章最后总结了2023年保研形式的变化,包括线上转线下、保研名额增长、强基转段和国优计划等,并建议学生尽早联系导师和准备材料。
0%