avatar

路漫漫其修远兮

向量数据库对比:Weaviate、Milvus和Qdrant

RAG系统的成功在很大程度上取决于其高效地获取和处理海量信息的能力。向量数据库又在其中发挥了不可替代的作用,并构成了RAG系统的核心。向量数据库专门用于存储和管理高维向量数据,它们能把文本、图像、音频甚至视频转换为向量并存储(这一点将在后文中详细阐述)。RAG系统最终能实现的效果就取决于这些底层向量数据库的表现。 在众多向量数据库和向量库中,每个都有自己的一些特点,选择一个适合自己应用场景的也需要经过评估。本文中将深入探讨选择向量数据库用于RAG时需要考虑的关键因素,包括开源可用性、CRUD(增删

从AI知识库到RAG

在构建AI应用时,会遇到“AI并未见到过任务中数据的问题”。比如对于企业来说,AI无法掌握每个客户的资料;对于个人来说,AI对一些个人信息、隐私信息不甚了解。即使AI能力很强(理想的世界模型也不例外),缺少具体任务的数据后,就失去了”具体问题具体分析“的能力。 什么是RAG通过检索外部资料来提高生成式AI模型的准确性和可靠性,就是检索增强生成技术(Retrieval-Augmented Generation)。如果把大语言模型(LLM)完成任务的过程比作考试,那么有RAG的大模型就相当于是开卷考试,

stderr和stdout:理解日志与输出

标准输出(stdout)与标准错误(stderr)这两个概念虽然简单,但在日志记录、错误处理和数据流管理中扮演着核心角色。本文将探讨stdout和stderr的区别和应用,尤其是在Python环境中如何有效地使用它们。 标准输出(stdout)与标准错误(stderr)在大多数操作系统中,标准输出和标准错误是进程的两个主要输出流。它们提供了一种机制,使得进程可以将信息和错误消息发送到终端或文件。虽然这两个流在物理上可能相同(例如,都显示在同一终端界面上),但它们在逻辑上用于不同的目的: 标准输出(s

网页长截图自动分割工具

背景当需要分享或分析网页内容时,长截图是一种非常实用的形式,它能够完整地展示页面。然而,处理这些长截图时,如何保持其信息的完整性和可读性,同时方便进行后续操作,一直是一个挑战。比如目前(2024年初)市面上主流的AI图像模型,仍然不能处理很大、很复杂的图片,如果强行把一张长截图输入模型,就会导致模型输出的性能变差(很多细节无法被识别到)。为了解决这个问题,我开发了一款基于OpenCV的工具,旨在简化长截图的处理过程,同时保持其内容的完整性和可读性。 这个项目已在我的Github开源:https:/

GPT驱动网页通用爬虫

GPT为首的语言模型彻底改变了爬虫的写法。以前可能对每个网站的爬虫都需要进行特殊的配置或处理(每个网站都有自己独特的结构),才能提取到想要的信息。但通过GPT,一个爬虫提取所有网站上自己想要的信息,就不是不可能。为此我写了一个在爬取过程中使用gpt提取信息的通用爬虫,并开源在了Github上。 介绍GPT-Web-Crawler 是一个基于python和puppeteer的网络爬虫,可以爬取网页并从网页中提取内容(包括网页的标题,url,关键词,描述,所有文本内容,所有图片和截图)。它使用起来非常简

物联网与传感网课程复习笔记

绪论 物联网的定义 技术理解 物联网是指物体的信息通过智能感应装置,经过传输网络,到达指定的信息处理中心,最终实现物与物、人与物之间的自动化信息交互与处理的智能网络。 应用理解 物联网是指把世界上所有的物体都耳到一个网络中,形成物联网,然后’物联网’又与现有的“互联网“结合,实现人类社会与物理系统的整合,达到更加精细和动态的去管理生产和生活。 通俗理解 将 RFID 射频识别和 WSN 无线传感器网络结合为用户提供生产生活的监控、指挥调度、远程数据采集和测量、远程诊断等方面的服务。 物联网的特征 全面感知 利
0%