分类炼丹下的文章

Ollama + LangChain 构建 Agent

作者: itminus
时间: 2025-03-10
分类: 默认分类,Agent
评论

目前LLM非常强大，但是如果只将它们用于聊天补全、生成图像这类生成式的场景，无异于自断双臂。近年来Agent的出现，必将会让AI渗透到日常生活中的方方面面。

微软的semantic kernel关于Agent的介绍是：

An AI agent is a software entity designed to perform tasks autonomously or semi-autonomously by recieving input, processing information, and taking actions to achieve specific goals.

尽管我加粗表示了我个人认为重要的几个关键词，但是不得不说，这个介绍写得让人摸不着头脑。相比之下，LangChain中对Agent的定义就非常简洁：

Agent is a class that uses an LLM to choose a sequence of actions to take.

总之，我心中的Agent，是指发挥LLM的长处，让LLM作为推理引擎，规划并执行外部动作。

本文简介

目前最火热的大模型当属OpenAI和DeepSeek，尤其是网上关于使用OpenAI构建Agent的子类非常多，但是在当前这个时间节点，我认为还有还有些不如意的地方：

并不是每个中国人都能使用常规信道获得openai的key，也不是每个人都有国外信用卡来付费。
至于DeepSeek，除了系统繁忙网络超时问题之外，DeepSeek著名的R1推理模型并不官方支持function calling(参见 https://github.com/deepseek-ai/DeepSeek-R1/issues/9#issuecomment-2604747754)，而截至今日，最新版的function calling尚不稳定。

注： DeepSeek 官方针对R1模型的函数调用给出了三种 walkaround：


- 使用脚本解析模型输出到结构化格式（比如：“JSON”格式）
- 设计提示词工程来指定模型产生特定格式的输出
- 自定义包装器，来模拟函数调用

所以，目前的尴尬就在于，我不想等：“高老师，我太想进步了”。

本文文章使用Ollama+QWen2.5来驱动。

Ollama的意义在于我们可以本地部署，避免依赖外部网络环境，这在涉密或者离线场合意义非凡。
QWen2.5的意义在于对中文支持非常好，不像是llama3.2那样，动不动就自动转换成英语，显得非常混乱。

阅读剩余部分

面向程序员的信息量、信息熵和交叉熵的直观解释

信息量、信息熵、交叉熵是非常重要的数学概念。它们非常重要，相关书籍和资料也很多，不过都不够友好——世上的事情总是如此，你尚不理解的，对于你而言太难；而你已然理解的，对你而言又太过简单。

所以很难有适合所有人的学习资料。这是我以程序员的视角，向自己介绍这几个相关概念。

这篇笔记题目起得太大，不是面向程序员的直观解释，而是面向我这个程序员的直观解释。

信息量

考虑一个抛硬币的游戏：抛出一个硬币，问表示这个事件发生的结果，最多需要几个比特？显然，一个比特位就够了（\(2^1=2\)），比如规定：

1：代表正面
0：代表反面

让我们整理一下这里的术语：

随机事件：表示一次抛硬币的事件，要么正面朝上，要么反面朝上，只能是其中之一。
随机变量：表示一个变量，其值是各个随机事件。对于抛硬币来说，可能是正面朝上，也可能是反面朝上。
编码：用数字来对随机事件进行唯一编号。
比特：计算机术语，一个存储位，可以表示两种情况。可以用灯来比喻。

我们重新描述一下上面的问题：

用随机变量\(X\)表示一次抛硬币的结果。我们可以用1来编码正面朝上这个随机事件，用0来编码反面朝上这个事件。需要分配1个比特位（一盏灯）就足够了。
如果硬币被人做了手脚，必然正面朝上，那么对于这种必然事件，我们连一个比特位都不需要分配，即需要0个比特。
同理，如果硬币被人做了手脚，必然反面朝上，我们也不需要分配任何比特位，即需要0个比特。。

如果你的数学直觉足够好，你可能会意识到，要编码上面丢硬币的结果，需要的比特数和随机事件发生的概率有关：

当硬币是正面朝上和反面朝上的概率均是50%时，我们需要1个比特；
而当正面朝上是100%的概率时，我们需要0个比特；
而当反面朝上是100%的概率时，我们也需要0个比特；
如果我们把比特从整数扩展到实数，当正面朝上和反面朝上的概率取其它值时，需要几个比特来编码结果？从直觉上，我们可以猜测，需要的比特数应该介于\((0,1)\)之间。

甚至，我们可以猜测：

当概率构成是(0.5, 0.5)时，我们所需要的1个比特有一半分给了编码正面朝上、另一半分给了反面朝上。
而当概率构成是(1.0, 0.0)时，正面朝上是必然事件，无需比特进行编码；反面朝下也是必然事件，也无需比特进行编码。
而当概率构成是(0.0, 1.0)时，正面朝下是必然事件，无需比特进行编码；反面朝上也是必然事件，也无需比特进行编码。
当概率构成是(p, 1-p)时，这个需要的比特量里有一部分被分给了对正面朝上编码，另一部分属于反面朝上进行编码。至于这个构成是多少，我们留待下面进行更多的探究。

再考虑需要的比特量稍大一点的情况。已知有一个随机整数，取值范围是\([1,16]\)。那么表示这个数到底是多少，需要几个比特？显然，\(2^4=16\)，也就是需要4个比特。这个问题也可以换个角度观察：由于有4个比特位，如果逐一确定这里的四个比特位分别是多少，我们共需要测试四次。

阅读剩余部分

P-R曲线、AP、和 mAP

如何绘制PR曲线？

基本思想

二元预测函数的输出是一个得分。从预测得分到判定是否属于某类，还需要结合阈值来完成。比如大于某个阈值，就认为是某个类。调节阈值，会影响预测的结果类别，最终会影响精准率和召回率。在直觉上，精准率和召回率在一定程度上会呈现负相关关系——漏杀低了，容易过杀；过杀低了，又容易漏杀。我们想把这个关系量化表示，一个简单办法就是绘制P-R曲线。

示例

假设我们有一个二元分类问题，我们对每一行样本都进行了预测，并给出了预测得分：

序号 真实值 预测分数
1    0    0.1
2    1    0.4
3    1    0.35
4    0    0.8
5    1    0.9
6    0    0.2
7    1    0.5
8    0    0.3
9    0    0.6
10    1    0.85

既然要调节阈值来观测输出，不妨把上面各行先按预测得分来排列：

阅读剩余部分

OpenCV图像到PyTorch张量的预处理

OpenCV图像读取后，默认是预处理为HWC形状，而在PyTorch中，希望的是CHW形状; 另一方面，在通道顺序上，OpenCV默认是BGR的顺序，而在PyTorch的张量处理环节，我们一般希望的是RGB顺序。这里就涉及到了数据处理和转换。

从`OpenCV`图像到`PyTorch`张量的转换

我们先模拟一个高度为2，宽度为3的彩色图像：

from torch import tensor

a = torch.randint(low=0, high=255, size=(2, 3, 3))

这里的a似于：

tensor([[[ 58, 223,  24], [ 35, 116, 249], [ 81, 220, 168]],
        [[242, 169, 149], [149,  87, 167], [165,  66,  88]]])

如果这个数据是从OpenCV读取过来，那么最内层通道顺序是BGR。

为了得到RGB，我们可以将最内侧倒排一下：

b = a[:, :, [2,1,0]]

结果类似于：

tensor([[[ 24, 223,  58], [249, 116,  35], [168, 220,  81]],
        [[149, 169, 242], [167,  87, 149], [ 88,  66, 165]]])

但问题是，上面的张量形状是 (H,W,C)，而在PyTorch中，我们期望的是(C,H,W)。现在我们将它拆分重排成RGB三个通道，其中每个通道都是一个2*3灰度图：

c = b.permute(2,0,1 )
print(c)

结果类似于：

tensor([
        # R通道
        [[ 24, 249, 168],
         [149, 167,  88]],         
        # G通道
        [[223, 116, 220],
         [169,  87,  66]],
        # B通道
        [[ 58,  35,  81],
         [242, 149, 165]]])

一个数据集加载示例

在《Modern Computer Vision》中，讲解了使用VGG16进行迁移学习，然后用于猫狗分类的示例。一方面VGG16预训练模型是在ImageNet数据集上训练得来的，其中所有图像都被缩放为 224 × 224 作为输入。为了充分利用预训练的权重，我们需要把训练的输入图像调整为相同大小。

阅读剩余部分

scikit-image 模板匹配+非极大值抑制实现

作者: itminus
时间: 2024-12-23
分类: 默认分类,计算机视觉,机器视觉,炼丹
2 条评论

scikit-image 提供了一个match_template()函数，不过这个函数的定位并不是像VisionPro中的PMAlign（或者VisionMaster中的模板匹配），它不是一个端到端的工具，而是输出一个用模板滑过图像窗口形成的相关系数矩阵：即结果是一个矩阵，每个值表示在相应窗口位置时，模板与图像窗口的相关性。

这个函数的作用类似于我们手写一个人脸检测模块时，在第一阶段构建的人脸分类+滑动窗口的功能——即输出每个位置的得分，以表示每个区域是否存在人脸（或者存在人脸的概率）。但是随之而来的问题是，位置相近的窗口会有多个，但是它们都是同一个实体对象。这篇笔记组合了match_template()和NMS算法，实现一个端到端的模板匹配功能。

实现对象

我们今天的实验对象是scikit-image官方的硬币示例：

image = data.coins()
coin = image[170:220, 75:130]

fig, ax = pyplot.subplots(1, 2)

ax0: axes.Axes = ax[0]
ax0.imshow(image, cmap='gray')
ax0.set_title("image")

ax1: axes.Axes = ax[1]
ax1.imshow(coin, cmap='gray')
ax1.set_title("template")

scikit-image模板匹配-截图1.PNG

阅读剩余部分