诺亚方舟 - 启航

发表于2024-08-03|diffusion|扩散模型

1 Diffusion Model原理1.1 整体实现首先要生成一个和要生成图片相同大小的杂讯的图，然后每通过一个 Denoise Network 就把噪音过滤掉一些，把这个过程做很多次，就可以得到想要的图片。其中 Denoise 进行的步骤是实现规定好的，对每个 Denoise 分配一个编号，越靠近最终的图片，编号越小。想要的图片其实就在噪音中，只不过把不想要的部分去除，上述过程称为 reverser process，把同一个 Denoise Model 使用很多次。但是由于每次输入的图片差异较大，因此如果是同一个模型，可能不一定做的很好。所以这个 model 除了会接收图片的输入，还会接收一个当前这个图片 noise 的程度的输入，1000 代表现在 noise 部分很大，而 1 代表现在噪音占比很小。 1.2 Denoise内部实现 Noise Predicter：预测这张图片中杂讯的分布，先学习加噪，再进行减噪把Noise Predicter输出预测的杂讯剪掉一开始的输入，就得到去掉部分噪音之后的图片。为什么要这么设计：因为产生满足噪声分布的数据更简单，因此学习 ...

数据结构面经2：线性表

发表于2024-08-02|专业课|面经• 数据结构

1 各种线性表1.1 优缺点顺序表优点：可以随机存取，快；存储密度大缺点：插入、删除效率低；存储空间固定，分多了浪费，分少了又不足单链表优点：插入、删除效率高；空间可动态分配缺点：不能随机存取，要顺序存取，慢；存储密度不大（有指针域）静态链表：融合顺序表和单链表的优点，既能快速访问元素，又能快速插入、删除元素 1.2 对比1.2.1 存取（读写）方式顺序表可以顺序存取，也可以随机存取，链表只能从表头顺序存取元素。例如在第i个位置上执行存或取的操作，顺序表仅需一次访问，而链表则需从表头开始依次访问i次。 1.2.2 逻辑结构与物理结构采用顺序存储时，逻辑上相邻的元素，对应的物理存储位置也相邻。而采用链式存储时，逻辑上相邻的元素，物理存储位置则不一定相邻，对应的逻辑关系是通过指针链接来表示的。 1.2.3 查找、插入和删除操作对于按值查找，顺序表无序时，两者的时间复杂度均为$O(n)$；顺序表有序时，可采用折半查找，此时的时间复杂度为$O(log_2n)$ 。对于按序号查找，顺序表支持随机访问，时间复杂度仅为$O(1)$, 而链表的平均时间复杂度为$O(n)$ 。 ...

数据结构面经1：绪论

发表于2024-08-01|专业课|面经• 数据结构

1 时间复杂度一个语句的频度是指该语句在算法中被重复执行的次数。算法中所有语句的频度之和记为 $T(n)$，它是该算法问题规模 $n$ 的函数。时间复杂度主要分析 $T(n)$ 的数量级。算法中基本运算（最深层循环内的语句）的频度与 $T(n)$ 同数量级，因此通常采用算法中基本运算的频度$f(n)$来分析算法的时间复杂度。因此，算法的时间复杂度记为$$ T(n) = O(f(n))$$ $O$ 的含义是 $T(n)$ 的数量级，其严格的数学定义是：若 $T(n)$ 和 $f(n)$ 是定义在正整数集合上的两个函数，则存在正常数 $C$ 和 $n_0$，使得当 $n \geq n_0$ 时，都满足 $0 \leq T(n) \leq Cf(n)$。算法的时间复杂度不仅依赖于问题的规模 $n$，也取决于待输入数据的性质（如输入数据元素的初始状态）。 2 空间复杂度算法的空间复杂度 $S(n)$ 定义为该算法所耗费的存储空间，它是问题规模 $n$ 的函数。记为 $$ S(n)=O(g(n))$$ 一个程序在执行时除需要存储空间来存放本身所用的指令、常 ...

d2l学习笔记1：第3章线性回归课后题

发表于2024-07-31|d2l|d2l

1 线性回归1.1 问题1假设我们有一些数据$x_1, \ldots, x_n \in \mathbb{R}$。我们的目标是找到一个常数$b$，使得最小化$\sum_i (x_i - b)^2$。找到最优值$b$的解析解。这个问题及其解与正态分布有什么关系? 1.1.1 第一问线性回归的解可以用一个公式简单地表示，这类解叫做解析解。 $$\begin{array}{c}\underset{b}{\operatorname{argmin}} \sum_{i=1}^{n}\left(x_{i}-b\right)^{2} \ \Rightarrow \frac{\partial \sum_{i=1}^{n}\left(x_{i}-b\right)^{2}}{\partial b}=0 \ \Rightarrow \sum_{i=1}^{n}\left(x_{i}-b\right)=0 \ \Rightarrow \sum_{i=1}^{n} x_{i}=n b \ \Rightarrow b=\frac{ ...

操作系统面经4：文件管理和输入输出管理

发表于2024-07-30|专业课|操作系统• 面经

1 文件管理 1.1 文件的基本操作？文件属于抽象数据类型。为了恰当地定义文件，就需要考虑有关文件的操作。操作系统提供系统调用，它对文件进行创建、写、读、定位和截断。创建文件：创建文件有两个必要步骤，一是在文件系统中为文件找到空间；二是在目录中为新文件创建条目，该条目记录文件名称、在文件系统中的位置及其他可能信息。写文件：为了写文件，执行一个系统调用，指明文件名称和要写入文件的内容。对于给定文件名称，系统搜索目录以查找文件位置。系统必须为该文件维护一个写位置的指针。每当发生写操作，便更新写指针。读文件：为了读文件，执行一个系统调用，指明文件名称和要读入文件块的内存位置。同样，需要搜索目录以找到相关目录项，系统维护一个读位置的指针。每当发生读操作时，更新读指针。一个进程通常只对一个文件读或写，所以当前操作位置可作为每个进程当前文件位置指针。由于读和写操作都使用同一指针，节省了空间也降低了系统复杂度。文件重定位（文件寻址）：按某条件搜索目录，将当前文件位置设为给定值，并且不会读、写文件。删除文件：先从目录中找到要删除文件的目录项，使之成为空项，然后回收该文件所占用的存 ...

基于脸部视频图像的早期老年痴呆诊断技术综述

发表于2024-07-29|科研|综述

1 摘要老年痴呆症是一种起病隐匿、呈进展性发展的神经系统退行性疾病。随着人口老龄化加剧，早期诊断老年痴呆对于阻止疾病发展至关重要。其中，基于脸部视频图像的老年痴呆诊断技术通过捕捉和分析患者的面部表情、动作等信息，为非侵入性诊断提供了新途径。综述近些年使用计算机视觉来进行面部识别进而诊断老年痴呆症相关的研究，尽管面临患者间面部特征差异大、诊断模型普适性不足等挑战，但该技术仍展现出巨大潜力，有望为老年痴呆症的早期诊断和防治工作带来新突破。 2 引言老年痴呆症作为一种随着全球人口老龄化趋势日益严峻而愈发普遍的神经退行性疾病，已成为全球主要的致残和致死原因之一。据统计，全球约有5500万人受到痴呆症的影响，其中最常见的类型包括阿尔茨海默病$^{\mathrm{[1]}}$（AD）、血管性痴呆、路易体痴呆（LBD）和额颞叶痴呆（FTD）。这类疾病不仅给患者本人的生活质量带来严重影响，也给家庭和社会带来了沉重的负担。然而，由于早期阶段的准确诊断方法匮乏，许多患者在症状明显时才得以确诊，从而错过了早期干预和治疗的最佳时机。在老年痴呆症的复杂病程中，其发病过程呈现为一个高度渐进、持续恶化的动态演变 ...

论文AFT代码复现

发表于2024-07-28|科研|AFT• 论文

1 AFT-simple123456789101112131415161718class AFT_Simple(nn.Module): def __init__(self, dim, hidden_dim=64, **kwargs): super().__init__() self.w_q = nn.Linear(dim, hidden_dim) self.w_k = nn.Linear(dim, hidden_dim) self.w_v = nn.Linear(dim, hidden_dim) self.out = nn.Linear(hidden_dim, dim) def forward(self, x): B, H, W, C = x.shape x = x.reshape(B, -1, C) q = self.w_q(x) k = self.w_k(x) v = self.w_v(x) y = torch.sig ...

论文精读1：An Attention Free Transformer

发表于2024-07-27|科研|AFT• 论文精读

1 Abstract我们介绍了无注意力transformer(AFT)，这是Transformer的有效变体，消除了对点积自注意力的需要。在AFT层中，键和值首先与一组学习到的位置偏置组合在一起，其结果以element-wise的方式与查询相乘。这个新操作的内存复杂度与上下文大小和特征维度都是线性的，这使得它兼容于大的输入和模型大小。我们还介绍了AFT-local和AFT-conv两种模型变体，它们在保持全局连通性的同时利用了局域性和空间权重共享的思想。我们在两个自回归建模任务(CIFAR10和Enwik8)以及图像识别任务(ImageNet-1K分类)上进行了广泛的实验。实验表明，AFT在所有基准测试中都表现出具有竞争力的性能，同时提供了出色的效率。 2 Introduction以Transformers为代表的自注意机制推动了各种机器学习问题的发展，包括语言理解和计算机视觉应用。与卷积神经网络(cnn)或循环神经网络(rnn)等经典模型架构不同，Transformer可以在序列中的每对元素之间进行直接交互，这使得它们在捕获长期依赖关系方面特别强大。然而，Transforme ...

2024年X-Team夏令营考核任务2

发表于2024-07-26|保研|夏令营

1 exdark数据集低光数据集使用ExDark，该数据集是一个专门在低光照环境下拍摄出针对低光目标检测的数据集，包括从极低光环境到暮光环境等10种不同光照条件下的图片7363张，其中训练集5891张，测试集1472张，12个类别。 2 加载数据集2.1 实现思路exdark数据集中都是图片，看了一下原论文使用的coco数据集也都是图片，所以应该原论文代码中对数据集加载的代码应该可以用，但是需要修改一些地方。原论文代码中加载数据集是使用的json格式，但是exdark数据集没有自带的json，所以可以先将标签之类的信息存储到一个json文件中。不能直接使用了，因为源代码中使用了一个封装好的coco数据集类，但是我看了其中没有exdark数据集，所以相当于自己封装一个exdark数据集类吧，加油，一步一步来。等一下，我突然想到一个问题，就是我把exdark数据集的格式搞得和coco数据集一样，那么我是不是就能用已经封装好的coco数据集类了？甚至直接使用coco类去加载exdark数据集。 2.2 coco数据集json详解1234567# coco_json结构示意{ ...

2024年X-Team夏令营考核任务1

发表于2024-07-25|保研|夏令营

1 知识储备实现aft-full/simple/conv，用它们替换代码中的tokenmixer部分，并做cifar100训练。如果要替换代码中的token_mixer部分，需要首先实现aft-full/simple/conv。 1.1 cifar100CIFAR100数据集有100个类。每个类有600张大小为32 × 32的彩色图像，其中500张作为训练集，100张作为测试集。对于每一张图像，它有fine_labels和coarse_labels两个标签，分别代表图像的细粒度和粗粒度标签，对应下图中的classes和superclass。也就是说，CIFAR100数据集是层次的。 1.1.1 Top-1和Top-5我们在训练完某个分类网络后，假设我们需要分类的数量为50类，我们需要评估它的分类性能。输入测试集的每张图片，会得到它的50个类别的的概率。 Top-5准确率：在这张测试的图片50的类别中，取出概率最大的前五个类别，如果真实类别在这五个类别中，则预测正确，否则预测错误。 $$top5_{Accuracy}=\frac{真实类别在预测的5个类别中的数量}{所有测试 ...