s3c2410 CACHES,WRITE BUFFER讲解[图]-百合电子工作室

在S3C2410 MMU(存储器管理单元) 讲解中我向大家介绍MMU的工作原理和对s3c2410 MMU部分操作进行了讲解。我们知道MMU存在的原因是为了支持虚拟存储技术，但不知道你发现了没有，虚拟存储技术的使用会降低整个系统的效率，因为与传统的存储技术相比，虚拟存储技术对内存的访问操作多了一步，就是对地址进行查表（查找映射关系），必须先从虚拟地址中分解出页号和页内偏移，根据页号对描述符进行索引（这就是一个查表过程）得到物理空间的首地址，这样做的代价是巨大的（其实这也正是时间效率与空间效率之间矛盾的一个体现），对某些嵌入式系统来说这简直就是恶梦。那么在引入了虚拟存储技术之后有没有方法在时间效率与空间效率这个矛盾之间取得一个平衡点呢？答案是有，我们可以通过一种技术从最大限度上降低这两者的矛盾，这种技术是Caches(缓存)。也是我们本文要介绍的。

以下内容转载自中计报
Cache的工作原理
　 Cache的工作原理是基于程序访问的局部性。
    对大量典型程序运行情况的分析结果表明，在一个较短的时间间隔内，由程序产生的地址往往集中在存储器逻辑地址空间的很小范围内。指令地址的分布本来就是连续的，再加上循环程序段和子程序段要重复执行多次。因此，对这些地址的访问就自然地具有时间上集中分布的倾向。
    数据分布的这种集中倾向不如指令明显，但对数组的存储和访问以及工作单元的选择都可以使存储器地址相对集中。这种对局部范围的存储器地址频繁访问，而对此范围以外的地址则访问甚少的现象，就称为程序访问的局部性。
    根据程序的局部性原理，可以在主存和CPU通用寄存器之间设置一个高速的容量相对较小的存储器，把正在执行的指令地址附近的一部分指令或数据从主存调入这个存储器，供CPU在一段时间内使用。这对提高程序的运行速度有很大的作用。这个介于主存和CPU之间的高速小容量存储器称作高速缓冲存储器(Cache)。
    系统正是依据此原理，不断地将与当前指令集相关联的一个不太大的后继指令集从内存读到Cache，然后再与CPU高速传送，从而达到速度匹配。
CPU对存储器进行数据请求时，通常先访问Cache。由于局部性原理不能保证所请求的数据百分之百地在Cache中，这里便存在一个命中率。即CPU在任一时刻从Cache中可靠获取数据的几率。
    命中率越高，正确获取数据的可靠性就越大。一般来说，Cache的存储容量比主存的容量小得多，但不能太小，太小会使命中率太低；也没有必要过大，过大不仅会增加成本，而且当容量超过一定值后，命中率随容量的增加将不会有明显地增长。
    只要Cache的空间与主存空间在一定范围内保持适当比例的映射关系，Cache的命中率还是相当高的。
    一般规定Cache与内存的空间比为4：1000，即128kB Cache可映射32MB内存；256kB Cache可映射64MB内存。在这种情况下，命中率都在90％以上。至于没有命中的数据，CPU只好直接从内存获取。获取的同时，也把它拷进Cache，以备下次访问。

Cache的基本结构
    Cache通常由相联存储器实现。相联存储器的每一个存储块都具有额外的存储信息，称为标签(Tag)。当访问相联存储器时，将地址和每一个标签同时进行比较，从而对标签相同的存储块进行访问。Cache的3种基本结构如下：

全相联Cache
    在全相联Cache中，存储的块与块之间，以及存储顺序或保存的存储器地址之间没有直接的关系。程序可以访问很多的子程序、堆栈和段，而它们是位于主存储器的不同部位上。
    因此，Cache保存着很多互不相关的数据块，Cache必须对每个块和块自身的地址加以存储。当请求数据时，Cache控制器要把请求地址同所有地址加以比较，进行确认。
    这种Cache结构的主要优点是，它能够在给定的时间内去存储主存器中的不同的块，命中率高；缺点是每一次请求数据同Cache中的地址进行比较需要相当的时间，速度较慢。
直接映像Cache
    直接映像Cache不同于全相联Cache，地址仅需比较一次。
    在直接映像Cache中，由于每个主存储器的块在Cache中仅存在一个位置，因而把地址的比较次数减少为一次。其做法是，为Cache中的每个块位置分配一个索引字段，用Tag字段区分存放在Cache位置上的不同的块。
    单路直接映像把主存储器分成若干页，主存储器的每一页与Cache存储器的大小相同，匹配的主存储器的偏移量可以直接映像为Cache偏移量。Cache的Tag存储器(偏移量)保存着主存储器的页地址(页号)。
    以上可以看出，直接映像Cache优于全相联Cache，能进行快速查找，其缺点是当主存储器的组之间做频繁调用时，Cache控制器必须做多次转换。
组相联Cache
组相联Cache是介于全相联Cache和直接映像Cache之间的一种结构。这种类型的Cache使用了几组直接映像的块，对于某一个给定的索引号，可以允许有几个块位置，因而可以增加命中率和系统效率。

Cache与DRAM存取的一致性
在CPU与主存之间增加了Cache之后，便存在数据在CPU和Cache及主存之间如何存取的问题。读写各有2种方式。

贯穿读出式(Look Through)
该方式将Cache隔在CPU与主存之间，CPU对主存的所有数据请求都首先送到Cache，由Cache自行在自身查找。如果命中，则切断CPU对主存的请求，并将数据送出；不命中，则将数据请求传给主存。
该方法的优点是降低了CPU对主存的请求次数，缺点是延迟了CPU对主存的访问时间。
旁路读出式(Look Aside)
在这种方式中，CPU发出数据请求时，并不是单通道地穿过Cache，而是向Cache和主存同时发出请求。由于Cache速度更快，如果命中，则Cache在将数据回送给CPU的同时，还来得及中断CPU对主存的请求；不命中，则Cache不做任何动作，由CPU直接访问主存。
它的优点是没有时间延迟，缺点是每次CPU对主存的访问都存在，这样，就占用了一部分总线时间。
写穿式(Write Through)
任一从CPU发出的写信号送到Cache的同时，也写入主存，以保证主存的数据能同步地更新。
它的优点是操作简单，但由于主存的慢速，降低了系统的写速度并占用了总线的时间。
回写式(Copy Back)
为了克服贯穿式中每次数据写入时都要访问主存，从而导致系统写速度降低并占用总线时间的弊病，尽量减少对主存的访问次数，又有了回写式。
它是这样工作的：数据一般只写到Cache，这样有可能出现Cache中的数据得到更新而主存中的数据不变(数据陈旧)的情况。但此时可在Cache 中设一标志地址及数据陈旧的信息，只有当Cache中的数据被再次更改时，才将原更新的数据写入主存相应的单元中，然后再接受再次更新的数据。这样保证了Cache和主存中的数据不致产生冲突。

……
你可以通过http://www.chinaunix.net/jh/45/180390.html阅读完全文

    s3c2410 内置了指令缓存(ICaches),数据缓存(DCaches),写缓存(write buffer) , 物理地址标志读写区 (Physical Address TAG RAM),CPU将通过它们来提高内存访问效率。
    我们先讨论指令缓存(ICaches)。
ICaches使用的是虚拟地址，它的大小是16KB,它被分成512行(entry)，每行8个字（8 words,32Bits）。

    当系统上电或重起（Reset）的时候，ICaches功能是被关闭的，我们必须往lcr bit置1去开启它，lcr bit在CP15协处理器中控制寄存器1的第12位（关闭ICaches功能则是往该位置0）。ICaches功能一般是在MMU开启之后被使用的（为了降低MMU查表带来的开销）,但有一点需要注意，并不是说MMU被开启了ICaches才会被开启，正如本段刚开始讲的，ICaches的开启与关闭是由lcr bit所决定的，无论MMU是否被开启，只要lcr bit被置1了，ICaches就会发挥它的作用。
    大家是否还记得discriptor（描述符）中有一个C bit我们称之为Ctt,它是指明该描述符描述的内存区域内的内容（可以是指令也可以是数据）是否可以被Cache，若Ctt=1,则允许Cache,否则不允许被Cache。于是CPU读取指令出现了下面这些情况：

如果CPU从Caches中读取到所要的一条指令（cache hit）且这条指令所在的内存区域是Cacheble的（该区域所属描述符中Ctt=1）,则CPU执行这条指令并从Caches中返回（不需要从内存中读取）。
若CPU从Caches中读取不到所要的指令（cache miss）而这条指令所在的内存区域是Cacheble的（同第1点），则CPU将从内存中读取这条指令，同时，一个称为“8-word linefill”的动作将发生，这个动作是把该指令所处区域的8个word写进ICaches的某个entry中，这个entry必须是没有被锁定的（对锁定这个操作感兴趣的朋友可以找相关的资料进行了解）
若CPU从Caches中读取不到所要的指令（cache miss）而这条指令所在的内存区域是UnCacheble的（该区域所属描述符中Ctt=0），则CPU将从内存读取这条指令并执行后返回（不发生linefill）