Linux 中允許眾多不同的文件系統共存,如 ext2, ext3, vfat 等。通過使用同一套文件 I/O 系統 調用即可對 Linux 中的任意文件進行操作而無需考慮其所在的具體文件系統格式;更進一步,對文件的 操作可以跨文件系統而執行。如圖 1 所示,我們可以使用 cp 命令從 vfat 文件系統格式的硬盤拷貝數據到 ext3 文件系統格式的硬盤;而這樣的操作涉及到兩個不同的文件系統。
“一切皆是文件”是 Unix/Linux 的基本哲學之一。不僅普通的文件,目錄、字符設備、塊設備、 套接字等在 Unix/Linux 中都是以文件被對待;它們雖然類型不同,但是對其提供的卻是同一套操作界面。
而虛擬文件系統正是實現上述兩點 Linux 特性的關鍵所在。虛擬文件系統(Virtual File System, 簡稱 VFS), 是 Linux 內核中的一個軟件層,用于給用戶空間的程序提供文件系統接口;同時,它也提供了內核中的一個 抽象功能,允許不同的文件系統共存。系統中所有的文件系統不但依賴 VFS 共存,而且也依靠 VFS 協同工作。
為了能夠支持各種實際文件系統,VFS 定義了所有文件系統都支持的基本的、概念上的接口和數據 結構;同時實際文件系統也提供 VFS 所期望的抽象接口和數據結構,將自身的諸如文件、目錄等概念在形式 上與VFS的定義保持一致。換句話說,一個實際的文件系統想要被 Linux 支持,就必須提供一個符合VFS標準 的接口,才能與 VFS 協同工作。實際文件系統在統一的接口和數據結構下隱藏了具體的實現細節,所以在VFS 層和內核的其他部分看來,所有文件系統都是相同的。圖3顯示了VFS在內核中與實際的文件系統的協同關系。
我們已經知道,正是由于在內核中引入了VFS,跨文件系統的文件操作才能實現,“一切皆是文件” 的口號才能承諾。而為什么引入了VFS,就能實現這兩個特性呢?在接下來,我們將以這樣的一個思路來切入 文章的正題:我們將先簡要介紹下用以描述VFS模型的一些數據結構,總結出這些數據結構相互間的關系;然后 選擇兩個具有代表性的文件I/O操作sys_open()和sys_read()來詳細說明內核是如何借助VFS和具體的文件系統打 交道以實現跨文件系統的文件操作和承諾“一切皆是文件”的口號。
從本質上講,文件系統是特殊的數據分層存儲結構,它包含文件、目錄和相關的控制信息。為了描述 這個結構,Linux引入了一些基本概念:
文件 一組在邏輯上具有完整意義的信息項的系列。在Linux中,除了普通文件,其他諸如目錄、設備、套接字等 也以文件被對待。總之,“一切皆文件”。
目錄 目錄好比一個文件夾,用來容納相關文件。因為目錄可以包含子目錄,所以目錄是可以層層嵌套,形成 文件路徑。在Linux中,目錄也是以一種特殊文件被對待的,所以用于文件的操作同樣也可以用在目錄上。
目錄項 在一個文件路徑中,路徑中的每一部分都被稱為目錄項;如路徑/home/source/helloworld.c中,目錄 /, home, source和文件 helloworld.c都是一個目錄項。
索引節點 用于存儲文件的元數據的一個數據結構。文件的元數據,也就是文件的相關信息,和文件本身是兩個不同 的概念。它包含的是諸如文件的大小、擁有者、創建時間、磁盤位置等和文件相關的信息。
超級塊 用于存儲文件系統的控制信息的數據結構。描述文件系統的狀態、文件系統類型、大小、區塊數、索引節 點數等,存放于磁盤的特定扇區中。
如上的幾個概念在磁盤中的位置關系如圖4所示。
關于文件系統的三個易混淆的概念:
創建 以某種方式格式化磁盤的過程就是在其之上建立一個文件系統的過程。創建文現系統時,會在磁盤的特定位置寫入 關于該文件系統的控制信息。
注冊 向內核報到,聲明自己能被內核支持。一般在編譯內核的時侯注冊;也可以加載模塊的方式手動注冊。注冊過程實 際上是將表示各實際文件系統的數據結構struct file_system_type 實例化。
安裝 也就是我們熟悉的mount操作,將文件系統加入到Linux的根文件系統的目錄樹結構上;這樣文件系統才能被訪問。
VFS依靠四個主要的數據結構和一些輔助的數據結構來描述其結構信息,這些數據結構表現得就像是對象; 每個主要對象中都包含由操作函數表構成的操作對象,這些操作對象描述了內核針對這幾個主要的對象可以進行的操作。
存儲一個已安裝的文件系統的控制信息,代表一個已安裝的文件系統;每次一個實際的文件系統被安裝時, 內核會從磁盤的特定位置讀取一些控制信息來填充內存中的超級塊對象。一個安裝實例和一個超級塊對象一一對應。 超級塊通過其結構中的一個域s_type記錄它所屬的文件系統類型。
根據第三部分追蹤源代碼的需要,以下是對該超級塊結構的部分相關成員域的描述,(如下同):
struct super_block { //超級塊數據結構
struct list_head s_list; /*指向超級塊鏈表的指針*/
……
struct file_system_type *s_type; /*文件系統類型*/
struct super_operations *s_op; /*超級塊方法*/
……
struct list_head s_instances; /*該類型文件系統*/
……
};
struct super_operations { //超級塊方法
……
//該函數在給定的超級塊下創建并初始化一個新的索引節點對象
struct inode *(*alloc_inode)(struct super_block *sb);
……
//該函數從磁盤上讀取索引節點,并動態填充內存中對應的索引節點對象的剩余部分
void (*read_inode) (struct inode *);
……
};
索引節點對象存儲了文件的相關信息,代表了存儲設備上的一個實際的物理文件。當一個 文件首次被訪問時,內核會在內存中組裝相應的索引節點對象,以便向內核提供對一個文件進行操 作時所必需的全部信息;這些信息一部分存儲在磁盤特定位置,另外一部分是在加載時動態填充的。
struct inode {//索引節點結構
……
struct inode_operations *i_op; /*索引節點操作表*/
struct file_operations *i_fop; /*該索引節點對應文件的文件操作集*/
struct super_block *i_sb; /*相關的超級塊*/
……
};
struct inode_operations { //索引節點方法
……
//該函數為dentry對象所對應的文件創建一個新的索引節點,主要是由open()系統調用來調用
int (*create) (struct inode *,struct dentry *,int, struct nameidata *);
//在特定目錄中尋找dentry對象所對應的索引節點
struct dentry * (*lookup) (struct inode *,struct dentry *, struct nameidata *);
……
};
引入目錄項的概念主要是出于方便查找文件的目的。一個路徑的各個組成部分,不管是目錄還是 普通的文件,都是一個目錄項對象。如,在路徑/home/source/test.c中,目錄 /, home, source和文件 test.c都對應一個目錄項對象。不同于前面的兩個對象,目錄項對象沒有對應的磁盤數據結構,VFS在遍 歷路徑名的過程中現場將它們逐個地解析成目錄項對象。
struct dentry {//目錄項結構
……
struct inode *d_inode; /*相關的索引節點*/
struct dentry *d_parent; /*父目錄的目錄項對象*/
struct qstr d_name; /*目錄項的名字*/
……
struct list_head d_subdirs; /*子目錄*/
……
struct dentry_operations *d_op; /*目錄項操作表*/
struct super_block *d_sb; /*文件超級塊*/
……
};
struct dentry_operations {
//判斷目錄項是否有效;
int (*d_revalidate)(struct dentry *, struct nameidata *);
//為目錄項生成散列值;
int (*d_hash) (struct dentry *, struct qstr *);
……
};
文件對象是已打開的文件在內存中的表示,主要用于建立進程和磁盤上的文件的對應關系。它由sys_open() 現場創建,由sys_close()銷毀。文件對象和物理文件的關系有點像進程和程序的關系一樣。當我們站在用戶空間來看 待VFS,我們像是只需與文件對象打交道,而無須關心超級塊,索引節點或目錄項。因為多個進程可以同時打開和操作 同一個文件,所以同一個文件也可能存在多個對應的文件對象。文件對象僅僅在進程觀點上代表已經打開的文件,它 反過來指向目錄項對象(反過來指向索引節點)。一個文件對應的文件對象可能不是惟一的,但是其對應的索引節點和 目錄項對象無疑是惟一的。
struct file {
……
struct list_head f_list; /*文件對象鏈表*/
struct dentry *f_dentry; /*相關目錄項對象*/
struct vfsmount *f_vfsmnt; /*相關的安裝文件系統*/
struct file_operations *f_op; /*文件操作表*/
……
};
struct file_operations {
……
//文件讀操作
ssize_t (*read) (struct file *, char __user *, size_t, loff_t *);
……
//文件寫操作
ssize_t (*write) (struct file *, const char __user *, size_t, loff_t *);
……
int (*readdir) (struct file *, void *, filldir_t);
……
//文件打開操作
int (*open) (struct inode *, struct file *);
……
};
根據文件系統所在的物理介質和數據在物理介質上的組織方式來區分不同的文件系統類型的。 file_system_type結構用于描述具體的文件系統的類型信息。被Linux支持的文件系統,都有且僅有一 個file_system_type結構而不管它有零個或多個實例被安裝到系統中。
而與此對應的是每當一個文件系統被實際安裝,就有一個vfsmount結構體被創建,這個結構體對應一個安裝點。
struct file_system_type {
const char *name; /*文件系統的名字*/
struct subsystem subsys; /*sysfs子系統對象*/
int fs_flags; /*文件系統類型標志*/
/*在文件系統被安裝時,從磁盤中讀取超級塊,在內存中組裝超級塊對象*/
struct super_block *(*get_sb) (struct file_system_type*,
int, const char*, void *);
void (*kill_sb) (struct super_block *); /*終止訪問超級塊*/
struct module *owner; /*文件系統模塊*/
struct file_system_type * next; /*鏈表中的下一個文件系統類型*/
struct list_head fs_supers; /*具有同一種文件系統類型的超級塊對象鏈表*/
};
struct vfsmount
{
struct list_head mnt_hash; /*散列表*/
struct vfsmount *mnt_parent; /*父文件系統*/
struct dentry *mnt_mountpoint; /*安裝點的目錄項對象*/
struct dentry *mnt_root; /*該文件系統的根目錄項對象*/
struct super_block *mnt_sb; /*該文件系統的超級塊*/
struct list_head mnt_mounts; /*子文件系統鏈表*/
struct list_head mnt_child; /*子文件系統鏈表*/
atomic_t mnt_count; /*使用計數*/
int mnt_flags; /*安裝標志*/
char *mnt_devname; /*設備文件名*/
struct list_head mnt_list; /*描述符鏈表*/
struct list_head mnt_fslink; /*具體文件系統的到期列表*/
struct namespace *mnt_namespace; /*相關的名字空間*/
};
struct files_struct {//打開的文件集
atomic_t count; /*結構的使用計數*/
……
int max_fds; /*文件對象數的上限*/
int max_fdset; /*文件描述符的上限*/
int next_fd; /*下一個文件描述符*/
struct file ** fd; /*全部文件對象數組*/
……
};
struct fs_struct {//建立進程與文件系統的關系
atomic_t count; /*結構的使用計數*/
rwlock_t lock; /*保護該結構體的鎖*/
int umask; /*默認的文件訪問權限*/
struct dentry * root; /*根目錄的目錄項對象*/
struct dentry * pwd; /*當前工作目錄的目錄項對象*/
struct dentry * altroot; /*可供選擇的根目錄的目錄項對象*/
struct vfsmount * rootmnt; /*根目錄的安裝點對象*/
struct vfsmount * pwdmnt; /*pwd的安裝點對象*/
struct vfsmount * altrootmnt;/*可供選擇的根目錄的安裝點對象*/
};
struct nameidata {
struct dentry *dentry; /*目錄項對象的地址*/
struct vfsmount *mnt; /*安裝點的數據*/
struct qstr last; /*路徑中的最后一個component*/
unsigned int flags; /*查找標識*/
int last_type; /*路徑中的最后一個component的類型*/
unsigned depth; /*當前symbolic link的嵌套深度,不能大于6*/
char *saved_names[MAX_NESTED_LINKS + 1];/
/*和嵌套symbolic link 相關的pathname*/
union {
struct open_intent open; /*說明文件該如何訪問*/
} intent; /*專用數據*/
};
如上的數據結構并不是孤立存在的。正是通過它們的有機聯系,VFS才能正常工作。如下的幾張圖是對它們之間的聯系的描述。
如圖5所示,被Linux支持的文件系統,都有且僅有一個file_system_type結構而不管它有零個或多個實例被安裝到系統 中。每安裝一個文件系統,就對應有一個超級塊和安裝點。超級塊通過它的一個域s_type指向其對應的具體的文件系統類型。具體的 文件系統通過file_system_type中的一個域fs_supers鏈接具有同一種文件類型的超級塊。同一種文件系統類型的超級塊通過域 s_instances鏈 接。
從圖6可知:進程通過task_struct中的一個域files_struct files來了解它當前所打開的文件對象;而我們通常所說的文件 描述符其實是進程打開的文件對象數組的索引值。文件對象通過域f_dentry找到它對應的dentry對象,再由dentry對象的域d_inode找 到它對應的索引結點,這樣就建立了文件對象與實際的物理文件的關聯。最后,還有一點很重要的是, 文件對象所對應的文件操作函數 列表是通過索引結點的域i_fop得到的。圖6對第三部分源碼的理解起到很大的作用。
到目前為止,文章主要都是從理論上來講述VFS的運行機制;接下來我們將深入源代碼層中,通過闡述兩個具有代表性的系統 調用sys_open()和sys_read()來更好地理解VFS向具體文件系統提供的接口機制。由于本文更關注的是文件操作的整個流程體制,所以我 們在追蹤源代碼時,對一些細節性的處理不予關心。又由于篇幅所限,只列出相關代碼。本文中的源代碼來自于linux-2.6.17內核版本。
在深入sys_open()和sys_read()之前,我們先概覽下調用sys_read()的上下文。圖7描述了從用戶空間的read()調用到數據從 磁盤讀出的整個流程。當在用戶應用程序調用文件I/O read()操作時,系統調用sys_read()被激發,sys_read()找到文件所在的具體文件 系統,把控制權傳給該文件系統,最后由具體文件系統與物理介質交互,從介質中讀出數據。
sys_open()系統調用打開或創建一個文件,成功返回該文件的文件描述符。圖8是sys_open()實現代碼中主要的函數調用關系圖。
由于sys_open()的代碼量大,函數調用關系復雜,以下主要是對該函數做整體的解析;而對其中的一些關鍵點,則列出其關鍵代碼。
a. 從sys_open()的函數調用關系圖可以看到,sys_open()在做了一些簡單的參數檢驗后,就把接力棒傳給do_sys_open():
1)、首先,get_unused_fd()得到一個可用的文件描述符;通過該函數,可知文件描述符實質是進程打開文件列表中對應某個文件對象的索引值;
2)、接著,do_filp_open()打開文件,返回一個file對象,代表由該進程打開的一個文件;進程通過這樣的一個數據結構對物理文件進行讀寫操作。
3)、最后,fd_install()建立文件描述符與file對象的聯系,以后進程對文件的讀寫都是通過操縱該文件描述符而進行。
b. do_filp_open()用于打開文件,返回一個file對象;而打開之前需要先找到該文件:
1)、open_namei()用于根據文件路徑名查找文件,借助一個持有路徑信息的數據結構nameidata而進行;
2)、查找結束后將填充有路徑信息的nameidata返回給接下來的函數nameidata_to_filp()從而得到最終的file對象;當達到目的后,nameidata這個數據結構將會馬上被釋放。
c.open_namei()用于查找一個文件:
1)、path_lookup_open()實現文件的查找功能;要打開的文件若不存在,還需要有一個新建的過程,則調用 path_lookup_create(),后者和前者封裝的是同一個實際的路徑查找函數,只是參數不一樣,使它們在處理細節上有所偏差;
2)、當是以新建文件的方式打開文件時,即設置了O_CREAT標識時需要創建一個新的索引節點,代表創建一個文件。在vfs_create()里的一句 核心語句dir-》i_op-》create(dir, dentry, mode, nd)可知它調用了具體的文件系統所提供的創建索引節點的方法。注意:這邊的索引節點的概念,還只是位于內存之中,它和磁盤上的物理的索引節點的關系就像 位于內存中和位于磁盤中的文件一樣。此時新建的索引節點還不能完全標志一個物理文件的成功創建,只有當把索引節點回寫到磁盤上才是一個物理文件的真正創 建。想想我們以新建的方式打開一個文件,對其讀寫但最終沒有保存而關閉,則位于內存中的索引節點會經歷從新建到消失的過程,而磁盤卻始終不知道有人曾經想 過創建一個文件,這是因為索引節點沒有回寫的緣故。
3)、path_to_nameidata()填充nameidata數據結構;
4)、may_open()檢查是否可以打開該文件;一些文件如鏈接文件和只有寫權限的目錄是不能被打開的,先檢查 nd-》dentry-》inode所指的文件是否是這一類文件,是的話則錯誤返回。還有一些文件是不能以TRUNC的方式打開的,若 nd-》dentry-》inode所指的文件屬于這一類,則顯式地關閉TRUNC標志位。接著如果有以TRUNC方式打開文件的,則更新 nd-》dentry-》inode的信息
不管是path_lookup_open()還是path_lookup_create()最終都是調用 __path_lookup_intent_open()來實現查找文件的功能。 查找時,在遍歷路徑的過程中,會逐層地將各個路徑組成部分解析成目錄項對象,如果此目錄項對象在目錄項緩存中,則直接從緩存中獲得;如果該目錄項在緩存中 不存在,則進行一次實際的讀盤操作,從磁盤中讀取該目錄項所對應的索引節點。得到索引節點后,則建立索引節點與該目錄項的聯系。如此循環,直到最終找到目 標文件對應的目錄項,也就找到了索引節點,而由索引節點找到對應的超級塊對象就可知道該文件所在的文件系統的類型。 從磁盤中讀取該目錄項所對應的索引節點;這將引發VFS和實際的文件系統的一次交互。從前面的VFS理論介紹可知,讀索引節點方法是由超級塊來提供的。而 當安裝一個實際的文件系統時,在內存中創建的超級塊的信息是由一個實際文件系統的相關信息來填充的,這里的相關信息就包括了實際文件系統所定義的超級塊的 操作函數列表,當然也就包括了讀索引節點的具體執行方式。 當繼續追蹤一個實際文件系統ext3的ext3_read_inode()時,可發現這個函數很重要的一個工作就是為不同的文件類型設置不同的索引節點操 作函數表和文件操作函數表。
void ext3_read_inode(struct inode * inode)
{
……
//是普通文件
if (S_ISREG(inode-》i_mode)) {
inode-》i_op = &ext3_file_inode_operations;
inode-》i_fop = &ext3_file_operations;
ext3_set_aops(inode);
} else if (S_ISDIR(inode-》i_mode)) {
//是目錄文件
inode-》i_op = &ext3_dir_inode_operations;
inode-》i_fop = &ext3_dir_operations;
} else if (S_ISLNK(inode-》i_mode)) {
// 是連接文件
……
} else {
// 如果以上三種情況都排除了,則是設備驅動
//這里的設備還包括套結字、FIFO等偽設備
……
}
這是VFS與實際的文件系統聯系的一個關鍵點。從3.1.1小節分析中可知,調用實際文件系統讀取索引節點的方法讀取索引節點時,實際文件系統會根據文件 的不同類型賦予索引節點不同的文件操作函數集,如普通文件有普通文件對應的一套操作函數,設備文件有設備文件對應的一套操作函數。這樣當把對應的索引節點 的文件操作函數集賦予文件對象,以后對該文件進行操作時,比如讀操作,VFS雖然對各種不同文件都是執行同一個read()操作界面,但是真正讀時,內核 卻知道怎么區分對待不同的文件類型。
static struct file *__dentry_open(struct dentry *dentry, struct vfsmount *mnt,
int flags, struct file *f,
int (*open)(struct inode *, struct file *))
{
struct inode *inode;
……
//整個函數的工作在于填充一個file對象
……
f-》f_mapping = inode-》i_mapping;
f-》f_dentry = dentry;
f-》f_vfsmnt = mnt;
f-》f_pos = 0;
//將對應的索引節點的文件操作函數集賦予文件對象的操作列表
f-》f_op = fops_get(inode-》i_fop);
……
//若文件自己定義了open操作,則執行這個特定的open操作。
if (!open && f-》f_op)
open = f-》f_op-》open;
if (open) {
error = open(inode, f);
if (error)
goto cleanup_all;
……
return f;
}
sys_read()系統調用用于從已打開的文件讀取數據。如read成功,則返回讀到的字節數。如已到達文件的尾端,則返回0。圖9是sys_read()實現代碼中的函數調用關系圖。
對文件進行讀操作時,需要先打開它。從3.1小結可知,打開一個文件時,會在內存組裝一個文件對象,希望對該文件執行的操作方法已在文件對象設置好。所以 對文件進行讀操作時,VFS在做了一些簡單的轉換后(由文件描述符得到其對應的文件對象;其核心思想是返回 current-》files-》fd[fd]所指向的文件對象),就可以通過語句 file-》f_op-》read(file, buf, count, pos)輕松調用實際文件系統的相應方法對文件進行讀操作了。
到此,我們也就能夠解釋在Linux中為什么能夠跨文件系統地操作文件了。舉個例子,將vfat格式的磁盤上的一個文件a.txt拷貝到ext3格式的磁 盤上,命名為b.txt。這包含兩個過程,對a.txt進行讀操作,對b.txt進行寫操作。讀寫操作前,需要先打開文件。由前面的分析可知,打開文件 時,VFS會知道該文件對應的文件系統格式,以后操作該文件時,VFS會調用其對應的實際文件系統的操作方法。所以,VFS調用vfat的讀文件方法將 a.txt的數據讀入內存;在將a.txt在內存中的數據映射到b.txt對應的內存空間后,VFS調用ext3的寫文件方法將b.txt寫入磁盤;從而 實現了最終的跨文件系統的復制操作。
不論是普通的文件,還是特殊的目錄、設備等,VFS都將它們同等看待成文件,通過同一套文件操作界面來對它們進行操作。操作文件時需先打開;打開文件 時,VFS會知道該文件對應的文件系統格式;當VFS把控制權傳給實際的文件系統時,實際的文件系統再做出具體區分,對不同的文件類型執行不同的操作。這 也就是“一切皆是文件”的根本所在。
VFS即虛擬文件系統是Linux文件系統中的一個抽象軟件層;因為它的支持,眾多不同的實際文件系統才能在Linux中共存,跨文件系統操作才能實現。 VFS借助它四個主要的數據結構即超級塊、索引節點、目錄項和文件對象以及一些輔助的數據結構,向Linux中不管是普通的文件還是目錄、設備、套接字等 都提供同樣的操作界面,如打開、讀寫、關閉等。只有當把控制權傳給實際的文件系統時,實際的文件系統才會做出區分,對不同的文件類型執行不同的操作。由此 可見,正是有了VFS的存在,跨文件系統操作才能執行,Unix/Linux中的“一切皆是文件”的口號才能夠得以實現。
評論
查看更多