The pxFileTypes() function inferres mass spectrometry and
proteomics file types based on a currated table of file types and
associated patterns. This table can be accessed with
fileTypes(). See the examples below for the content and format
of the table.
The types of the files in a PXDataset object can be accessed
with the pxfiles(as.vector = FALSE) function. See examples in the
pxfiles() manual page.
updatePxFileTypes() updates the file types of a PXDataset
instance using pxFileTypes(). This function also udpates the
cached object unless cache is set to NULL. This function is
useful to harmonise file types when the data in fileTypes() is
updated.
The file types table is generated by scripts/make_fileTypes.R.
fileTypes()
pxFileTypes(fls, types = fileTypes())
updatePxFileTypes(object, cache = rpxCache())character() of file names whose types need to be
inferred based on their file extenstion.
data.frame of file types. Default is
fileTypes().
Object of class PXDataset.
Object of class BiocFileCache.
A data.frame with the filenames and their inferred
types.
McDonald, W. et al. 2004. "MS1, MS2, and SQT-Three Unified, Compact, and Easily Parsed File Formats for the Storage of Shotgun Proteomic Spectra and Identifications." Rapid Communications in Mass Spectrometry 18 (18):2162–68.
Deutsch, Eric W. 2012. "File Formats Commonly Used in Mass Spectrometry Proteomics." Molecular & Cellular Proteomics 11 (12):1612–21.
File formats in PRIDE Archive: https://www.ebi.ac.uk/pride/markdownpage/pridefileformats.
fileTypes()
#> type ext
#> 1 archive zip
#> 2 archive tar.gz
#> 3 archive rar
#> 4 archive RAR
#> 5 archive 7z
#> 6 archive tgz
#> 7 archive ZIP
#> 8 archive tar
#> 9 archive tgz
#> 10 archive RAR
#> 11 archive bz2
#> 12 archive webarchive
#> 13 archive gz
#> 14 archive xy
#> 15 doc doc
#> 16 doc pdf
#> 17 doc PDF
#> 18 doc ppt
#> 19 doc odt
#> 20 doc docx
#> 21 doc pptx
#> 22 doc rtf
#> 23 doc html
#> 24 doc html
#> 25 doc htm
#> 26 doc shtml
#> 27 doc readme
#> 28 doc txt
#> 29 doc md
#> 30 doc css
#> 31 rawbin raw
#> 32 rawbin Raw
#> 33 rawbin RAW
#> 34 rawbin d
#> 35 rawbin d.zip
#> 36 rawbin raw.zip
#> 37 rawbin raw.gz
#> 38 rawbin wiff
#> 39 rawbin wiff2
#> 40 rawbin wiff.scan
#> 41 rawbin wiff.1.~idx2
#> 42 rawbin wiff.mtd
#> 43 rawbin t2d
#> 44 raw mzML
#> 45 raw mzML.gz
#> 46 raw mzML.zip
#> 47 raw mzXML
#> 48 raw mzXML.gz
#> 49 raw mzXML.zip
#> 50 raw mzxml
#> 51 raw MZXML
#> 52 raw TraML
#> 53 raw traML
#> 54 raw traml
#> 55 raw netCDF
#> 56 raw CDF
#> 57 raw mzData
#> 58 raw mzdata
#> 59 raw mz5
#> 60 raw imzML
#> 61 pkl mgf
#> 62 pkl MGF
#> 63 pkl mgf.gz
#> 64 pkl MGF.gz
#> 65 pkl pkl
#> 66 pkl pkl.gz
#> 67 pkl PKL
#> 68 maxquant res
#> 69 maxquant apl
#> 70 fas fas
#> 71 fas fasta
#> 72 fas fa
#> 73 fas faa
#> 74 fas FASTA
#> 75 fas fasts
#> 76 fas FALSE.gz
#> 77 fas FALSTA.zip
#> 78 fas fasta.gz
#> 79 fas fasta.zip
#> 80 fas fa.gz
#> 81 fas fa.zip
#> 82 fas faa.gz
#> 83 fas faa.zip
#> 84 reflib blib
#> 85 reflib elib
#> 86 reflib dlib
#> 87 reflib msp
#> 88 id mzIdentML
#> 89 id mzidentml
#> 90 id mzidentML
#> 91 id mzID
#> 92 id mzID.gz
#> 93 id mzid
#> 94 id mzid.gz
#> 95 id mzid.zip
#> 96 id dat
#> 97 id dat.gz
#> 98 id dat.zip
#> 99 id idXML
#> 100 id omx
#> 101 id IdXML
#> 102 id idxml
#> 103 id pepnovo
#> 104 id pcml
#> 105 id dta
#> 106 id dta.tgz
#> 107 id dta.tar.bz2
#> 108 tbl csv
#> 109 tbl tsv
#> 110 tbl xls
#> 111 tbl xlsx
#> 112 tbl XLSX
#> 113 tbl xlsb
#> 114 tbl ssv
#> 115 tbl csv.gz
#> 116 tbl tsv.gz
#> 117 tbl psmtsv
#> 118 tbl delim
#> 119 tbl tabular
#> 120 mztab mztab
#> 121 mztab mztab.gz
#> 122 mztab mzTab
#> 123 mztab mzTab.gz
#> 124 mztab mzTabNA
#> 125 mztab -mztab.txt
#> 126 mztab _mztab.txt
#> 127 mztab mztab.txt
#> 128 fig png
#> 129 fig jpg
#> 130 fig jpeg
#> 131 fig tiff
#> 132 fig TIF
#> 133 fig tif
#> 134 fig gif
#> 135 fig PNG
#> 136 fig JPG
#> 137 fig svg
#> 138 xml xml
#> 139 xml xml.gz
#> 140 prophet pepXML
#> 141 prophet protXML
#> 142 prophet pepxml
#> 143 prophet protxml
#> 144 bruker yep
#> 145 bruker baf
#> 146 scaffold sf3
#> 147 scaffold sptm
#> 148 scaffold sfdb
#> 149 scaffold sdia
#> 150 scaffold metdb
#> 151 pd pdResult
#> 152 pd msf
#> 153 pd pdResultView
#> 154 pd msfView
#> 155 pd pdAnalysis
#> 156 pd pdProcessingWF
#> 157 pd pdConsensusWF
#> 158 pd pdStudy
#> 159 pd pdStudy.bak
#> 160 sequest ms1
#> 161 sequest ms2
#> 162 sequest srf
#> 163 sequest sqt
#> 164 sequest out
#> 165 sequest out.tgz
#> 166 sequest out.tar.bz2
#> 167 proteinpilot group
#> 168 progenesis ProgenesisQIPExperiment
#> 169 progenesis ProgenesisQIPArchive
#> 170 progenesis ProgenesisLcmsExperiment
#> 171 progenesis ProgenesisQIPMultiFractionExperiment
#> 172 skyline sky
#> 173 skyline sky.view
#> 174 skyline view
#> 175 skyline skyd
#> 176 skyline skyl
#> 177 spectronaut sne
#> 178 spectronaut htrms
#> 179 peptideshaker cpsx
#> 180 params PARAMS
#> 181 params params
#> 182 params param
#> 183 params par
#> 184 params config
#> 185 params apar
#> 186 params knwf
#> 187 params json
#> 188 params toml
#> 189 params yaml
#> 190 params ini
#> 191 params mtd
#> 192 params index
#> 193 params method
#> 194 params Method
#> 195 params FAmethod
#> 196 params properties
#> 197 code R
#> 198 code py
#> 199 code r
#> 200 code pl
#> 201 code js
#> 202 code jar
#> 203 code Rmd
#> 204 code sh
#> 205 code ipynb
#> 206 exe exe
#> 207 exe bin
#> 208 exe dll
#> 209 data RData
#> 210 data RDS
#> 211 data sqlite
#> 212 data h5
#> 213 chk md5
#> 214 chk cksum
#> 215 chk chksum
#> 216 tmp bak
#> 217 tmp download
#> 218 tmp crdownload
#> 219 tmp sgdownload
#> 220 tmp temp
#> 221 tmp tmp
#> 222 gen gtf
#> 223 gen gff
#> 224 gen fastq
#> 225 gen vcf
#> 226 gen plink
#> pattern
#> 1 \\.zip$
#> 2 \\.tar\\.gz$
#> 3 \\.rar$
#> 4 \\.RAR$
#> 5 \\.7z$
#> 6 \\.tgz$
#> 7 \\.ZIP$
#> 8 \\.tar$
#> 9 \\.tgz$
#> 10 \\.RAR$
#> 11 \\.bz2$
#> 12 \\.webarchive$
#> 13 \\.gz$
#> 14 \\.xy$
#> 15 \\.doc$
#> 16 \\.pdf$
#> 17 \\.PDF$
#> 18 \\.ppt$
#> 19 \\.odt$
#> 20 \\.docx$
#> 21 \\.pptx$
#> 22 \\.rtf$
#> 23 \\.html$
#> 24 \\.html$
#> 25 \\.htm$
#> 26 \\.shtml$
#> 27 \\.readme$
#> 28 \\.txt$
#> 29 \\.md$
#> 30 \\.css$
#> 31 \\.raw$
#> 32 \\.Raw$
#> 33 \\.RAW$
#> 34 \\.d$
#> 35 \\.d\\.zip$
#> 36 \\.raw\\.zip$
#> 37 \\.raw\\.gz$
#> 38 \\.wiff$
#> 39 \\.wiff2$
#> 40 \\.wiff\\.scan$
#> 41 \\.wiff\\.1\\.~idx2$
#> 42 \\.wiff\\.mtd$
#> 43 \\.t2d$
#> 44 \\.mzML$
#> 45 \\.mzML\\.gz$
#> 46 \\.mzML\\.zip$
#> 47 \\.mzXML$
#> 48 \\.mzXML\\.gz$
#> 49 \\.mzXML\\.zip$
#> 50 \\.mzxml$
#> 51 \\.MZXML$
#> 52 \\.TraML$
#> 53 \\.traML$
#> 54 \\.traml$
#> 55 \\.netCDF$
#> 56 \\.CDF$
#> 57 \\.mzData$
#> 58 \\.mzdata$
#> 59 \\.mz5$
#> 60 \\.imzML$
#> 61 \\.mgf$
#> 62 \\.MGF$
#> 63 \\.mgf\\.gz$
#> 64 \\.MGF\\.gz$
#> 65 \\.pkl$
#> 66 \\.pkl\\.gz$
#> 67 \\.PKL$
#> 68 \\.res$
#> 69 \\.apl$
#> 70 \\.fas$
#> 71 \\.fasta$
#> 72 \\.fa$
#> 73 \\.faa$
#> 74 \\.FASTA$
#> 75 \\.fasts$
#> 76 \\.FALSE\\.gz$
#> 77 \\.FALSTA\\.zip$
#> 78 \\.fasta\\.gz$
#> 79 \\.fasta\\.zip$
#> 80 \\.fa\\.gz$
#> 81 \\.fa\\.zip$
#> 82 \\.faa\\.gz$
#> 83 \\.faa\\.zip$
#> 84 \\.blib$
#> 85 \\.elib$
#> 86 \\.dlib$
#> 87 \\.msp$
#> 88 \\.mzIdentML$
#> 89 \\.mzidentml$
#> 90 \\.mzidentML$
#> 91 \\.mzID$
#> 92 \\.mzID\\.gz$
#> 93 \\.mzid$
#> 94 \\.mzid\\.gz$
#> 95 \\.mzid\\.zip$
#> 96 \\.dat$
#> 97 \\.dat\\.gz$
#> 98 \\.dat\\.zip$
#> 99 \\.idXML$
#> 100 \\.omx$
#> 101 \\.IdXML$
#> 102 \\.idxml$
#> 103 \\.pepnovo$
#> 104 \\.pcml$
#> 105 \\.dta$
#> 106 \\.dta\\.tgz$
#> 107 \\.dta\\.tar\\.bz2$
#> 108 \\.csv$
#> 109 \\.tsv$
#> 110 \\.xls$
#> 111 \\.xlsx$
#> 112 \\.XLSX$
#> 113 \\.xlsb$
#> 114 \\.ssv$
#> 115 \\.csv\\.gz$
#> 116 \\.tsv\\.gz$
#> 117 \\.psmtsv$
#> 118 \\.delim$
#> 119 \\.tabular$
#> 120 \\.mztab$
#> 121 \\.mztab\\.gz$
#> 122 \\.mzTab$
#> 123 \\.mzTab\\.gz$
#> 124 \\.mzTabNA$
#> 125 -mztab\\.txt$
#> 126 _mztab\\.txt$
#> 127 \\.mztab\\.txt$
#> 128 \\.png$
#> 129 \\.jpg$
#> 130 \\.jpeg$
#> 131 \\.tiff$
#> 132 \\.TIF$
#> 133 \\.tif$
#> 134 \\.gif$
#> 135 \\.PNG$
#> 136 \\.JPG$
#> 137 \\.svg$
#> 138 \\.xml$
#> 139 \\.xml\\.gz$
#> 140 \\.pepXML$
#> 141 \\.protXML$
#> 142 \\.pepxml$
#> 143 \\.protxml$
#> 144 \\.yep$
#> 145 \\.baf$
#> 146 \\.sf3$
#> 147 \\.sptm$
#> 148 \\.sfdb$
#> 149 \\.sdia$
#> 150 \\.metdb$
#> 151 \\.pdResult$
#> 152 \\.msf$
#> 153 \\.pdResultView$
#> 154 \\.msfView$
#> 155 \\.pdAnalysis$
#> 156 \\.pdProcessingWF$
#> 157 \\.pdConsensusWF$
#> 158 \\.pdStudy$
#> 159 \\.pdStudy\\.bak$
#> 160 \\.ms1$
#> 161 \\.ms2$
#> 162 \\.srf$
#> 163 \\.sqt$
#> 164 \\.out$
#> 165 \\.out\\.tgz$
#> 166 \\.out\\.tar\\.bz2$
#> 167 \\.group$
#> 168 \\.ProgenesisQIPExperiment$
#> 169 \\.ProgenesisQIPArchive$
#> 170 \\.ProgenesisLcmsExperiment$
#> 171 \\.ProgenesisQIPMultiFractionExperiment$
#> 172 \\.sky$
#> 173 \\.sky\\.view$
#> 174 \\.view$
#> 175 \\.skyd$
#> 176 \\.skyl$
#> 177 \\.sne$
#> 178 \\.htrms$
#> 179 \\.cpsx$
#> 180 \\.PARAMS$
#> 181 \\.params$
#> 182 \\.param$
#> 183 \\.par$
#> 184 \\.config$
#> 185 \\.apar$
#> 186 \\.knwf$
#> 187 \\.json$
#> 188 \\.toml$
#> 189 \\.yaml$
#> 190 \\.ini$
#> 191 \\.mtd$
#> 192 \\.index$
#> 193 \\.method$
#> 194 \\.Method$
#> 195 \\.FAmethod$
#> 196 \\.properties$
#> 197 \\.R$
#> 198 \\.py$
#> 199 \\.r$
#> 200 \\.pl$
#> 201 \\.js$
#> 202 \\.jar$
#> 203 \\.Rmd$
#> 204 \\.sh$
#> 205 \\.ipynb$
#> 206 \\.exe$
#> 207 \\.bin$
#> 208 \\.dll$
#> 209 \\.RData$
#> 210 \\.RDS$
#> 211 \\.sqlite$
#> 212 \\.h5$
#> 213 \\.md5$
#> 214 \\.cksum$
#> 215 \\.chksum$
#> 216 \\.bak$
#> 217 \\.download$
#> 218 \\.crdownload$
#> 219 \\.sgdownload$
#> 220 \\.temp$
#> 221 \\.tmp$
#> 222 \\.gtf$
#> 223 \\.gff$
#> 224 \\.fastq$
#> 225 \\.vcf$
#> 226 \\.plink$
pxFileTypes("foo")
#> file type
#> 1 foo <NA>
pxFileTypes("foo.mzML")
#> file type
#> 1 foo.mzML raw
pxFileTypes("foo.raw")
#> file type
#> 1 foo.raw rawbin
pxFileTypes("foo.txt")
#> file type
#> 1 foo.txt doc
pxFileTypes("foo.R")
#> file type
#> 1 foo.R code
pxFileTypes("foo.fasta")
#> file type
#> 1 foo.fasta fas
pxFileTypes(c("foo", "foo.mzML", "foo.R", "foo.fasta"))
#> file type
#> 1 foo <NA>
#> 2 foo.mzML raw
#> 3 foo.R code
#> 4 foo.fasta fas