.tsv
Code
TSV(Tab-Separated Values)
TSVはカンマの代わりにタブ文字で列を区切る表形式データフォーマットです。タブはデータ値に含まれることがほとんどないため、CSVの引用の複雑さを避けられ、バイオインフォマティクスやデータサイエンスのワークフローで解析がシンプルになります。
MIMEタイプ
text/tab-separated-values
種類
テキスト
圧縮
無劣化
メリット
- + Simpler parsing than CSV — no quoting rules needed
- + Tabs rarely appear in data, reducing ambiguity
- + Standard in bioinformatics and scientific data pipelines
デメリット
- − Less universally recognized than CSV in business tools
- − Cannot represent values containing tab characters
- − Some spreadsheet tools default to CSV, not TSV
.TSVを使うタイミング
データ値にカンマが頻繁に含まれる場合や、TSVが慣例となっている科学・バイオインフォマティクスパイプラインでTSVを使用してください。
技術的詳細
TSVファイルは列区切りにタブ文字(\t)、行区切りに改行を使用します。CSVとは異なり、TSVは引用を必要としません。フィールドにタブや改行を含めることができないだけです。
歴史
タブ区切りファイルは最も初期のメインフレームデータ処理から使用されてきました。TSVはIANAメディアタイプtext/tab-separated-valuesとして正式化され、バイオインフォマティクス(BLAST出力)、言語学、データウェアハウスで一般的に使用されています。