Data organization
by Makoto Kaneko MD, MClSc(Family Medicine), PhD
前回に引き続きWestern大学のAdvanced Quantitative Researchの事前課題論文の内容について予習とコースの紹介を兼ねて書いていきます。
今回は
Data Organization in Spreadsheets
https://www.tandfonline.com/doi/full/10.1080/00031305.2017.1375989
と
を取り上げます。
このコース全体は
2週間のオンサイト(カナダでの対面授業:今年はハイブリッド)とその後約半年のオンラインコースワーク
で構成されています。
現在このブログでは最初のオンサイト授業の事前課題を紹介しており
オンサイト授業1回目がStange先生のEditorial(全6本)が事前課題で、おそらく家庭医療領域の研究の意義や取り組むべき課題の話になると思います。
オンサイト授業2回目はこのブログの前回と今回の内容で
授業のタイトルとしては
Overview of statistical techniques and data analytic approaches setting up your data for analyses
となっています。
Data Organization in Spreadsheets
はデータセットをエクセルなどのスプレッドシートで作る時のコツが書いてあります。データセットは量的研究の最も基礎となる部分でとても大事なのですが、そのコツややり方が書いてある本は意外と少ないので参考になりました。ここでは12個のコツが紹介されていて
- Be consistent: 変数の名前やファイルの名前など色々なものに名前を付ける必要があるのですが、一貫した名前をつけましょう!ということです。同じものを指すのにMaleと書いたりmaleと書いたりすると統計ソフト内では違うものと見なされてしまいます。また、欠損値に関しても例えばNAという言葉を入れるならデータセット全体で統一してその表現を用いましょう。(著者らは本当に欠損なのか、スプレッドシートに書き忘れたのかが分からなくならないように欠損にはNAなど欠損を表す言葉を入れて全てのセルを埋めましょう、というスタンスです。999などの数値を入れるのはデータなのか欠損なのか分からなくなるので避けましょう、とあります)また、データのセルの中に欠損の理由などを言葉で書くのはやめるように勧めています。変数名、ファイル名も一貫したものにする、変数名などにスペースを入れない、などもポイントです。
- Choose good names for things: こちらは1と似ていますが、変数名を分かりやすくする、特殊文字や記号は入れない、ハイフンとアンダーバーを一つの変数に同時に入れないと言ったコツが紹介されており、良い名前と悪い名前の例が出ています。
- Write Dates as YYYY-MM-DD: 日付の書き方を統一しよう!ということで著者らはこの表記を推奨しています。(2022年9月10日なら2022–09–10)一つの列の中でこれがバラバラだと後で面倒くさいことになります。
- No Empty Cells: 1に書いた様な理由で著者らは空欄を作らないことを勧めています。(個人的には文字が入ると統計ソフトで扱いにくいの空欄にしています)
- Put Just One Thing in a Cell: 一つのセルに文字と数字など異なるものを入れない!他にも単位をつけない、セルを統合しないといったことが書かれています
- Make it a Rectangle: データセットは長方形になる様に!典型的には1行目は変数名で、対象者1名につき1行のデータセットを作ります。
- Create a Data Dictionary: 変数名とその説明についての対応表を作ろう!略称だけだと後で何だったか分からなくなるのでその説明を記録しておきましょう。また0/1などに分ける場合は0が何で、1が何かも分かりやすく書いておきましょう。
- No Calculations in the RawData Files: エクセルなどでデータセットを作っていたらそのファイルはデータだけにしてその中で計算したり、表を作ったりしないように!(間違えてデータを消したりしちゃうかも)
- Do Not Use Font Color or Highlighting as Data: データセットの中の文字に色を付けたりハイライトしないように!
- Make Backups: バックアップを取ろう!
- Use Data Validation to Avoid Errors: エクセルの「入力規則」機能を使おう!データが取り得る最大値や最小値、小数点以下何桁までか、などを設定することができ、本来取りえない値を見つけることが出来ます。
- Save the Data in Plain Text Files: CSVで保存しよう!データがシンプルになるし、多くのソフトで使えるCSV形式を推奨しています。
2つ目のStatistical notesのシリーズをは数字の表記について書いてあります。
・連続変数について:要約統計(代表値、ばらつきなど)は生データより小数点以下の桁数が2つ以上多くならないようにする
・カテゴリカル変数について:要約統計は頻度と割合を併記する。
・割合(%)は小数点以下1桁までで表すことが適切な場合が多い。
・検定について:小数点以下2桁までで表すことが多い
・“12.4–52.9"とすると-がマイナスなのかハイフンなのか分からないので“12.4 to 52.9”とする
必須の課題はここまでですがこの授業のoptional readingsには下記もあるので読んでみます。