{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Modality Model"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Data Example"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {
    "tags": [
     "hide-input"
    ]
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>data_image_1</th>\n",
       "      <th>age</th>\n",
       "      <th>gender</th>\n",
       "      <th>subset</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>[45.44638769171786, 4.135743395582088, 65.4992...</td>\n",
       "      <td>66</td>\n",
       "      <td>F</td>\n",
       "      <td>TRAIN_VALIDATE</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>[31.103975653537624, 22.742018582560704, 55.72...</td>\n",
       "      <td>68</td>\n",
       "      <td>F</td>\n",
       "      <td>TRAIN_VALIDATE</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>[13.763440850143434, 27.696897834132383, 9.673...</td>\n",
       "      <td>30</td>\n",
       "      <td>M</td>\n",
       "      <td>TRAIN_VALIDATE</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>[15.53920410329618, 15.91871234560287, 6.62250...</td>\n",
       "      <td>22</td>\n",
       "      <td>F</td>\n",
       "      <td>TRAIN_VALIDATE</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>[2.9411769417824285, 3.895413833469064, 14.256...</td>\n",
       "      <td>18</td>\n",
       "      <td>F</td>\n",
       "      <td>TRAIN_VALIDATE</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>495</th>\n",
       "      <td>[31.417769500497954, 18.995660592781746, 22.10...</td>\n",
       "      <td>64</td>\n",
       "      <td>M</td>\n",
       "      <td>TEST</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>496</th>\n",
       "      <td>[43.17352410484374, 1.0359054168446515, 58.802...</td>\n",
       "      <td>59</td>\n",
       "      <td>F</td>\n",
       "      <td>TEST</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>497</th>\n",
       "      <td>[34.34416026557086, 5.521968600916665, 8.75701...</td>\n",
       "      <td>66</td>\n",
       "      <td>F</td>\n",
       "      <td>TEST</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>498</th>\n",
       "      <td>[13.252041660768269, 30.217646004227426, 10.73...</td>\n",
       "      <td>66</td>\n",
       "      <td>F</td>\n",
       "      <td>TEST</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>499</th>\n",
       "      <td>[42.12969225518131, 40.620030729772424, 25.058...</td>\n",
       "      <td>53</td>\n",
       "      <td>F</td>\n",
       "      <td>TEST</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>500 rows × 4 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "                                          data_image_1  age gender  \\\n",
       "0    [45.44638769171786, 4.135743395582088, 65.4992...   66      F   \n",
       "1    [31.103975653537624, 22.742018582560704, 55.72...   68      F   \n",
       "2    [13.763440850143434, 27.696897834132383, 9.673...   30      M   \n",
       "3    [15.53920410329618, 15.91871234560287, 6.62250...   22      F   \n",
       "4    [2.9411769417824285, 3.895413833469064, 14.256...   18      F   \n",
       "..                                                 ...  ...    ...   \n",
       "495  [31.417769500497954, 18.995660592781746, 22.10...   64      M   \n",
       "496  [43.17352410484374, 1.0359054168446515, 58.802...   59      F   \n",
       "497  [34.34416026557086, 5.521968600916665, 8.75701...   66      F   \n",
       "498  [13.252041660768269, 30.217646004227426, 10.73...   66      F   \n",
       "499  [42.12969225518131, 40.620030729772424, 25.058...   53      F   \n",
       "\n",
       "             subset  \n",
       "0    TRAIN_VALIDATE  \n",
       "1    TRAIN_VALIDATE  \n",
       "2    TRAIN_VALIDATE  \n",
       "3    TRAIN_VALIDATE  \n",
       "4    TRAIN_VALIDATE  \n",
       "..              ...  \n",
       "495            TEST  \n",
       "496            TEST  \n",
       "497            TEST  \n",
       "498            TEST  \n",
       "499            TEST  \n",
       "\n",
       "[500 rows x 4 columns]"
      ]
     },
     "execution_count": 1,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "from models import ModalityPredictorPCA, MODELTYPE\n",
    "from generate_random_input import generate_single_image_input\n",
    "\n",
    "\n",
    "df = generate_single_image_input()\n",
    "df[\"subset\"] = [\"TRAIN_VALIDATE\"]*int(df.shape[0]/2) + [\"TEST\"]*int(df.shape[0]/2)\n",
    "\n",
    "df"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Model"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {
    "collapsed": false,
    "jupyter": {
     "outputs_hidden": false
    },
    "pycharm": {
     "name": "#%%\n"
    },
    "tags": [
     "hide-input"
    ]
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style>#sk-41893229-7667-488c-8a3f-4716b554d5f6 {color: black;background-color: white;}#sk-41893229-7667-488c-8a3f-4716b554d5f6 pre{padding: 0;}#sk-41893229-7667-488c-8a3f-4716b554d5f6 div.sk-toggleable {background-color: white;}#sk-41893229-7667-488c-8a3f-4716b554d5f6 label.sk-toggleable__label {cursor: pointer;display: block;width: 100%;margin-bottom: 0;padding: 0.3em;box-sizing: border-box;text-align: center;}#sk-41893229-7667-488c-8a3f-4716b554d5f6 label.sk-toggleable__label-arrow:before {content: \"▸\";float: left;margin-right: 0.25em;color: #696969;}#sk-41893229-7667-488c-8a3f-4716b554d5f6 label.sk-toggleable__label-arrow:hover:before {color: black;}#sk-41893229-7667-488c-8a3f-4716b554d5f6 div.sk-estimator:hover label.sk-toggleable__label-arrow:before {color: black;}#sk-41893229-7667-488c-8a3f-4716b554d5f6 div.sk-toggleable__content {max-height: 0;max-width: 0;overflow: hidden;text-align: left;background-color: #f0f8ff;}#sk-41893229-7667-488c-8a3f-4716b554d5f6 div.sk-toggleable__content pre {margin: 0.2em;color: black;border-radius: 0.25em;background-color: #f0f8ff;}#sk-41893229-7667-488c-8a3f-4716b554d5f6 input.sk-toggleable__control:checked~div.sk-toggleable__content {max-height: 200px;max-width: 100%;overflow: auto;}#sk-41893229-7667-488c-8a3f-4716b554d5f6 input.sk-toggleable__control:checked~label.sk-toggleable__label-arrow:before {content: \"▾\";}#sk-41893229-7667-488c-8a3f-4716b554d5f6 div.sk-estimator input.sk-toggleable__control:checked~label.sk-toggleable__label {background-color: #d4ebff;}#sk-41893229-7667-488c-8a3f-4716b554d5f6 div.sk-label input.sk-toggleable__control:checked~label.sk-toggleable__label {background-color: #d4ebff;}#sk-41893229-7667-488c-8a3f-4716b554d5f6 input.sk-hidden--visually {border: 0;clip: rect(1px 1px 1px 1px);clip: rect(1px, 1px, 1px, 1px);height: 1px;margin: -1px;overflow: hidden;padding: 0;position: absolute;width: 1px;}#sk-41893229-7667-488c-8a3f-4716b554d5f6 div.sk-estimator {font-family: monospace;background-color: #f0f8ff;border: 1px dotted black;border-radius: 0.25em;box-sizing: border-box;margin-bottom: 0.5em;}#sk-41893229-7667-488c-8a3f-4716b554d5f6 div.sk-estimator:hover {background-color: #d4ebff;}#sk-41893229-7667-488c-8a3f-4716b554d5f6 div.sk-parallel-item::after {content: \"\";width: 100%;border-bottom: 1px solid gray;flex-grow: 1;}#sk-41893229-7667-488c-8a3f-4716b554d5f6 div.sk-label:hover label.sk-toggleable__label {background-color: #d4ebff;}#sk-41893229-7667-488c-8a3f-4716b554d5f6 div.sk-serial::before {content: \"\";position: absolute;border-left: 1px solid gray;box-sizing: border-box;top: 2em;bottom: 0;left: 50%;}#sk-41893229-7667-488c-8a3f-4716b554d5f6 div.sk-serial {display: flex;flex-direction: column;align-items: center;background-color: white;padding-right: 0.2em;padding-left: 0.2em;}#sk-41893229-7667-488c-8a3f-4716b554d5f6 div.sk-item {z-index: 1;}#sk-41893229-7667-488c-8a3f-4716b554d5f6 div.sk-parallel {display: flex;align-items: stretch;justify-content: center;background-color: white;}#sk-41893229-7667-488c-8a3f-4716b554d5f6 div.sk-parallel::before {content: \"\";position: absolute;border-left: 1px solid gray;box-sizing: border-box;top: 2em;bottom: 0;left: 50%;}#sk-41893229-7667-488c-8a3f-4716b554d5f6 div.sk-parallel-item {display: flex;flex-direction: column;position: relative;background-color: white;}#sk-41893229-7667-488c-8a3f-4716b554d5f6 div.sk-parallel-item:first-child::after {align-self: flex-end;width: 50%;}#sk-41893229-7667-488c-8a3f-4716b554d5f6 div.sk-parallel-item:last-child::after {align-self: flex-start;width: 50%;}#sk-41893229-7667-488c-8a3f-4716b554d5f6 div.sk-parallel-item:only-child::after {width: 0;}#sk-41893229-7667-488c-8a3f-4716b554d5f6 div.sk-dashed-wrapped {border: 1px dashed gray;margin: 0 0.4em 0.5em 0.4em;box-sizing: border-box;padding-bottom: 0.4em;background-color: white;position: relative;}#sk-41893229-7667-488c-8a3f-4716b554d5f6 div.sk-label label {font-family: monospace;font-weight: bold;background-color: white;display: inline-block;line-height: 1.2em;}#sk-41893229-7667-488c-8a3f-4716b554d5f6 div.sk-label-container {position: relative;z-index: 2;text-align: center;}#sk-41893229-7667-488c-8a3f-4716b554d5f6 div.sk-container {/* jupyter's `normalize.less` sets `[hidden] { display: none; }` but bootstrap.min.css set `[hidden] { display: none !important; }` so we also need the `!important` here to be able to override the default hidden behavior on the sphinx rendered scikit-learn.org. See: https://github.com/scikit-learn/scikit-learn/issues/21755 */display: inline-block !important;position: relative;}#sk-41893229-7667-488c-8a3f-4716b554d5f6 div.sk-text-repr-fallback {display: none;}</style><div id=\"sk-41893229-7667-488c-8a3f-4716b554d5f6\" class=\"sk-top-container\"><div class=\"sk-text-repr-fallback\"><pre>Pipeline(steps=[(&#x27;preprocessor&#x27;,\n",
       "                 ColumnTransformer(transformers=[(&#x27;dimensionality_reduction&#x27;,\n",
       "                                                  Pipeline(steps=[(&#x27;flatten&#x27;,\n",
       "                                                                   FlattenNestedArray()),\n",
       "                                                                  (&#x27;dimensionality_reduction&#x27;,\n",
       "                                                                   PCA(n_components=2,\n",
       "                                                                       svd_solver=&#x27;full&#x27;)),\n",
       "                                                                  (&#x27;scaler_pre&#x27;,\n",
       "                                                                   StandardScaler())]),\n",
       "                                                  &#x27;data_image_1&#x27;),\n",
       "                                                 (&#x27;gender_and_site_encoded&#x27;,\n",
       "                                                  OneHotEncoder(handle_unknown=&#x27;ignore&#x27;),\n",
       "                                                  [&#x27;gender&#x27;])])),\n",
       "                (&#x27;regressor&#x27;, EMRVR())])</pre><b>Please rerun this cell to show the HTML repr or trust the notebook.</b></div><div class=\"sk-container\" hidden><div class=\"sk-item sk-dashed-wrapped\"><div class=\"sk-label-container\"><div class=\"sk-label sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"d03301f5-2442-4b67-8b18-57e1c4d76242\" type=\"checkbox\" ><label for=\"d03301f5-2442-4b67-8b18-57e1c4d76242\" class=\"sk-toggleable__label sk-toggleable__label-arrow\">Pipeline</label><div class=\"sk-toggleable__content\"><pre>Pipeline(steps=[(&#x27;preprocessor&#x27;,\n",
       "                 ColumnTransformer(transformers=[(&#x27;dimensionality_reduction&#x27;,\n",
       "                                                  Pipeline(steps=[(&#x27;flatten&#x27;,\n",
       "                                                                   FlattenNestedArray()),\n",
       "                                                                  (&#x27;dimensionality_reduction&#x27;,\n",
       "                                                                   PCA(n_components=2,\n",
       "                                                                       svd_solver=&#x27;full&#x27;)),\n",
       "                                                                  (&#x27;scaler_pre&#x27;,\n",
       "                                                                   StandardScaler())]),\n",
       "                                                  &#x27;data_image_1&#x27;),\n",
       "                                                 (&#x27;gender_and_site_encoded&#x27;,\n",
       "                                                  OneHotEncoder(handle_unknown=&#x27;ignore&#x27;),\n",
       "                                                  [&#x27;gender&#x27;])])),\n",
       "                (&#x27;regressor&#x27;, EMRVR())])</pre></div></div></div><div class=\"sk-serial\"><div class=\"sk-item sk-dashed-wrapped\"><div class=\"sk-label-container\"><div class=\"sk-label sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"04896d97-bceb-434e-a9e5-9cb3411bba46\" type=\"checkbox\" ><label for=\"04896d97-bceb-434e-a9e5-9cb3411bba46\" class=\"sk-toggleable__label sk-toggleable__label-arrow\">preprocessor: ColumnTransformer</label><div class=\"sk-toggleable__content\"><pre>ColumnTransformer(transformers=[(&#x27;dimensionality_reduction&#x27;,\n",
       "                                 Pipeline(steps=[(&#x27;flatten&#x27;,\n",
       "                                                  FlattenNestedArray()),\n",
       "                                                 (&#x27;dimensionality_reduction&#x27;,\n",
       "                                                  PCA(n_components=2,\n",
       "                                                      svd_solver=&#x27;full&#x27;)),\n",
       "                                                 (&#x27;scaler_pre&#x27;,\n",
       "                                                  StandardScaler())]),\n",
       "                                 &#x27;data_image_1&#x27;),\n",
       "                                (&#x27;gender_and_site_encoded&#x27;,\n",
       "                                 OneHotEncoder(handle_unknown=&#x27;ignore&#x27;),\n",
       "                                 [&#x27;gender&#x27;])])</pre></div></div></div><div class=\"sk-parallel\"><div class=\"sk-parallel-item\"><div class=\"sk-item\"><div class=\"sk-label-container\"><div class=\"sk-label sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"c6aee91b-a6f0-40e8-8e02-bbc18d90553f\" type=\"checkbox\" ><label for=\"c6aee91b-a6f0-40e8-8e02-bbc18d90553f\" class=\"sk-toggleable__label sk-toggleable__label-arrow\">dimensionality_reduction</label><div class=\"sk-toggleable__content\"><pre>data_image_1</pre></div></div></div><div class=\"sk-serial\"><div class=\"sk-item\"><div class=\"sk-serial\"><div class=\"sk-item\"><div class=\"sk-estimator sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"25d7e48b-74ab-40e6-b836-9cd578761a41\" type=\"checkbox\" ><label for=\"25d7e48b-74ab-40e6-b836-9cd578761a41\" class=\"sk-toggleable__label sk-toggleable__label-arrow\">FlattenNestedArray</label><div class=\"sk-toggleable__content\"><pre>FlattenNestedArray()</pre></div></div></div><div class=\"sk-item\"><div class=\"sk-estimator sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"6f20fc0f-62fc-4b20-9db1-e6b423c7ebef\" type=\"checkbox\" ><label for=\"6f20fc0f-62fc-4b20-9db1-e6b423c7ebef\" class=\"sk-toggleable__label sk-toggleable__label-arrow\">PCA</label><div class=\"sk-toggleable__content\"><pre>PCA(n_components=2, svd_solver=&#x27;full&#x27;)</pre></div></div></div><div class=\"sk-item\"><div class=\"sk-estimator sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"90cf506e-9586-4e83-b31c-729061900c74\" type=\"checkbox\" ><label for=\"90cf506e-9586-4e83-b31c-729061900c74\" class=\"sk-toggleable__label sk-toggleable__label-arrow\">StandardScaler</label><div class=\"sk-toggleable__content\"><pre>StandardScaler()</pre></div></div></div></div></div></div></div></div><div class=\"sk-parallel-item\"><div class=\"sk-item\"><div class=\"sk-label-container\"><div class=\"sk-label sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"bbdde07f-4de5-4e51-b562-ba898bdb04cc\" type=\"checkbox\" ><label for=\"bbdde07f-4de5-4e51-b562-ba898bdb04cc\" class=\"sk-toggleable__label sk-toggleable__label-arrow\">gender_and_site_encoded</label><div class=\"sk-toggleable__content\"><pre>[&#x27;gender&#x27;]</pre></div></div></div><div class=\"sk-serial\"><div class=\"sk-item\"><div class=\"sk-estimator sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"09ab26b8-d806-4d38-925a-7c1f6f62e6ab\" type=\"checkbox\" ><label for=\"09ab26b8-d806-4d38-925a-7c1f6f62e6ab\" class=\"sk-toggleable__label sk-toggleable__label-arrow\">OneHotEncoder</label><div class=\"sk-toggleable__content\"><pre>OneHotEncoder(handle_unknown=&#x27;ignore&#x27;)</pre></div></div></div></div></div></div></div></div><div class=\"sk-item\"><div class=\"sk-estimator sk-toggleable\"><input class=\"sk-toggleable__control sk-hidden--visually\" id=\"ba5ee1ad-628f-4d22-a31a-00797b678035\" type=\"checkbox\" ><label for=\"ba5ee1ad-628f-4d22-a31a-00797b678035\" class=\"sk-toggleable__label sk-toggleable__label-arrow\">EMRVR</label><div class=\"sk-toggleable__content\"><pre>EMRVR()</pre></div></div></div></div></div></div></div>"
      ],
      "text/plain": [
       "Pipeline(steps=[('preprocessor',\n",
       "                 ColumnTransformer(transformers=[('dimensionality_reduction',\n",
       "                                                  Pipeline(steps=[('flatten',\n",
       "                                                                   FlattenNestedArray()),\n",
       "                                                                  ('dimensionality_reduction',\n",
       "                                                                   PCA(n_components=2,\n",
       "                                                                       svd_solver='full')),\n",
       "                                                                  ('scaler_pre',\n",
       "                                                                   StandardScaler())]),\n",
       "                                                  'data_image_1'),\n",
       "                                                 ('gender_and_site_encoded',\n",
       "                                                  OneHotEncoder(handle_unknown='ignore'),\n",
       "                                                  ['gender'])])),\n",
       "                ('regressor', EMRVR())])"
      ]
     },
     "execution_count": 3,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "from sklearn import set_config\n",
    "set_config(display=\"diagram\")\n",
    "\n",
    "number_components = 2\n",
    "predictor = ModalityPredictorPCA(df, \"data_image_1\", MODELTYPE.SINGLE_IMAGE,  5)\n",
    "\n",
    "model = predictor.get_single_modality_model(number_components, \"data_image_1\")\n",
    "model"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "collapsed": false,
    "jupyter": {
     "outputs_hidden": false
    },
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3 (ipykernel)",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.9.12"
  },
  "widgets": {
   "application/vnd.jupyter.widget-state+json": {
    "state": {},
    "version_major": 2,
    "version_minor": 0
   }
  }
 },
 "nbformat": 4,
 "nbformat_minor": 4
}