[stat] Logiciel et méthodes d'analyses

padpad · **Posté:** Ven Sep 22, 2006 3:23 pm

Bonjour les cépafo.

J'ai à gérer un annuaire assez large. (10/30 000)

Il y a dedans des donées de tous ordres ( pro, perso, privées, etc ..)
Tout l'aspect déontologie et cnil est traité par ailleurs.

L'annuaire est amené à vivre. et ce sont les gens qui sont dedans qui mettent eux-même leurs fiches à jour.

Je souhaite utiliser cet annuaire poru faire des traitements d'analyse en tout genre, à base souvent statistique.

J'ai en face de moi des tenants de la codification : codifions les métiers, codifions les fonctions, codifions les salaires, codifions etc ..... et après on n'aura plus qu'à analyser.

Mes vagues souvenirs de stats et d'analyse descriptive me font penser qu'uil vaut mieux
- ne pas décourager les gens et les laisser vagabonder dans le texte libre ou la rubrique semi-codifiée
- utiliser ensuite des outils et des méthodes de redressement des données manquantes pour faire de l'enrichissement de la base.

J'affirme qu'on aura un résultat plus riche avec des données "vrac amélioré" + une analyse statistique qu'avce des données "bien carrées" mais biaisées par l'utilisateur, sa compréhension, etc ..

Je prends une exemple pour échapper au cepafo.
Si je leur demande de saisir leur fonction en codifiant directeur, sous-directeur, directeur adjoint, chef de service etc ..
a) il y a quelques mauvaises habitudes de se la gonfler
b) directeur de quoi .. ? de Total ? de Novartis ? de SP ? de moi incoporated ?
Alosr que si je laisse exprimer le poste et que le croise avec une expression libre de la boite, uen expression libre des responsabilités etc ... j'identifierai bcp mieux la csP réelle il me semble , de plsu uen bonen analyse factorielle en composantes principales aevc élimination des extrêmes va me typer totu ça fissa

ma question
1° qu'en pensez-vous
2° avez-vous des références de méthodes ad-hoc
3° avez-vous des pistes de softs ad-hoc

merci

Le premeir qui me sort un CEPAFO !! GARE

zonethug · **Posté:** Ven Sep 22, 2006 4:40 pm

j'ai l'impression que ta réflexion est assez juste. Par exemple, parfois je dis que je suis assistante DA, et parfois je dis graphiste. Donc si on fait un query sur art* et que graphiste est codifié comme = art, ça doit sortir au même titre que assistante DA.

En ce qui concerne les softs, je gère mes questionnaires avec Sphinx. The best one.

cogito · **Posté:** Ven Sep 22, 2006 6:45 pm

Et on dit "Spafo".

Dominique · **Posté:** Ven Sep 22, 2006 7:02 pm

1. La codification sera forcément réductrice : pas bon.
Elle déporte sur celui qui saisit (et qui n'en a rien à faire) la problématique de celui qui analyse (qui lui est intéressé): re-pas bon.
Elle crée un "maître" de la codification, gourou-gardien qui seul arrive à la comprendre (ex les codes APE ou id) : rere-pas bon.
Et tout ça pour produire un résultat faux : (tous en coeur

rerere-pas bon.

2. connais pas de méthode

3. voir du côté des instituts de sondage ou des rois de la stat (ensae) ?

padpad · **Posté:** Ven Sep 22, 2006 7:05 pm

Dominique a écrit:

3. voir du côté des instituts de sondage ou des rois de la stat (ensae) ?

ben oui, justement :-)

)

Dominique · **Posté:** Ven Sep 22, 2006 7:21 pm

le message est parti.

Laurent · **Posté:** Sam Sep 23, 2006 12:05 am

Suis pas un expert en la matière, loin s'en faut...

Ton raisonnement me parai(ssai)t bon.
Mais pour avoir eu à "gérer" une base de cv sur internet... ne pas codifier alourdi considérablement les traitements de statistiques, même simples, voire oblige à un traitement manuel des différents libellés du type de ceux que tu décris, avant de commencer à faire quoique ce soit d'autre.

Quand il y a quelques centaines d'enregistrements dans la base, c'est gérable.
Quand on passe au delà, ce n'est plus vraiment possible...

ma contribution à deux balles...

Dominique · **Posté:** Sam Sep 23, 2006 1:02 pm

En attendant mieux : http://freestatistics.altervista.org/fr/stat.php

La difficulté avec le "métier" est de codifier sans réduire, les nomenclatures n'évoluant que rarement. Une même appellation peut désigner des fonctions différentes ou des appellations différentes la même fonction.
Peut-être qu'avec une granularité plus fine (tâches principales effectuées, type - fonctionnel, opérationnel, technique - , ...) on peut arriver à codifier
avec une réduction minimale. Ensuite, on peut regrouper selon le besoin.

vazivaza · **Posté:** Dim Sep 24, 2006 6:38 am

padpad a écrit:

Bonjour les cépafo.
Le premeir qui me sort un CEPAFO !! GARE

Veuillez m'excuser d'être le seul ignare ici, mais ... c'est quoi un CEPAFO ? ("c'est pas faux" ?)

Sinon (aïe ! je risque le CEPAFO), s'il s'agit d'une organisation genre "entreprise", y'a peut-être une solution intermédiaire, plus "organisationnelle" :
- saisie non structurée ou semi-structurée par la personne elle-même
- le responsable de la personne (du genre celui qui gère quelques dizaines de personnes) structure en interrogeant si nécessaire l'intéressé. Peut-être faut-il , pour que la structuration soit homogène, qu'il ait reçu avant quelques directives sur la manière de structurer (une p'tite doc).
Ca peut même se faire lors des entretiens individuels de la personne s'il y en a. Cela dit, ca poserait sûrement aussi un pb de confidentialité, s'il y a des infos perso et privées ...

Enfin ... ce que j'en dis juste une idée pour essayer de faire avancer le schmilblick ... j'y connais vraiment rien.

lafleurdesbois · **Posté:** Dim Sep 24, 2006 9:48 am

vazivaza, tu te compliques bien les choses tu sais :wink:

:

http://savoir-partager.suissemagazine.c ... php?t=4407

:lol:

padpad · **Posté:** Dim Sep 24, 2006 10:05 am

Sinon (aïe ! je risque le CEPAFO), s'il s'agit d'une organisation genre "entreprise", y'a peut-être une solution intermédiaire, plus "organisationnelle" :

===> il s'agit d'une grosse assoc

- saisie non structurée ou semi-structurée par la personne elle-même

==> OUI

- le responsable de la personne (du genre celui qui gère quelques dizaines de personnes) structure en interrogeant si nécessaire l'intéressé. Peut-être faut-il , pour que la structuration soit homogène, qu'il ait reçu avant quelques directives sur la manière de structurer (une p'tite doc).
Ca peut même se faire lors des entretiens individuels de la personne s'il y en a. Cela dit, ca poserait sûrement aussi un pb de confidentialité, s'il y a des infos perso et privées ...

===> non mais le souci c'ets que les 15 000 sotn pas des employés mais des adhérents .. la structure ne les gère pas, docn aps de relais, pas de chef de srevci etc .. sinion l'idée est excellente

Enfin ... ce que j'en dis juste une idée pour essayer de faire avancer le schmilblick ... j'y connais vraiment rien

==> tks anyway

vazivaza · **Posté:** Lun Sep 25, 2006 6:31 pm

lafleurdesbois a écrit:

vazivaza, tu te compliques bien les choses tu sais :wink:

:

http://savoir-partager.suissemagazine.c ... php?t=4407

:lol:

Aaaaargh ! une nuit blanche pour rien !

Merci lafleur ! :wink:

glutglut · **Posté:** Mar Sep 26, 2006 1:44 pm

Une analyse de question semi-ouverte pour 30000 réponses ! :lol:

A moins d'embaucher une poignée de stagiaire pour une année, t'y arrivera jamais ! Ce sera beaucoup trop long et en outre, ne débouchera que sur un classement catégoriel qu'il te faudra valider de nouveau, pour faire du travail propre soit par stats inférentielles, soit par consensus interjuges. Pour peu que cette validation soit complètement ratée, c'est reparti pour un tour.

En outre, ce n'est certainement pas une AF qui changera quoi que ce soit (l'ACP n'est pas pertinente, car confirmatoire) parce que :
1) ces analyses te donneraient des facteurs, lesquels seraient à analyser à partir de tes données. Tu n'en auras pas une sortie toute faite. En gros, on te dira qu'un premier facteur explique 12% des données. Tu sauras quelles réponses formeront ces 12%, mais il te faudra encore savoir pourquoi, c'est-à-dire "qu'est-ce qui dans ces réponses se ressemble", et en conséquence comment nommer ton facteur, ce qui ne te met nullement à l'abri de l'interprétation humaine.
2) sauf erreur de ma part, les AF se calculent sur des données de type "par intervalle", et non des données nominales, comme ce serait le cas ici... ouh la belle erreur d'ingénieur :wink:

(si je me trompe, je te raconte pas comme je vais avoir l'air malin)

A mon avis, le seul moyen de faire c'est de travailler sur doc et de créer ta classification a priori. Mais pas n'importe comment. En fait, tout dépend des informations que tu cherches à obtenir ensuite dans ton analyse statistique.
Par exemple, les clampins qui disent être directeur sans autre précision, ça peut être aussi intéressant à analyser pour peu que tu t'intéresses à ça. Il te faut donc t'interroger d'abord sur les questions auxquelles tu veux avoir des réponses en utilisant ta base de données. Une fois que tu as quelques idées précises, il te suffit de fermer les items et de faire tourner un Chi2 pour savoir si l'âge du capitaine explique le cheval blanc d'Henri IV.
Ainsi, dans ton exemple, tu étais ennuyé parce que l'on ne sait pas la taille de la boîte et le niveau de responsabilité de l'individu. Et bien en deux ou trois questions fermées, tu peux l'appréhender :
1) Taille de la boîte
2) Nombre de personnes encadrées
Ou, si pertinent :
3) budget géré/an... etc.
La pertinence de cette fermeture peut elle-même être testée statistiquement.

En étant suffisament inventif, en se posant les bonnes questions et en utilisant une documentation pertinente, tu peux même réussir à obtenir des données par intervalle et donc lancer des analyses inférentielles beaucoup plus poussées, et donc informatives.
L'autre avantage, c'est qu'avec ce type de données, tu n'as pas besoin de te taper l'intentaire sur 30000 personnes. Tu peux te structurer un échantillon représentatif et fonctionner, comme tu l'as noté, avec des redressements statistiques et des intervalles de confiance qui n'invalideraient aucune de tes analyses par la suite. Pour mémoire, il suffit de 60 personnes pour faire tourner ton AF, 40 pour une ANOVA et seulement 10 pour une loi binomiale. Pour les méthodes de régression simple ou multiple, voire les modèles à équations structurales, on tape facilement beaucoup plus haut : entre 500 et 1000.

Dernier point : si tu n'arrives pas à te débarrasser des questions semi-ouvertes, fais remplir les questionnaires par les intéressés eux-mêmes. Passer par quelqu'un, cela donne des données pas toujours conformes à la réalité.

PS : message édité une fois.

padpad · **Posté:** Mar Sep 26, 2006 8:19 pm

Oh la vache, qu'est-ce qu'il me met.. et en plus avec raison.

Comme d'hab j'ai confondu les méthodes de validations d'hypothèses avec les méthodes descriptives .. ( tu peux redonern les vrais noms STP) et comme REDHAB, et celle là je ne me la pardonne pas, j'ai oublié que sur les variables non quantifiées .. je l'ai dans l'os pour les recherches de valeurs propres

Donc

(l'ACP n'est pas pertinente, car confirmatoire) parce que :

==> redonne stp les trois grandes branches que je meure pas idiot.

1) ces analyses te donneraient des facteurs, lesquels seraient à analyser à partir de tes données. Tu n'en auras pas une sortie toute faite. En gros, on te dira qu'un premier facteur explique 12% des données. Tu sauras quelles réponses formeront ces 12%, mais il te faudra encore savoir pourquoi, c'est-à-dire "qu'est-ce qui dans ces réponses se ressemble", et en conséquence comment nommer ton facteur, ce qui ne te met nullement à l'abri de l'interprétation humaine.

==> ca encore je peux prendre le risque mais le vrai pb que tu cites plus haut c'est que je ne maitrise pas la codif.

2) sauf erreur de ma part, les AF se calculent sur des données de type "par intervalle", et non des données nominales, comme ce serait le cas ici... ouh la belle erreur d'ingénieur :wink:

(si je me trompe, je te raconte pas comme je vais avoir l'air malin)

== et comme tu ne te trompes pas, je te dis pas comment j'ai lair c..

A mon avis, le seul moyen de faire c'est de travailler sur doc et de créer ta classification a priori. Mais pas n'importe comment. En fait, tout dépend des informations que tu cherches à obtenir ensuite dans ton analyse statistique.

==> ce qui est à moitié ce que je "leur" ai dit, à savoir que leur classif étant de m.., il n'en sortira rien

=> et à moitié le contraiore vu que je leur ai dit qu'il vallait mieux recuillir de la donnée brute riche qeu dela dnéne mal doée sur uen claaif de m..

==> dis moiq ue si ma solution est pas bonne, mon objection est bonne, ça me fera plaisir

Par exemple, les clampins qui disent être directeur sans autre précision, ça peut être aussi intéressant à analyser pour peu que tu t'intéresses à ça. Il te faut donc t'interroger d'abord sur les questions auxquelles tu veux avoir des réponses en utilisant ta base de données. Une fois que tu as quelques idées précises, il te suffit de fermer les items et de faire tourner un Chi2 pour savoir si l'âge du capitaine explique le cheval blanc d'Henri IV.

==> oui, mais là je ne cherche pas à démontre la corrélation de deux facteurs, je cherche à segmenter proprement ma population AVANT de procéder aux analyses suivantes

Ainsi, dans ton exemple, tu étais ennuyé parce que l'on ne sait pas la taille de la boîte et le niveau de responsabilité de l'individu. Et bien en deux ou trois questions fermées, tu peux l'appréhender :
1) Taille de la boîte
2) Nombre de personnes encadrées
Ou, si pertinent :
3) budget géré/an... etc.
La pertinence de cette fermeture peut elle-même être testée statistiquement.

==> autrement dit ??? je demande ces trois critères, je pose mes n "portraits robots" en leur asscoiation des valeurs probables des 3 critères et je vérifie que mes portraits sont corrélés aux sous-ensembles ?

En étant suffisament inventif, en se posant les bonnes questions et en utilisant une documentation pertinente, tu peux même réussir à obtenir des données par intervalle et donc lancer des analyses inférentielles beaucoup plus poussées, et donc informatives.

==> glou glou glou ... je suis largué

L'autre avantage, c'est qu'avec ce type de données, tu n'as pas besoin de te taper l'intentaire sur 30000 personnes. Tu peux te structurer un échantillon représentatif et fonctionner, comme tu l'as noté, avec des redressements statistiques et des intervalles de confiance qui n'invalideraient aucune de tes analyses par la suite.

==> ca sous entedn que je me dispense des "missing ? "

Pour mémoire, il suffit de 60 personnes pour faire tourner ton AF, 40 pour une ANOVA et seulement 10 pour une loi binomiale. Pour les méthodes de régression simple ou multiple, voire les modèles à équations structurales, on tape facilement beaucoup plus haut : entre 500 et 1000.

===> glou glou glou

Dernier point : si tu n'arrives pas à te débarrasser des questions semi-ouvertes, fais remplir les questionnaires par les intéressés eux-mêmes. Passer par quelqu'un, cela donne des données pas toujours conformes à la réalité.

==> ca je ne peux pas

j'en retiens

- que je dois structurer mieux mon questionnaire en fonction de l'analyse que je veux faire. Jai toujours espéré que les stats c'était garbage in, light out .. bouh ...

- qu'il est illusoire depenser que je vais collecter aujorud'hui pour els futures analyses de demain ( cf supra ..)

- que sur un questionnaire un peu bien conçu, je peux utiliser des questions de recoupement et améliorer la qualité de mes données - mais via des suppositions à valider

- que j'ai pas commpris le reste .. esssplique et merci

glutglut · **Posté:** Mer Sep 27, 2006 7:01 pm

Attends, je comprends pas tout. Tu as déjà tes données ou tu les as pas ??

Sinon, j'essaie d'anticiper un peu :

Mettons que tu as déjà toutes tes données, et que tu les as encodées. Ensuite, tu voudrais faire quoi exactement comme analyses ? Tu peux me donner des exemples de questions auxquelles tu voudrais des réponses (à l'aide d'outils statistiques) à partir de ton fichier ?

Pour le reste de ton message, voici ce que je peux te dire :

1) Méthodes de validation d'hypothèse VS descriptives
Il y a les statistiques descriptives qui, comme leur nom l'indique décrivent un ensemble de données et les statistiques inférentielles, qui permettent de tester des hypothèses à partir de ces données. Ce que tu appelles les stats de "validation d'hypothèse", c'est cette dernière. A noter cependant que les stats ne valident jamais une hypothèse : ça dit juste qu'une hypothèse n'est pas infirmée, ce qui n'est pas la même chose.

2) Les différentes sortes d'analyse de données globales visant à résumer un ensemble de données :
L'analyse factorielle (exploratoire)
L'analyse en composantes principales (confirmatoire)
L'analyse des correspondances (je-ne-sais-plus-quoi-oire).
Mais il y en a d'autres en fonction du type de données dont tu disposes : échelonnement multidimensionnel (données ordinales, je crois), analyse d'image de Guttman (données nominales, je crois), etc.
Ce sont des vieux souvenirs alors si tu veux des précisions, dis-le moi et j'irai zyeuter dans mes vieux bouquins.

3) Le problème de la documentation
Vaut-il mieux des donnés carrées mais peu représentatives ou des données trop abondantes mais où toutes les infos pertinentes peuvent se retrouver ? Ni l'un ni l'autre. La première solution donne de mauvais résultats et la seconde aucun résultat à cause de l'inexploitabilité des données.
Ce qu'il faut c'est réfléchir avant, et pas après. Mais si malheureusement on a pas anticipé son traitement de données avant de les récolter, on se débrouille comme on peut et donc il vaut mieux la seconde solution, celle que tu préconises. Ainsi, si tu es dans cette situation, effectivement, l'objection est bonne. Par contre, bonjour le casse-tête.

4) La segmentation de population
On peut appeler ça aussi le codage. Je crois que je comprends un peu mieux ton problème.
Bref, nous avons ici deux points.
Le premier est qu'un test d'hypothèse n'est pas une corrélation. Une correlation est la quantification d'un lien entre deux variables, ce n'est pas explicatif. Un test d'hypothèse par contre te démontre que telle variable explique telles données.
Le second point c'est que ta "segmentation de population", tu peux la faire effectivement comme tu veux en fonction du codage que tu retiens. Mais cette segmentation va conditionner le type d'analyses que tu peux faire, et donc le type de questions auxquelles tu pourras trouver des réponses. Tout dépend encore une fois de ce qui t'intéresse.

5) Obtention de données par intervalle
Si tu demandes à tes sujets leur profession, tu auras des données nominales : directeur, boucher-charcutier, etc.
Le paramètre de tendance central est le mode (la catégorie où il y a le plus de monde), celui de dispersion est l'étendue.
Si tu demandes combien d'enfants ils ont, tu auras des données ordinales : 2, 3, 4, etc. Ces données ne sont pas par intervalle parce qu'il n'y a rien entre les chiffres. 1,73 enfant ne signifie rien.
La tendance centrale s'évalue par la médiane, la dispersion des données par l'écart inter-quartile.
Si tu demandes quel est leur revenu, tu auras plein de réponses que, par commodité tu vas classer en catégories : de 1 à 800 euros, de 800 euros à 2000 euros, etc. La taille et la régularité de ces catégories dépendent de la logique de ton objet. Ici tu as des données "par intervalles".
Leur paramètre descriptif de tendance centrale est la moyenne, celui de dispersion l'écart-type.
Plus tu vas vers les données "par intervalle", plus les analyses descriptives et inférentielles peuvent t'apporter d'éléments intéressants. Dans les données nominales, à part la catégorie où il y a le plus de monde, on ne peut pas savoir grand chose (je schématise). Dans la dernière, tu peux décrire très finement tes données, savoir combien de facteurs sous-jacents les expliquent, quels sont les liens qu'ils entretiennent, tu peux tester plein d'hypothèses, etc.

6) Les missings
Si tu as suffisament de données, tu peux ne pas te préoccuper des missings. En effet, si sur tes 30000 personnes, la moitié ont des valeurs manquantes, tu n'as qu'à faire tes analyses sur l'autre moitié pour peu qu'elle soit représentative en regard des variables que tu considères. Par exemple, si tu veux savoir l'influence de l'âge sur le revenu et que ta moitié avec des missings est à 90% composée de babyboomers, ça va planter ton analyse. En effet, ce sont ceux qui ont les plus gros salaires. Donc les virer d'une analyse sur le salaire biaise celle-ci. Par contre, tu peux utiliser ta moitié sans missings pour une analyse n'ayant rien à voir avec l'âge, par exemple une sur le lien entre le nombre d'amis et la localisation géographique.
Les analyses que je t'ai citées (ANOVA, binomiale, etc) sont statistiquement valides à partir d'un certain nombre de données. Donc si le groupe qui t'intéresse en regard de la question que tu te poses comporte suffisament de monde pour que l'analyse ne soit pas incorrecte, tu peux une nouvelle fois la faire tourner sans te préoccuper d'avoir des valeurs manquantes. Il te suffit d'avoir, selon l'analyse, 60 personnes, par exemple, pour que ça soit valide. Et tu as de grandes chances de trouver 60 données sans missings sur un fichier qui en comporte 30000, non ?
De plus, ces analyses permettent de répondre à des questions différentes.
Les analyses par régression demandent pas mal de monde. Elles visent à expliquer un groupe de données par un autre groupe de données et prouve donc une implication de l'une par l'autre.
Les analyses factorielles et autres visent à résumer un ensemble de données en les expliquant par un certain nombre de facteurs latents.
La modélisation par équation structurales te prouve des liens latents entre les facteurs de plusieurs analyses factorielles et peut tester de manière confirmatoire un certain nombre d'agencements explicatifs.
Plus l'analyse est complexe, plus elle est gourmande en données.

Dans le cas où tu n'arriverais pas à virer tes données manquantes, sache qu'il n'y a pas de règle clairement établie. Toutes les méthodes visant à les éliminer ou les remplacer sont discutables, discutées, et dépendent en définitive d'une réflexion sur ton objet d'étude.

Ouf, je suis pas fâché d'avoir terminé !

Savoir-Partager.SuisseMagazine.com - Bienvenue à tous -

[stat] Logiciel et méthodes d'analyses

Qui est en ligne